Ecco come Apple sta lavorando per migliorare l’intelligenza artificiale
Apple sta affrontando una sfida complessa: migliorare le funzionalità di Apple Intelligence, come Siri, basate su modelli linguistici di grandi dimensioni, garantendo al contempo la massima privacy per i suoi utenti. Raccogliere dati sufficienti per addestrare questi modelli è difficile, data la rigorosa politica di Apple sulla privacy.
Per superare questo ostacolo, Apple sta sviluppando metodi innovativi che preservano la privacy durante l’addestramento dell’IA. Un recente articolo sul blog di Machine Learning Research di Apple descrive alcune di queste tecniche.
In sostanza, Apple ha bisogno di dati per perfezionare la sintesi, gli strumenti di scrittura e altre funzionalità di Apple Intelligence, ma non vuole raccogliere dati direttamente dai singoli utenti. Per risolvere questo problema, Apple ha ideato un sistema per comprendere le tendenze di utilizzo attraverso la privacy differenziale e dati non collegati a singole persone. Apple crea dati sintetici che rappresentano le tendenze aggregate dei dati degli utenti reali e utilizza il rilevamento sul dispositivo per effettuare confronti, ottenendo così informazioni utili senza dover accedere a dati sensibili.
Il processo funziona così: Apple genera molteplici email sintetiche su argomenti comuni nelle email degli utenti, come un invito a una partita di tennis alle 15:00. Da queste email, Apple crea un “embedding”, ovvero una rappresentazione vettoriale che cattura informazioni specifiche sul linguaggio, l’argomento e la lunghezza dell’email. Vengono creati diversi embedding con diverse lunghezze e informazioni.
Questi embedding vengono inviati a un piccolo numero di utenti iPhone che hanno attivato “Analisi iPhone”. Gli iPhone che ricevono gli embedding selezionano un campione di email reali dell’utente e calcolano l’embedding anche per queste. L’iPhone confronta quindi l’embedding sintetico creato da Apple con l’embedding dell’email reale e determina quale dei primi è più simile al campione reale.
Apple utilizza la privacy differenziale per determinare quali embedding sintetici sono i più comunemente selezionati tra tutti i dispositivi. In questo modo, riesce a capire come vengono formulate le email più comuni senza mai vedere direttamente le email degli utenti e senza sapere quali dispositivi specifici hanno selezionato quali embedding come i più simili.
Apple spiega che gli embedding sintetici selezionati più frequentemente possono essere utilizzati per generare dati di addestramento o di test, oppure come esempi per un’ulteriore rifinitura dei dati. Questo processo consente ad Apple di migliorare gli argomenti e il linguaggio delle email sintetiche, il che a sua volta addestra i modelli a creare output di testo migliori per la sintesi delle email e altre funzionalità, tutto senza violare la privacy degli utenti.
Apple utilizza un approccio simile per i Genmoji, sfruttando la privacy differenziale per identificare i prompt e i modelli di prompt più popolari che possono essere utilizzati per migliorare la funzione di generazione di immagini. Apple utilizza una tecnica per garantire di ricevere solo prompt Genmoji utilizzati da centinaia di persone, evitando qualsiasi cosa specifica o unica che potrebbe identificare un singolo individuo.
Apple non può vedere i Genmoji associati a un dispositivo personale e tutti i segnali trasmessi sono anonimizzati e includono rumore casuale per nascondere l’identità dell’utente. Inoltre, Apple non collega alcun dato a un indirizzo IP o a un ID che potrebbe essere associato a un account Apple.
Con entrambi questi metodi, solo gli utenti che hanno scelto di inviare “Analisi iPhone” ad Apple partecipano ai test. Pertanto, se non si desidera che i propri dati vengano utilizzati in questo modo, è possibile disattivare questa opzione.
Apple prevede di espandere l’uso delle tecniche di privacy differenziale per migliorare Image Playground, la creazione di Ricordi, gli strumenti di scrittura e Visual Intelligence in iOS 18.5, iPadOS 18.5 e macOS Sequoia 15.5.
