Apple presenta Pico-Banana-400K: il maxi dataset per l’editing AI delle immagini

Un dataset da 400.000 immagini curate è stato rilasciato dai ricercatori Apple con l’obiettivo di migliorare il modo in cui i sistemi di intelligenza artificiale modificano le foto a partire da semplici comandi testuali.

Perché è importante

🔎 Secondo Apple, l’attuale addestramento dei modelli di editing visivo soffre di una lacuna cruciale. Anche se sistemi avanzati come GPT-4o riescono già oggi a realizzare modifiche sorprendenti ✨, i progressi restano frenati da un ostacolo fondamentale: la scarsità di dati reali, curati e di qualità.

🚧 Senza una base solida di immagini autentiche, l’evoluzione dell’AI visiva rischia di rimanere incompleta, limitata a risultati spettacolari ma non sempre affidabili.

💡 Ed è qui che entra in gioco Pico-Banana-400K: un dataset monumentale, progettato per colmare questa mancanza e offrire finalmente agli algoritmi ciò di cui hanno davvero bisogno per crescere. Non un semplice archivio di immagini, ma una vera e propria palestra di addestramento per spingere l’editing AI verso un livello superiore, più preciso, creativo e potente. 🚀

Cosa contiene Pico-Banana-400K

Il dataset è organizzato in 35 tipologie di modifiche suddivise in 8 categorie, che spaziano:

dalle regolazioni di base come i cambi di colore 🎨
fino a trasformazioni complesse, ad esempio convertire persone in personaggi stile Pixar o figure LEGO 🧱

Ogni immagine è stata sottoposta a un controllo qualità basato sull’AI di Apple, mentre il modello Gemini-2.5-Pro di Google ha valutato i risultati in base alla precisione delle istruzioni e alla qualità tecnica.

I tre sottoinsiemi specializzati

Il dataset include anche:

258.000 esempi di singola modifica per l’addestramento di base
56.000 coppie di preferenza che confrontano modifiche riuscite e fallite
72.000 sequenze multi-turno che mostrano l’evoluzione di un’immagine attraverso modifiche consecutive

Collaborazione e limiti del modello

Apple ha costruito Pico-Banana-400K utilizzando il modello di editing Gemini-2.5-Flash-Image (soprannominato “Nano-Banana”), rilasciato solo pochi mesi fa.

I test hanno mostrato risultati contrastanti:

✅ Le modifiche di stile globale hanno avuto successo nel 93% dei casi
❌ Compiti più precisi, come spostare oggetti o modificare testi, hanno avuto un tasso di successo inferiore al 60%

Obiettivo finale

✨ Nonostante i limiti attuali, i ricercatori ribadiscono con forza che Pico-Banana-400K rappresenta molto più di un semplice dataset: è una vera e propria pietra miliare, una base solida e visionaria per l’addestramento e la valutazione della prossima generazione di modelli di editing guidati dal testo.

🌍 Il dataset completo è stato reso disponibile gratuitamente su GitHub per finalità di ricerca non commerciale. Questo significa che sviluppatori, ricercatori e creativi di tutto il mondo hanno ora tra le mani uno strumento straordinario, capace di aprire la strada a nuove frontiere nell’editing delle immagini con l’AI.

🚀 Con Pico-Banana-400K, il futuro dell’editing visivo non è più un’ipotesi lontana: è già qui, pronto a trasformare il modo in cui interagiamo con le immagini e a dare vita a soluzioni sempre più potenti, precise e sorprendenti.

Mari T.

Redattrice appassionata ed esperta dell’universo Apple, esplora con attenzione l’evoluzione dei dispositivi di uso quotidiano, come iPhone, iPad e Mac. La sua curiosità si estende a tutto l’ecosistema di Cupertino, dagli accessori come Apple Watch e AirPods fino alle nuove frontiere di Apple Vision, garantendo una visione completa su come ogni prodotto si integri perfettamente nella vita reale.