Apple presenta Pico-Banana-400K: il maxi dataset per l’editing AI delle immagini
Un dataset da 400.000 immagini curate è stato rilasciato dai ricercatori Apple con l’obiettivo di migliorare il modo in cui i sistemi di intelligenza artificiale modificano le foto a partire da semplici comandi testuali.
Perché è importante
🔎 Secondo Apple, l’attuale addestramento dei modelli di editing visivo soffre di una lacuna cruciale. Anche se sistemi avanzati come GPT-4o riescono già oggi a realizzare modifiche sorprendenti ✨, i progressi restano frenati da un ostacolo fondamentale: la scarsità di dati reali, curati e di qualità.
🚧 Senza una base solida di immagini autentiche, l’evoluzione dell’AI visiva rischia di rimanere incompleta, limitata a risultati spettacolari ma non sempre affidabili.
💡 Ed è qui che entra in gioco Pico-Banana-400K: un dataset monumentale, progettato per colmare questa mancanza e offrire finalmente agli algoritmi ciò di cui hanno davvero bisogno per crescere. Non un semplice archivio di immagini, ma una vera e propria palestra di addestramento per spingere l’editing AI verso un livello superiore, più preciso, creativo e potente. 🚀
Cosa contiene Pico-Banana-400K
Il dataset è organizzato in 35 tipologie di modifiche suddivise in 8 categorie, che spaziano:
- dalle regolazioni di base come i cambi di colore 🎨
- fino a trasformazioni complesse, ad esempio convertire persone in personaggi stile Pixar o figure LEGO 🧱
Ogni immagine è stata sottoposta a un controllo qualità basato sull’AI di Apple, mentre il modello Gemini-2.5-Pro di Google ha valutato i risultati in base alla precisione delle istruzioni e alla qualità tecnica.
I tre sottoinsiemi specializzati
Il dataset include anche:
- 258.000 esempi di singola modifica per l’addestramento di base
- 56.000 coppie di preferenza che confrontano modifiche riuscite e fallite
- 72.000 sequenze multi-turno che mostrano l’evoluzione di un’immagine attraverso modifiche consecutive
Collaborazione e limiti del modello
Apple ha costruito Pico-Banana-400K utilizzando il modello di editing Gemini-2.5-Flash-Image (soprannominato “Nano-Banana”), rilasciato solo pochi mesi fa.
I test hanno mostrato risultati contrastanti:
- ✅ Le modifiche di stile globale hanno avuto successo nel 93% dei casi
- ❌ Compiti più precisi, come spostare oggetti o modificare testi, hanno avuto un tasso di successo inferiore al 60%

Obiettivo finale
✨ Nonostante i limiti attuali, i ricercatori ribadiscono con forza che Pico-Banana-400K rappresenta molto più di un semplice dataset: è una vera e propria pietra miliare, una base solida e visionaria per l’addestramento e la valutazione della prossima generazione di modelli di editing guidati dal testo.
🌍 Il dataset completo è stato reso disponibile gratuitamente su GitHub per finalità di ricerca non commerciale. Questo significa che sviluppatori, ricercatori e creativi di tutto il mondo hanno ora tra le mani uno strumento straordinario, capace di aprire la strada a nuove frontiere nell’editing delle immagini con l’AI.
🚀 Con Pico-Banana-400K, il futuro dell’editing visivo non è più un’ipotesi lontana: è già qui, pronto a trasformare il modo in cui interagiamo con le immagini e a dare vita a soluzioni sempre più potenti, precise e sorprendenti.
