Limiti del Ragionamento IA: lo studio rivelatore di Apple
Un nuovo studio di ricerca di Apple ha messo in discussione la narrativa predominante sul “ragionamento” dei modelli di intelligenza artificiale come OpenAI e Claude, rivelando limitazioni fondamentali che suggeriscono che questi sistemi non stiano realmente ragionando.
Per lo studio, invece di utilizzare benchmark matematici standard soggetti a contaminazione dei dati, i ricercatori di Apple hanno progettato ambienti di puzzle controllabili come la Torre di Hanoi e l’Attraversamento del Fiume. Questo ha permesso un’analisi precisa sia delle risposte finali che delle tracce di ragionamento interno a diversi livelli di complessità.
I risultati sono sorprendenti. Tutti i modelli di ragionamento testati hanno mostrato un crollo totale dell’accuratezza oltre determinate soglie di complessità, scendendo a tassi di successo zero nonostante risorse computazionali adeguate. In modo contro-intuitivo, i modelli riducevano lo sforzo di elaborazione man mano che i problemi diventavano più complessi.
Fatto ancora più significativo, anche quando i ricercatori hanno fornito algoritmi di soluzione completi, i modelli hanno comunque fallito negli stessi punti di complessità. Questo indica che la limitazione non risiede nella strategia di risoluzione dei problemi, ma nell’esecuzione di passaggi logici di base.
Lo studio evidenzia tre regimi di prestazione distinti: modelli standard sorprendentemente migliori a bassa complessità, modelli di ragionamento vantaggiosi a complessità media, e fallimento totale ad alta complessità.
La conclusione principale è che gli attuali modelli di “ragionamento” si basano principalmente su sofisticati modelli di corrispondenza piuttosto che su genuine capacità di ragionamento. Suggerisce che i LLM non scalano il ragionamento come gli esseri umani, sovra-elaborando problemi semplici e pensando meno per quelli più difficili.
La pubblicazione arriva poco prima del WWDC 2025, dove Apple potrebbe concentrarsi meno sull’IA e più su nuovi design software.
