ChatGPT Health sotto esame: dieci anni di dati Apple Watch mettono in crisi l’IA
L’integrazione tra ChatGPT Health e Apple Health promette analisi personalizzate basate sui dati biometrici degli utenti. Ma cosa succede quando l’intelligenza artificiale viene messa davvero alla prova con anni di informazioni reali? Un test approfondito condotto da un giornalista del Washington Post ha sollevato dubbi importanti sulla reale affidabilità di questi strumenti.
Cos’è ChatGPT Health e come funziona
OpenAI ha lanciato una nuova sezione dedicata alla salute, separata dall’esperienza standard del chatbot. Gli utenti possono collegare servizi come:
- Apple Health
- Function
- MyFitnessPal
- Weight Watchers
- AllTrails
- Instacart
- Peloton
L’obiettivo è fornire risposte più personalizzate, basate su dati concreti relativi a attività fisica, alimentazione, sonno e altri parametri biometrici.
ChatGPT Health può anche integrarsi con le cartelle cliniche, analizzando esami e risultati medici.
Il test: dieci anni di dati Apple Watch
Il giornalista Geoffrey Fowler ha deciso di verificare l’efficacia del sistema, concedendo all’IA l’accesso a:
- 29 milioni di passi registrati
- 6 milioni di misurazioni del battito cardiaco
Dopo aver elaborato i dati, ChatGPT Health ha assegnato al suo stato cardiaco un voto F, equivalente a un fallimento totale.
Il parere dei medici: “Valutazione infondata”
Preoccupato dal risultato, Fowler ha consultato il suo medico. La risposta è stata netta: il giudizio dell’IA non aveva alcun fondamento clinico.
Secondo il medico, il rischio cardiaco del giornalista è così basso che l’assicurazione non coprirebbe nemmeno eventuali test aggiuntivi.
Anche il cardiologo Eric Topol, della Scripps Research Institute, ha definito l’analisi dell’IA “baseless”, invitando gli utenti a non considerare questi strumenti come fonti di valutazioni mediche affidabili.
Il problema più grave: risposte incoerenti
Oltre al voto negativo, il test ha evidenziato un limite ancora più preoccupante: l’incoerenza.
- Ripetendo la stessa domanda, ChatGPT ha oscillato tra un voto F e un B.
- Il chatbot dimenticava informazioni essenziali come età e genere, nonostante avesse accesso completo ai dati.
Questi comportamenti mettono in discussione la stabilità del sistema e la sua capacità di interpretare correttamente dati complessi.
Claude di Anthropic: leggermente meglio, ma ancora insufficiente
Il chatbot Claude ha assegnato un voto C, quindi più positivo, ma anche in questo caso l’analisi non ha considerato i limiti dei dati provenienti dall’Apple Watch.
Sia OpenAI che Anthropic ribadiscono che i loro strumenti non sostituiscono un medico e non forniscono diagnosi.
Regolamentazione debole e rischi per gli utenti
La FDA statunitense ha dichiarato di voler favorire l’innovazione, intervenendo solo quando l’IA formula vere e proprie affermazioni cliniche.
ChatGPT e Claude sostengono di fornire semplici informazioni, ma il rischio è evidente:
- persone sane potrebbero spaventarsi inutilmente
- persone con problemi reali potrebbero ricevere valutazioni rassicuranti ma errate
Un mix potenzialmente pericoloso.
OpenAI promette miglioramenti
L’integrazione con Apple Health è attualmente disponibile solo per utenti beta.
OpenAI ha dichiarato di essere al lavoro per migliorare la coerenza delle risposte, sottolineando che il lancio con accesso limitato serve proprio a raccogliere feedback prima della distribuzione globale.
