ChatGPT Health sotto esame: dieci anni di dati Apple Watch mettono in crisi l’IA

L’integrazione tra ChatGPT Health e Apple Health promette analisi personalizzate basate sui dati biometrici degli utenti. Ma cosa succede quando l’intelligenza artificiale viene messa davvero alla prova con anni di informazioni reali? Un test approfondito condotto da un giornalista del Washington Post ha sollevato dubbi importanti sulla reale affidabilità di questi strumenti.

Cos’è ChatGPT Health e come funziona

OpenAI ha lanciato una nuova sezione dedicata alla salute, separata dall’esperienza standard del chatbot. Gli utenti possono collegare servizi come:

Apple Health
Function
MyFitnessPal
Weight Watchers
AllTrails
Instacart
Peloton

L’obiettivo è fornire risposte più personalizzate, basate su dati concreti relativi a attività fisica, alimentazione, sonno e altri parametri biometrici.
ChatGPT Health può anche integrarsi con le cartelle cliniche, analizzando esami e risultati medici.

Il test: dieci anni di dati Apple Watch

Il giornalista Geoffrey Fowler ha deciso di verificare l’efficacia del sistema, concedendo all’IA l’accesso a:

29 milioni di passi registrati
6 milioni di misurazioni del battito cardiaco

Dopo aver elaborato i dati, ChatGPT Health ha assegnato al suo stato cardiaco un voto F, equivalente a un fallimento totale.

Il parere dei medici: “Valutazione infondata”

Preoccupato dal risultato, Fowler ha consultato il suo medico. La risposta è stata netta: il giudizio dell’IA non aveva alcun fondamento clinico.
Secondo il medico, il rischio cardiaco del giornalista è così basso che l’assicurazione non coprirebbe nemmeno eventuali test aggiuntivi.

Anche il cardiologo Eric Topol, della Scripps Research Institute, ha definito l’analisi dell’IA “baseless”, invitando gli utenti a non considerare questi strumenti come fonti di valutazioni mediche affidabili.

Il problema più grave: risposte incoerenti

Oltre al voto negativo, il test ha evidenziato un limite ancora più preoccupante: l’incoerenza.

Ripetendo la stessa domanda, ChatGPT ha oscillato tra un voto F e un B.
Il chatbot dimenticava informazioni essenziali come età e genere, nonostante avesse accesso completo ai dati.

Questi comportamenti mettono in discussione la stabilità del sistema e la sua capacità di interpretare correttamente dati complessi.

Claude di Anthropic: leggermente meglio, ma ancora insufficiente

Il chatbot Claude ha assegnato un voto C, quindi più positivo, ma anche in questo caso l’analisi non ha considerato i limiti dei dati provenienti dall’Apple Watch.

Sia OpenAI che Anthropic ribadiscono che i loro strumenti non sostituiscono un medico e non forniscono diagnosi.

Regolamentazione debole e rischi per gli utenti

La FDA statunitense ha dichiarato di voler favorire l’innovazione, intervenendo solo quando l’IA formula vere e proprie affermazioni cliniche.
ChatGPT e Claude sostengono di fornire semplici informazioni, ma il rischio è evidente:

persone sane potrebbero spaventarsi inutilmente
persone con problemi reali potrebbero ricevere valutazioni rassicuranti ma errate

Un mix potenzialmente pericoloso.

OpenAI promette miglioramenti

L’integrazione con Apple Health è attualmente disponibile solo per utenti beta.
OpenAI ha dichiarato di essere al lavoro per migliorare la coerenza delle risposte, sottolineando che il lancio con accesso limitato serve proprio a raccogliere feedback prima della distribuzione globale.

Mari T.

Redattrice appassionata ed esperta dell’universo Apple, esplora con attenzione l’evoluzione dei dispositivi di uso quotidiano, come iPhone, iPad e Mac. La sua curiosità si estende a tutto l’ecosistema di Cupertino, dagli accessori come Apple Watch e AirPods fino alle nuove frontiere di Apple Vision, garantendo una visione completa su come ogni prodotto si integri perfettamente nella vita reale.