TECNOLOGIA

Il mondo del dottor ChatGPT

Possiamo fidarci dei consigli medici delle intelligenze artificiali? È rischioso lasciare simili sistemi senza supervisione

(depositphotos.ch)

Siamo pronti a raccontare i nostri sintomi a un’intelligenza artificiale? E, soprattutto, le intelligenze artificiali sono pronte a dare consigli medici? La risposta alla prima domanda è “sì”: del resto già da tempo per informazioni su farmaci e malattie si fa ricorso a motori di ricerca. Si tratta semplicemente di sostituite il “Dr. Google” con il “Dr. ChatGPT”; o di affiancarlo, visto che modelli di linguaggio come quello sviluppato da OpenAI saranno sempre più integrati nei motori di ricerca.

La risposta alla seconda domanda, se le intelligenze artificiali siano pronte, è invece più sfumata: sui temi che riguardano la salute, ChatGPT è impostato per consigliare agli utenti di rivolgersi a un medico e le risposte si sono rivelate corrette nella maggior parte dei casi – e decisamente errate in una non trascurabile minoranza di casi.

Ne abbiamo parlato con Marco Zaffalon, direttore scientifico dell’Istituto Dalle Molle di Studi sull’Intelligenza Artificiale (IDSIA USI-SUPSI), e con Alessandro Antonucci, docente-ricercatore senior all’IDSIA USI-SUPSI.

Oggi c’è ChatGPT, ma non è la prima volta che l’intelligenza artificiale viene applicata alle diagnosi mediche.

Antonucci: No, si è iniziato, negli anni Ottanta del Novecento, con lo sviluppo di cosiddetti “sistemi esperti” basati sulla conoscenza di medici. In pratica un sistema basato su due livelli: da una parte i sintomi, dall’altra le malattie, cercando di stabilire alcune regole per collegare i due livelli. “Se hai questi sintomi allora è probabile che tu abbia questa malattia”, formando una catena deduttiva.

Questi sistemi, basati su regole “se… allora…”, hanno però mostrato problemi, il principale dei quali è l’inconsistenza: con problemi complessi è inevitabile avere più catene di regole che però possono portare a conclusioni diverse. In pratica, partendo dagli stessi sintomi si arrivava a diagnosi diverse.

Si sono quindi tentate altre strade?

Antonucci: Sì, si è passati ad approcci probabilistici come le reti bayesiane. Non più regole del tipo “se… allora…” ma “questo sintomo aumenta la probabilità di avere questa malattia, quest’altro sintomo la diminuisce” eccetera. In pratica si è passati da regole logiche a modellare l’incertezza. È un approccio più solido, le reti bayesiane sono consistenti e infatti sono tuttora utilizzate.

Zaffalon: Entrambi questi approcci si basano sull’esperienza di un esperto: si fa una sorta di fotografia del processo di ragionamento dell’esperto, il che richiede chiaramente tempo e risorse. Una volta fatto questo è possibile interrogare il sistema come se si interrogasse l’esperto.

Antonucci: Anzi, l’obiettivo è avere una sorta di “superesperto”: non la copia di un singolo medico ma la somma dei migliori medici al mondo. E infinitamente replicabile, disponibile a tutti. Il problema è che realizzare questi sistemi è complicato e richiede molto tempo.

Qual è invece l’approccio di ChatGPT?

Zaffalon: Sistemi esperti e reti bayesiane si basano su un motore di ragionamento. ChatGPT non ha nulla di simile, è un modello di linguaggio studiato per un compito ben preciso: prevedere la prossima parola di un testo.

Quello che viene fatto è addestrare una rete neurale artificiale con grandi quantità di testi nei quali alcune parole sono nascoste. La rete cerca di prevedere quali sono le parole mancanti e noi, avendo il testo completo, possiamo correggere la previsione migliorando così il processo. Con questa fase di addestramento il sistema diventa molto abile nel prevedere la parola successiva e da lì, aggiungendo sempre nuove parole, a scrivere testi sempre più lunghi.

Non c’è nessun tipo di ragionamento, solo un meccanismo di previsione di parole. Il fatto che riesca a rispondere a delle domande, mostrando di fare dei ragionamenti è sorprendente – al di là del fatto che spesso sbaglia o dice assurdità –, è una capacità che ha sorpreso tutti, anche noi che facciamo ricerca.

Tutto questo solo ‘leggendo’ grandi quantità di testi?

Zaffalon: Sì, anche se bisogna fare attenzione. La fase di addestramento che abbiamo descritto permette al sistema di prevedere la prossima parola, ma perché il sistema sia in grado di rispondere a comandi o dialogare serve un lavoro aggiuntivo chiamato “Instruction”. In questa seconda fase le persone valutano le risposte della rete neurale e questo lavoro permette di affinare i risultati. È questo contributo umano che probabilmente ha determinato il grosso salto di qualità che abbiamo visto in ChatGPT, ma che di nuovo non riguarda le capacità di ragionamento.

Un modello di linguaggio come ChatGPT potrebbe essere usato per le diagnosi mediche?

Zaffalon: In ambiti sensibili, e le diagnosi mediche sono certamente un ambito sensibile, non puoi permetterti di dire “vabbè ogni tanto sbaglia” perché devi fare tutto il possibile per avere una diagnosi corretta. Quindi no, non puoi utilizzare ChatGPT, o un altro modello linguistico, per diagnosi mediche anche se in molti casi dirà cose corrette. Il rischio è che secondo me verrà utilizzato lo stesso, anche perché non tutti, inclusi molti medici, sanno come funzionano questi sistemi, quali sono i loro limiti. Per questo credo sia indispensabile, oggi, avere un minimo di conoscenze su queste tecnologie.

Puoi utilizzare un modello di linguaggio se c’è una supervisione, se c’è quindi un medico che controlla le diagnosi. Oppure se ChatGPT si limita a fare da “interfaccia” per una rete bayesiana creata partendo dall’esperienza di persone esperte. Tu racconti a ChatGPT come ti senti, lui lo traduce in un quadro clinico che poi sottopone alla rete bayesiana e poi ti presenta il risultato in linguaggio naturale. In questo modo il parere medico non è più basato sulla previsione della parola successiva più probabile, ma su inferenze che puoi controllare e verificare, per quanto rimanga sempre la possibilità di errore.

Il problema è che questi sistemi sono molto costosi da sviluppare, per cui per molte applicazioni sarà più semplice rifarsi a un modello di linguaggio “universale” anche se meno affidabile.

Quale può essere un’applicazione sensata di ChatGPT?

Zaffalon: Secondo me sistemi come questo sono molto utili per la parte creativa. Se sei uno scrittore o un giornalista non hai più il problema della pagina bianca che ti blocca, ma puoi partire da un testo prodotto da ChatGPT che poi puoi fargli riscrivere secondo le tue indicazioni e correggerlo. È come se avessi un folletto pazzo che ti dà un sacco di idee, ma è un folletto pazzo, non puoi lasciarlo lavorare da solo. Soprattutto se hai a che fare con un compito delicato.

C’è una frase attribuita a Hemingway che credo descriva molto bene la situazione: “Scrivi da ubriaco e correggi da sobrio”. Vale in letteratura ma anche nella scienza: la prima fase creativa deve essere più libera e “ubriaca” possibile, ma poi devi essere lucido per vagliare e sistemare. ChatGPT può fare la prima parte, ma non la seconda, almeno non ancora. Contrariamente a quello che si pensa, fa il creativo.

Qual è il limite principale di un modello di linguaggio come ChatGPT?

Antonucci: L’impossibilità di stabilire nessi causali, di capire se il fenomeno A abbia causato il fenomeno B, se sia avvenuto il contrario oppure se abbiamo semplicemente a che fare con una correlazione dovuta ad altri fattori. Semplicemente partendo dai dati con cui addestri un modello di linguaggio non puoi stabilire una relazione di causa ed effetto, ma serve un modello causale di qualche tipo.

Questo limite non riguarda solo le intelligenze artificiali, ma anche la ricerca scientifica: uno studio osservazionale, in cui raccogli dati, può mostrare la correlazione tra due fenomeni ma non stabilire se ci sia un nesso causale e quale sia. Puoi ad esempio osservare che le persone con cani fanno più attività fisica, ma dalla semplice osservazione non puoi capire se sia il fatto di avere un cane ad aumentare l’attività fisica o se le persone attive siano più propense a prendere un cane. Oppure se il fattore determinante sia la presenza di parchi che invogliano ad avere cani e fare lunghe camminate.

Un sistema basato sulla correlazione sarà in grado di fare delle ottime previsioni ma non sarà in grado di stabilire la presenza di un nesso causale tra due eventi. E in ambito medico il nesso causale è importante.

ChatGPT rimane fermo alla correlazione?

Zaffalon: Esatto: esistono teoremi che stabiliscono che alcune cose non puoi farle, partendo da un certo tipo di dati. Ma nei testi con cui un modello di linguaggio viene addestrato è contenuta la nostra conoscenza – e spesso è una conoscenza causale. Negli articoli scientifici non troviamo solo correlazioni, ma anche i meccanismi che spiegano quelle correlazioni. Al momento i modelli di linguaggio come ChatGPT ignorano questa parte e prevedono solo la parola successiva. Tuttavia se si trovasse il modo di fargli estrarre l’informazione causale contenuta in quei testi, allora la cosa diventerebbe molto interessante e sarebbe in grado di fare quelle deduzioni che interessano a noi. Il modello di linguaggio farebbe un salto verso le reti bayesiane e i sistemi esperti.

Spesso si afferma che serve un modello del mondo, un’idea non solo di come le cose si correlano ma anche di cosa causa cosa. Adesso ChatGPT non ha un modello del mondo, ma solo un modello del linguaggio.

Una rubrica a cura di