Uno studio da ‘archeologi dei dati’ ha scoperto che il modello di intelligenza artificiale è stato addestrato con la letteratura, soprattutto fantasy
Da Harry Potter a ‘1984’, passando per ‘Via col Vento’ e ‘Beloved’ del premio Nobel per la letteratura Toni Morrison. Ci sono 50 libri, tra cui molti classici della fantascienza e del fantasy come Harry Potter, che sono serviti ad addestrare il modello di intelligenza artificiale di ChatGpt. A scoprirlo il ricercatore David Bamman, dell'Università di Berkeley in California, che ha lavorato con un team di colleghi.
La scoperta di Bamman è stata casuale. Il ricercatore usa di solito la tecnologia per costruire "dispositivi di misurazione algoritmica per la cultura", in pratica estrae dati dalla letteratura classica su argomenti come le relazioni tra i vari personaggi di un romanzo. Nel caso specifico stava lavorando su ‘Orgoglio e pregiudizio’ di Jane Austen quando ha deciso di girare i suoi interrogativi a ChatGpt. E ha scoperto che il software era accurato nelle risposte come se lo avesse letto, ma non c'era modo di capire come il chatbot sapesse quello che sapeva poiché i meccanismi interni dei grandi modelli linguistici sono una scatola nera. Così Bamman e il suo team hanno deciso di diventare "archeologi dei dati". Hanno interrogato ChatGpt sulla conoscenza di vari libri e hanno dato un punteggio per ognuno. Più alto era il punteggio, più era probabile che quel libro facesse parte del set di dati del software. Poi hanno messo insieme le loro scoperte in una ricerca, di cui dà notizia il sito Business Insider.
L'elenco dei cinquanta romanzi che hanno contribuito ad addestrare ChatGpt – una piccola parte dell'immenso database del chatbot – comprende classici come ‘Moby Dick’, ‘La lettera scarlatta’, ‘Il colore viola’, ‘Quel che resta del giorno’ e ‘Furore’. Ma i libri con la percentuale di conoscenza più alta da parte del modello di IA sono libri di fantascienza e fantasy. In cima alla lista ci sono ‘Harry Potter e la pietra filosofale’ di J.K. Rowling e ‘1984’ di George Orwell; a seguire testi che hanno fatto la storia come ‘Il Signore degli Anelli’, ‘Fahrenheit 451’, ‘Il mondo nuovo’ ma anche ‘Neuromante’ di William Gibson e ‘Il cacciatore di androidi’ di Philip K. Dick che, ironia della sorte, sono stati tra i primi a suonare il campanello d'allarme sull'intelligenza artificiale. E ancora: ‘Il Trono di spade’, ‘Guida galattica per autostoppisti’, il ‘Codice da Vinci’. Nella lista dei libri assimilati da ChatGpt ci sono anche un paio di romanzi della saga di 007 di Ian Fleming, mentre tra i testi che ChatGpt conosce meno figurano ‘Shining’ e ‘I diari di Bridget Jones’.
"Le fonti su cui sono stati addestrati questi modelli di intelligenza artificiale influenzeranno il tipo di modelli stessi e i valori che presentano", osserva Bamman che al contempo si chiede: "Cosa succede quando un bot divora narrativa su tutti i tipi di mondi oscuri e distopici? In che modo questo genere può influenzare il comportamento di questi modelli in modi che non riguardano cose letterarie o narrative? C'è molto lavoro da fare in questo senso. Non abbiamo ancora la risposta a questa domanda", conclude il ricercatore.
Ci sono infatti dei rischi noti, sulla disinformazione o sull'informazione di parte o distorta, che si potranno sciogliere solo quando i programmatori di software di intelligenza artificiale apriranno i loro set di dati. Cosa che al momento non avviene anche da parte di OpenAI, la società che ha lanciato ChatGpt, nonostante il suo capo Sam Altman almeno pubblicamente abbia chiesto al Congresso americano di regolamentare la sua attività.