Come la scienza dei dati ci può aiutare a prendere decisioni informate. Se non ci facciamo spaventare dai numeri
Creiamo dati e consumiamo dati in una quantità e varietà di modi che fatichiamo a immaginare: dati che raccontano chi siamo, le nostre abitudini e i nostri comportamenti. Dati che possono migliorare la nostra qualità di vita, ma anche trarci in inganno soprattutto se di scarsa qualità o manipolati.
Far conoscere questo “mondo di dati” è una delle attività di Antonietta Mira, professoressa ordinaria della Facoltà di scienze economiche dell’Università della Svizzera italiana. Un importante progetto è stato l’esposizione “Diamo i numeri”, realizzata in collaborazione con L’ideatorio e grazie a un finanziamento del Fondo nazionale svizzero: questa mostra interattiva, dedicata a ragazze e ragazzi dai 6 anni, è stata inaugurata nel 2015 ed è stata esposta più volte in Ticino e in Italia; alcune delle sue postazioni sono state recentemente donate dall’USI alla Società svizzera di statistica, alla scuola cantonale di Bellinzona e all’Università dell’Insubria e avrà anche una versione virtuale che sarà presentata al Festival della statistica di Treviso.
usi
Prof.ssa Antonietta Mira
Professoressa Mira, andiamo con ordine: che intendiamo con “scienza dei dati”?
La scienza dei dati è la scienza che permette di estrarre informazioni dai dati, di passare dalle informazioni alla conoscenza e di rendere la conoscenza, come dicono in inglese, ‘actionable’, cioè in grado di aiutarci a prendere delle decisioni informate e fondate sui dati. Questo non vuol dire che la scienza dei dati debba sostituirsi ai decisori: semplicemente può aiutare a prendere delle decisioni migliori.
Il punto di partenza è quindi il dato che oggi non si limita a numeri o testi ma include anche immagini, video e più in generale tutte le tracce digitali che lasciamo in giro, come le coordinate GPS delle fotografie scattate dai nostri smartphone. La catena del valore prosegue estraendo dai dati grezzi l’informazione per poi passare alla conoscenza e si conclude con l’azione: il compito dello statistico, dello scienziato dei dati, è quello di separare l’informazione dal rumore e di cercare delle correlazioni, dei pattern e capire perché si verificano, se dietro si può intravedere un legame causa-effetto o se sono dovuti al caso.
Lo sviluppo dell’intelligenza artificiale come sta cambiando la scienza dei dati?
Parliamo di strumenti molto potenti ma, rispetto all’approccio tradizionale basato su modelli statistici, sono spesso poco trasparenti. Se addestro un algoritmo con un grande numero di immagini di animali, imparerà a distinguere le immagini di cani da quelle di gatti ma il tutto avviene in maniera opaca: non so quali elementi l’algoritmo prende in considerazione. E se per caso le immagini di addestramento erano tutte di gatti bianchi e di cani neri, l’algoritmo probabilmente si baserà semplicemente sul colore, considerando qualsiasi animale bianco un gatto e qualsiasi animale nero un cane.
L’esempio di cani e gatti può sembrare banale, ma se abbiamo un algoritmo per decidere chi nominare in posizioni dirigenziali e lo addestriamo ad esempio con i dati sulla composizione dei Consigli di amministrazione, è molto facile che l’algoritmo impari a scartare tutte le donne. La colpa in questi casi non è dell’algoritmo, ma dei dati che usiamo per addestrarlo; tuttavia partendo con un modello statistico in cui definisco quali sono i parametri di cui voglio tenere conto è più difficile incorrere in simili problemi.
Un’altra difficoltà riguarda l’incertezza: in genere gli algoritmi non indicano quale è il margine di incertezza di una conclusione mentre questa è un’informazione molto importante quando si devono prendere delle decisioni, quando si deve passare dalla conoscenza all’azione. Per fortuna grazie alla sempre più stretta collaborazione tra computer scientist e statistici adesso ci sono algoritmi che indicano il margine di incertezza.
In che modo la scienza dei dati può cambiare la nostra vita?
Si possono fare diversi esempi. Uno riguarda proprio il Ticino, un progetto anche questo finanziato dal Fondo nazionale svizzero che ho seguito insieme alla Fondazione Ticino Cuore e al Cardiocentro e che riguarda la distribuzione dei defibrillatori pubblici.
In caso di arresto cardiaco un minuto in più o in meno può fare la differenza; è quindi importante avere defibrillatori dove è più probabile che si verifichi un caso ma come saperlo? I dati, ovviamente anonimizzati, sugli arresti cardiaci avvenuti in Ticino negli ultimi anni, incrociati con altri dati come quelli sulla composizione, per genere ed età, della popolazione nei vari comuni, sulle condizioni meteorologiche e sulla qualità dell’aria permettono di tracciare una “mappa del rischio cardiaco”, identificando poi i luoghi dove installare i defibrillatori.
Un altro progetto al quale sto lavorando, in collaborazione con la Queensland University of Technology di Brisbane in Australia, riguarda la Grande barriera corallina e coinvolge attivamente la popolazione in quello che è un esempio di ‘citizen science’, la partecipazione attiva della cittadinanza alla conoscenza scientifica. Si tratta di monitorare il danneggiamento della barriera corallina partendo da diversi dati: quelli raccolti dai satelliti e droni sottomarini, ma anche le fotografie subacquee realizzate da chi fa immersione.
I cittadini possono contribuire non solo con nuovi dati, ma anche controllando e annotando i dati già raccolti, ad esempio specificando se quello che vediamo in una fotografia è un corallo o un’alga. In questo modo possiamo addestrare degli algoritmi che monitorano lo stato di salute della barriera corallina e comprendere l’effetto di eventi climatici come El Niño.
Voglio concludere con un’altra ricerca, condotta negli Stati Uniti, che riguarda gli effetti dell’inquinamento. Per le polveri sottili è stata stabilita una soglia di sicurezza da non superare, ma grazie alla scienza dei dati si è riusciti a mostrare che ci sono effetti nocivi sulla salute anche al disotto di quella soglia. In questo caso il lavoro è stato fatto prendendo i dati sulla qualità dell’aria e incrociandoli con le informazioni sanitarie, anonimizzate ma suddivise per codice postale. Escludendo altri fattori, come le condizioni socioeconomiche, che possono influire sulle condizioni di salute, si è visto che ci sono conseguenze sulla salute anche senza superare i limiti di polveri sottili.
Abbiamo parlato di decisioni informate: queste non riguardano solo i cosiddetti decisori politici, ma anche i comuni cittadini. Che però con i numeri hanno un rapporto spesso conflittuale. Insomma un dato può essere frainteso, o anche usato per ingannarci.
È vero. Per questo è fondamentale avere campagne di sensibilizzazione su questi argomenti, rivolte anche e soprattutto ai più giovani e ai docenti che svolgono un ruolo molto importante nella formazione.
Un altro problema, a proposito del nostro rapporto con i dati, l’informazione e la conoscenza, riguarda le fonti: da dove arriva questo dato? Chi l’ha raccolto? Chi l’ha elaborato e come? Sono aspetti importanti e purtroppo non sempre è facile trovarle. Se voglio documentarmi, ad esempio, sul cambiamento climatico, posso fare una ricerca online o consultare Wikipedia: in questo caso, bene o male, le fonti sono indicate. Ma se pongo una domanda a ChatGPT o a servizi analoghi, ottengo magari delle risposte pertinenti e ben articolate, ma non so più qual è la fonte e non è neanche facile ricostruirla. Dal momento che ChatGPT rielabora le sue risposte, non posso semplicemente inserire in un motore di ricerca le sue risposte per trovare la fonte e valutarne l’affidabilità, capire se ci sono conflitti di interesse o altri fattori.
Una rubrica a cura di