Al Cnr di Pisa presentato un nuovo gruppo di ricerca

Big data Scientist, gli scienziati del futuro tra mondo cyber e mondo fisico

Le tracce digitali che ogni giorno lasciamo in rete, i dati che offrono e la ricerca di frontiera fra statistica, scienze computazionali e politiche

[18 Luglio 2013]

La grossa freccia che domina la grafica della locandina che illustra il convegno tenutosi questa mattina al Cnr a Pisa è chiara: Big Data. La direzione è quella, sia in senso economico che scientifico. Ed è con questo spirito che al convegno è stato presentata l’intenzione di riunire ricercatori provenienti da diverse discipline lungo la spinta comune dell’analisi dei dati. L’evento, promosso l’Istituto di scienza e tecnologie dell’informazione (Isti) e l’Istituto di informatica e telematica (Iit), entrambi del Cnr, e dal Dipartimento di Informatica dell’Università di Pisa, è il punto di partenza per una nuova fase di ricerca, come ha avuto modo di dire anche Domenico Laforenza, presidente del Cnr pisano, presentando il nuovo gruppo di ricerca.

«Da Pisa – spiega Laforenza – parte l’iniziativa di riunire la comunità scientifica che in maniera multidisciplinare, affronta i temi dei big data intendendosi quell’enorme mole di dati che tutti noi, cittadini, istituzioni e imprese, anche involontariamente, lasciamo quando usiamo internet con i nostri pc, tablet, smartphone. Dati che, nel più profondo rispetto della privacy dei cittadini, possono essere raccolti, anonimizzati nelle parti sensibili, e studiati con tantissime applicazioni concrete nella vita dei singoli o delle comunità».

“So big data”, questo il nome dell’iniziativa, presenta quindi un legame esclusivo, oltre che con la ricerca sociale, con il tema delle smart cities. Secondo quanto ha spiegato Marco Conti, direttore del Diitet (Dipartimento di Ingegneria – ICT e tecnologia per l’Energia e Trasporti), le città e la nostra vita sociale in generale, vivono su due distinti livelli: il mondo cyber e il mondo fisico, che non possono che comunicare fra loro scambiandosi dati e informazioni.

La stessa ricerca dev’essere effettuata su entrambi i livelli per poter aspirare alla completezza; un esempio su tutti? L’innovazione nel settore delle energie rinnovabili. Per Conte, «non è tanto dalle fonti in sé che ormai dobbiamo aspettarci grandi scoperte, quanto dall’integrazione fra le rinnovabili e le ICT, che è davvero il terreno su cui possono essere fatti passi avanti significativi. Del resto – ha aggiunto – la stessa Ue ci chiede di andare in questa direzione e i big data, come la loro analisi, servono a questo».

«Le smart cities sono un’ibridazione – ha aggiunto – fra il livello cyber e quello fisico, dove il primo è considerato il sistema nervoso della città fisica, in grado di coordinare le sue attività ma anche di monitorarle e saper cogliere le richieste che provengono dalle persone, i loro bisogni effettivi. I big data si rivelano strumenti fondamentali anche per il “social mining” – ovvero la capacità di studiare le relazioni sociali. Ma servono anche a cogliere macro aspetti del livello fisico».

Fosca Giannotti, ricercatrice dell’Istituto di Scienza e Tecnologie dell’Informazione Alessandro Faedo, mostra l’utilità dei big data nell’analisi, ad esempio dei flussi di mobilità: «Tramite i Gps è possibile monitorare gli spostamenti di un’intera città nelle diverse fasce orarie. Guardando le traiettorie dei dati si comprende bene come queste spesso ci raccontino delle storie, frutto di una complessità che necessariamente nasconde qualche semantica, qualche lettura possibile sul comportamento sociale».

Una misura del presente, o come viene spesso chiamato “nowcasting”, che se da un lato consente di integrare informazioni e analisi, dall’altro necessita ancora di figure professionali adeguate, per le quali lo stesso Cnr aspira a creare una nuova piattaforma didattica. Se infatti, come afferma la stessa ricercatrice, «solo una piccola percentuale degli automobilisti italiani utilizza il Gps, si apre un problema serio sulla reale rappresentatività dei dati raccolti. Per questa ragione l’approccio metodologico dei data scientists è sempre rivisto e verificato, perché la misura del presente è ben più complessa di quanto si possa pensare».

Altro esempio rilevante, citato da Giannotti, è quello legato all’utilizzo di big data nella ricerca epidemiologica: già da diverso tempo infatti questo aspetto della medicina trae grossi spunti dalle statistiche realizzabili a partire dai dati digitali, fino a poter addirittura predire con un certo anticipo l’esplosione e la localizzazione geografica di un’epidemia grazie all’analisi delle parole più cercate nei motori di ricerca.

Altra applicazione possibile, spiega Giannotti, «è quella relativa alla misurazione della felicità. Tramite Twitter – afferma – numerosi ricercatori hanno fornito delle mappe sulla felicità sia dei singoli che delle città». E senza entrare nel dettaglio dei parametri utilizzati, l’aspetto innovativo che evidenzia Giannotti «riguarda la stessa possibilità di estrapolare queste informazioni da masse di dati nuove».

Grandi dati uguale grande controllo. Potrebbe essere questo uno scenario possibile – e spesso lo è visto che la gestione effettiva dei grandi dati ad oggi è in mano di poche compagnie – ma anche l’orizzonte da contrastare. Quest’ultimo è l’approccio che espongono gli scienziati del Cnr, in particolare Dino Pedreschi del Dipartimento di Informatica dell’Università di Pisa, che proprio di “democratizzazione dei big data” ha parlato nel suo intervento, mettendo in evidenza come la discussione sul loro utilizzo sia in ultima istanza una discussione etica: «Un’etica responsabile in questo campo dev’essere la premessa», ha detto.

Suonano profetiche infatti le parole, ormai dette qualche anno fa, dal cybercritico Evgeny Morozov quando domandava: «Cosa succederà quando tutte le compagnie si accorgeranno che tutti i big data sono marketing data?». Non a caso Pedreschi cita l’ex commissario europeo Maglena Kuneva, quando ebbe modo di dire: «I dati personali sono il nuovo petrolio».

«Quanto alla diffusione e alla reale accessibilità ai big data siamo un po’ come ai tempi dei conquistadores – ha detto Pedreschi – quando i coloni scambiavano con i nativi grandi tesori in cambio di perline colorate. Questo spiega e rafforza la percezione diffusa che i big data siano frutto di tecnologie intrusive, ai limiti del controllo totale, ma spiega anche che c’è bisogno di bilanciare la disponibilità dei dati con un’effettiva partecipazione alla loro analisi e al loro utilizzo».

Giusto equilibrio quindi fra privacy e trasparenza, fiducia e coinvolgimento, monitoraggio e partecipazione. Affascinante l’approccio utilizzato da Pedreschi quando parla di “privacy by-design”, ovvero quella progettazione pensata a partire dal rispetto della privacy e dal compromesso fra utilità dei dati e intromissione nella vita privata. Il tutto, secondo il docente pisano, seguendo l’indicazione dell’oracolo di Delfi: “Conosci te stesso”, «premessa e finalità per creare ecosistemi digitali centrati sulla persona».