Big data: i segreti di Google Trends, dall’influenza al Pd

[14 novembre 2013]

C’è un fenomeno in Italia potenzialmente in grado di spiazzare Google e i server di Cupertino come strumento di analisi dalle capacità previsionali pressoché perfette. Facciamo un piccolo passo indietro.

Big data è una parola molto di moda, di questi tempi. Citata, spesso anche a sproposito, all’interno della comunità accademica.  La raccolta di informazioni capillari e real-time, unita a  capacità computazionali via via crescenti, sta rivoluzionando non solo il modo di elaborare statistiche, ma anche la possibilità di servirsene con finalità politiche.

È proprio la struttura di un dataset ad essere profondamente modificata: l’opportunità di raccogliere un continuum di informazioni relative a scelte di consumo e stati emozionali, per esempio – per non citare che una tra le tante possibilità applicative – offre l’opportunità di profilare ogni individuo, in modo di riuscire a predire le stesse scelte di consumo futuro o l’evoluzione del suo mood restituendo un’immagine sempre più nitida.

Big data, ormai, invade le nostre vite più di quanto riusciamo ad accorgercene: e non si fa soltanto riferimento allo scandalo che sta travolgendo le relazioni diplomatiche internazionali, con miliardi di intercettazioni effettuate da NSA in tutto il mondo. In realtà big data entra nelle vite di ciascuno ogni giorno, per esempio attraverso gli algoritmi con cui i diversi smartphones correggono i nostri refusi sulla base di dizionari che si aggiornano costantemente, e non solo facendo ricorso alla mole di parole digitate da ogni utente nel mondo, ma anche assecondando il nostro personale idioletto, fatto di parole che il telefonino impara a riconoscere proprio per mezzo di un’analisi continua di questo flusso di informazioni che noi stessi alimentiamo.

Ora, big data offre immediate applicazioni nell’ambito del marketing, proprio per quanto concerne le analisi di scelte di consumo che, ora, possono essere incrociate con il nostro network di contatti, con i nostri clic o like su un prodotto che cattura l’attenzione. Ma possono avere anche immense ricadute di politica pubblica.

Si pensi all’uso di Google per stimare i tassi di disoccupazione o il crescente utilizzo di modelli che tentano di stimare la probabilità che si verifichino disastri naturali o epidemie. Le possibilità sono davvero stimolanti e anche di stretta attualità.

Nel 2009, la rivista Nature ha pubblicato un articolo in cui viene descritta la modalità con cui, attraverso le ricerche sui motori come Google di un medicinale o di un rimedio, sia possibile predire il manifestarsi di ceppi virali influenzali che non seguono per forza la stagionalità (non a caso si parla di flu trends) con una prontezza in grado di fare risparmiare ingenti quantità di denaro in termini di salute pubblica. Insomma, si tratta di un settore ancora agli inizi, ma dalle enormi potenzialità e dalla complessità sfidante.

E ora veniamo all’Italia, perché c’è un fenomeno di sicuro interesse che può entrare nel mercato delle previsioni e sbaragliare la concorrenza. Guardate questo il grafico in alto a destra, tratto da Google Correlate per il periodo di riferimento 2004-2013.

Google Trends è uno strumento attraverso il quale è possibile investigare e accedere ai dati di ricerca sul web delle parole che si desidera. Si può specificare il dominio di interesse, l’orizzonte temporale, la località in cui si vuole concentrare la propria curiosità. È possibile anche scaricare i dati e servirsene per le analisi statistiche. Google Correlate, invece, permette di scoprire, di una specifica parola, la correlazione con ricerche che seguono lo stesso trend, con tanto di coefficiente a mostrare la robustezza del dato. Digitate, per esempio, la parola ‘Italia’ e scoprite parole per cui la ricerca sul web segue la stessa dinamica , anche qui con la possibilità di concentrarsi su zone specifiche del mondo e di scoprire nuove correlazioni disegnando, direttamente, una curva che segua un qualche andamento specifico.

Ma torniamo alla nostra figura. Volete sapere a quali parole si riferiscono le due curve blu e rossa? Beh, la curva rossa indica la dinamica della parola ‘influenza’ in Italia, con i suoi picchi quasi sempre posizionati tra dicembre e febbraio di ogni anno. E con una curiosa e fortissima correlazione col picco della curva blu.

Cioè, l’influenza ha il suo picco sempre immediatamente dopo il picco di un altro evento, collegato alla curva blu. Bene, quest’ultima indica l’andamento della parola ‘primarie’.

Tremate, dunque, o geni della Silicon Valley: in Italia ci bastano le assise del Partito Democratico per predire il diffondersi di un virus influenzale.

P.S. Comprate una scorta di tachipirina prima dell’8 dicembre

P.P.S. L’autore è chiaramente consapevole della coincidenza puramente temporale tra i fenomeni rappresentati e l’intento, anzi, è proprio quello di avvisare sulle possibili cantonate che si possono prendere con un’analisi superficiale di correlazioni. Lo scopo dell’articolo non è certo quello di denigrare l’utilizzo di nuovi metodi per un’analisi statistica che ha tutte le potenzialità di produrre in futuro una forte ricaduta sociale. Ovviamente, però, la qualità del dibattito pubblico richiede la giusta dose di autoironia per affrontare il futuro e, appunto, riuscire a mandare giù la pillola.