Big data

Big Data

Tecnicamente Big data è il termine usato per descrivere una raccolta di dati così estesa in termini di volume, velocità di costituzione e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di uno specifico dato. Il progressivo aumento della dimensione dei dataset è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive ad esempio l'analisi per sondare gli "umori" dei mercati e del commercio, e quindi del trend complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso Internet.

Nel 2010 Eric Schmidt, CEO di Google, ha fatto una dichiarazione importante ad un evento ad Abu Dhabi: "Un giorno abbiamo pensato che potevamo semplicemente utilizzare i dati di Google relativi ai suoi utenti per predire gli andamenti di Borsa, poi abbiamo deciso che era illegale, così ci siamo fermati".

Il giornalista John Battelle (2010) ha descritto Google come "la banca dati delle intenzioni umane". Battelle ha notato che le query di ricerca inseriti in Google esprimono i bisogni e i desideri umani. Memorizzando tutte quelle query (più di un trilione in un anno), Google può costruire un database di desideri. La conoscenza delle intenzioni rende quindi possibile a Google la previsione dei movimenti del mercato azionario (e molto altro). Naturalmente, né Google né nessun altro ha un database completo delle intenzioni umane, ma la forza della frase di Battelle è che ne suggerisce la possibilità. Che cosa si potrebbe fare con un database che contenga tutte le intenzioni umane?

Questi dati danno ad alcune aziende un grande potere per capire il mondo. Considerate i seguenti esempi:

il CEO di Facebook Mark Zuckerberg ha utilizzato i dati degli utenti per prevedere quali utenti di Facebook avrebbero iniziato delle relazioni (O'Neill 2010);
i ricercatori hanno utilizzato i dati di Twitter per prevedere gli incassi dei film (Asur e Huberman 2010);
Google con "Google Flu Trends" ha utilizzato i dati delle query per monitorare focolai di influenza in tutto il mondo (Ginsberg 2009)

Oggi una potente infrastruttura dati è disponibile solo a poche grandi imprese commerciali, e alle agenzie di intelligence. Senza l'accesso a tale infrastruttura dati, anche il programmatore più in gamba troverebbe estremamente ardua la progettazione di "Google Flu Trends".

Molti progetti pubblici esistenti, come Wikipedia e OpenStreetMap stanno generando i dati che possono essere analizzati su un singolo computer utilizzando software di mercato. Le societè commerciali hanno infrastrutture di dati ben oltre questa scala. I loro cluster di computer contengono centinaia di migliaia o milioni di computer. Utilizzano algoritmi sofisticati per eseguire calcoli distribuiti in tali cluster. Questo non richiede solo l'accesso ad hardware potente, ma anche ad algoritmi e strumenti specializzati, e molte persone con la conoscenza necessaria per fare tutto questo lavoro. Il ritorno economico associato a questa infrastruttura di dati enorme è data dalla possibilità di capire e di plasmare il mondo.

Il fatto è che c'è ancora molta confusione nel mondo sulla proprietà dei dati e dell'informazione e fino a che gli standard internazionali e quelli del diritto non risolveranno questo problema, le aziende possono gestire la situazione a proprio piacimento e decidere se rispettare o meno la privacy dei propri clienti.

Estratto da "Who Owns Big Data?" di Michael Nielsen MIT Technology review del 5 gennaio2015 (www.bbvaopenmind.com)

Torna a Post 2010-2016