I TedTalks, per chi non li conoscesse, sono brevi e divertenti filmati didattici, della durata di pochi minuti, diffusi gratuitamente, nei quali esperti, ricercatori e personaggi noti raccontano esperienze e presentano brevissime lezioni (talks, appunto) su quasi ogni genere di materia. Alle volte sono argomenti molto triviali, come l’arte di allacciarsi le scarpe (e ciononoostante vi assicuriamo che dopo aver visto questo apparentemente ridicolo filmato abbiamo scoperto di aver raggiunto il mezzo secolo di vita senza aver mai imparato realmente come allacciarci le scarpe in modo sicuro), altre volte temi etici e filosofici. Con una caratteristica che fa naturalmente inorridire i cattedratici italiani: sono lezioni brevi ma interessanti, divertenti e istruttive. Esattamente l’opposto della maggior parte delle trombonate accademiche italiane.
Insomma, per dirla in tutta franchezza, sono proprio come i libri di Marcovalerio: interessanti ma sperabilmente anche leggibili.
Alle volte, queste lezioni dall’apparenza leggera aprono scenari inattesi. Come questo. Lo hanno visto oltre un milione e duecentomila persone.
Cosa abbiamo imparato da 5 milioni di libri
di Jean-Baptiste Michel e Erez Lieberman Aiden
Ecco cosa dicono i due ricercatori americani.
Erez Lieberman Aiden: Tutti sanno che un’immagine vale mille parole. ma noi di Harwardci stavamo chiedendo se fosse davvero così. (Risate) Perciò abbiamo messo insieme un gruppo di esperti, provenienti da Harvard, dall’MIT, dall’American Heritage Dictionary, dall’Encyclopedia Britannica e persino dal nostro gentile sponsor, Google. E ci abbiamo rimuginato sopra per circa quattro anni. E siamo giunti ad una conclusione sorprendente.Signore e signori, un’immagine non vale mille parole. In effetti abbiamo scoperto alcune immagini che valgono 500 miliardi di parole.
Jean-Baptiste Michel: Come siamo giunti a questa conclusione? Erez e io stavamo pensando ai diversi modi di ottenere una grande rappresentazione visiva della cultura umana, della sua storia e dei loro cambiamenti nel corso del tempo. Col passare degli anni sono stati scritti tantissimi libri, così abbiamo pensato: da questi milioni di libri é leggerli tutti.>. Se esiste una scala per misurare il grado di grandiosità delle cose, leggere tutti quei libri si piazza molto, molto in alto. Il problema è che c’è anche un asse X di cui tenere conto, l’asse della praticità. Sul quale si piazza molto, molto in basso
Molte persone tendono ad usare un approccio alternativo, che consiste nel prendere solo alcune fonti e leggerle molto attentamente. Estremamente pratico, ma non altrettanto grandioso. La cosa ideale da fare é riuscire ad arrivare nella parte grandiosa ma al contempo pratica di questo grafico. Si scopre che c’è un’azienda dall’altra parte del fiume chiamata Google, che alcuni anni prima aveva avviato un progetto di digitalizzazione che avrebbe potuto rendere quest’ultimo approccio possibile. Per questo progetto hanno digitalizzato milioni di libri. Ciò significa che una persona può utilizzare metodi computazionali per leggere tutti questi libri solo cliccando su un pulsante. -Questo- é sia molto pratico che assolutamente grandioso.
ELA: Lasciate che vi racconti qualcosa sulla provenienza dei libri. Da tempo immemore sono esistiti gli autori. Questi autori hanno sempre avuto l’ardente desiderio di scrivere libri, Cosa che divenne considerevolmente più facile con lo sviluppo della macchina tipografica alcuni secoli fa. Da allora, gli autori sono riusciti in 129 milioni distinte occasioni, a pubblicare libri. Ora, se quei libri non sono andati persi nel corso della storia,allora si trovano da qualche parte in una qualche libreria, e molti di quei libri sono stati reperiti dalle biblioteche e digitalizzati da Google, che ad oggi ha scansionato 15 milioni di libri.
Ora, quando Google digitalizza un libro, lo converte in un formato digitale molto pratico.Ora oltre ad avere i dati abbiamo anche i metadati. Abbiamo informazioni su cose come dove il libro fu pubblicato, chi era l’autore, quando venne pubblicato. E quel che facciamo è esaminare tutte quelle informazioni ed escludere tutto all’infuori dei dati della miglior qualità. Quello che resta è una selezione di cinque milioni di libri, 500 miliardi di parole,una riga di caratteri mille volte più lunga del genoma umano — un testo che, se venisse trascritto, coprirebbe la distanza tra qui e la luna, andata e ritorno per 10 volte — un autentico frammento del nostro genoma culturale. Ovviamente ciò che abbiamo fatto una volta messi di fronte ad una cosa così spaventosamente esagerata… (Risate) è stato ciò che qualunque ricercatore con un po’ di amor proprio avrebbe fatto. Abbiamo preso una pagina di XKCD e abbiamo detto: “Fatevi da parte. Qui stiamo per fare la scienza.”
JM: Ovviamente stavamo pensando: limitiamoci a mettere questi dati a disposizione di chiunque e lasciamo loro a “fare la scienza”. Ora stiamo pensando: “Quali dati possiamo divulgare?” Quello che vorremmo fare é prendere i libri e divulgare il testo integrale di questi cinque milioni di tomi. Google, e Jon Orwant in particolare, ci rivelarono una piccola equazione che dovremmo imparare. Se hai cinque milioni di libri hai anche cinque milioni di autori, e cinque milioni di querelanti fanno un’enorme causa legale. Perciò, anche se sarebbe stato davvero davvero grandioso, di nuovo, sarebbe stato anche molto molto poco fattibile. (Risate)
E così cedemmo di nuovo e ripiegammo sull’approccio più fattibile e un po’ meno grandioso. Ci dicemmo:” Ok, invece di divulgare il testo integrale divulgheremo le statistiche sui libri”. Prendete per esempio “Un barlume di felicità”. Sono quattro parole, noi lo chiamiamo un “quattro grammi”. Riveleremo quante volte uno specifico “quattro grammi” è apparso nei libri nel 1801, 1802, 1803, fino al 2008. Questo ci dà una serie temporale di quanto frequentemente questa particolare frase è stata usata nel tempo. Lo facciamo con tutte le parole e frasi che appaiono in quei libri, ottenendo così una grande tabella con due miliardi di righe che ci raccontano il modo in cui la cultura è cambiata.
ELA: Questi due miliardi di righe noi le chiamiamo due miliardi di n-grammi. Cosa ci raccontano? Gli n-grammi individuali misurano le tendenze culturali. Lasciate che vi faccia un esempio. Prendiamo il verbo irregolare “to thrive”, prosperare e immaginiamo che vi voglia dire che ieri ho prosperato. Potrei usare questa forma regolare. O, in alternativa, potrei usare questa forma irregolare. Hanno lo stesso significato, quale dovrei usare?Come scoprirlo?
All’inirca sei mesi fa l’approccio migliore in casi come questo era rivolgersi, ad esempio, a questo psicologo dalla favolosa capigliatura e chiedergli: “Steve, tu sei un esperto di verbi irregolari. Cosa dovrei fare secondo te?” E lui avrebbe detto: “Be’ la maggioranza delle persone usa thrived, ma alcune persone usano throve”. E tu sapevi anche, più o meno,che se fossi dovuto tornare indietro nel tempo di 200 anni e domandare al seguente luminare dalla capigliatura ugualmente favolosa, (Risate) “Tom, secondo te cosa dovrei dire?” Lui avrebbe detto: “Be’, di questi tempi la maggioranza della gente usa throve, ma alcuni usano thrived”. Quelli che intendo mostrarvi ora sono dati grezzi. Due righe da questa tabella di due miliardi di voci. Ciò che state vedendo è la frequenza anno dopo anno nell’uso di “thrived” e “throve” nella storia. Ora queste sono solo due righe fra due miliardi. Perciò l’intera collezione di dati è un miliardo di volte più grandiosa di questa diapositiva.
JM: Ora, ci sono molte altre immagini che valgono 500 miliardi di parole. Questa, ad esempio. Se semplicemente prendete la parola influenza, vedrete i picchi nel momento in cui sapevate che c’erano grandi epidemie di influenza che stavano mietendo vittime in tutto il mondo.
ELA: Se ancora non foste convinti, il livello del mare si sta innalzando, così come i livelli di anidride carbonica nell’atmosfera e la temperatura globale.
JM: Potreste inoltre voler dare un’occhiata a questo particolare n-grammo, giusto per poter dire a Nietzsche che Dio non è morto, anche se forse sarete d’accordo nel dire che avrebbe bisogno di un migliore agente.
ELA: Si può arrivare anche a concetti abbastanza astratti con questo metodo. Ad esempio, lasciate che vi racconti la storia dell’anno 1950. Durante buona parte della storia, a nessuno gliene fregava nulla del 1950. Nel 1700, nel 1800, nel 1900, a nessuno importava. Negli anni Trenta e Quaranta a nessuno importava Improvvisamente, a metà degli anni Quaranta, cominciò ad esserci del fermento. La gente si rese conto che il 1950 stava per arrivare, e poteva essere grandioso. (Risate) Ma nulla fece interessare la gente al 1950 come l’anno 1950. (Risate) La gente se ne andava in giro ossessionata. Non riuscivano a smettere di parlare di tutte le cose che fecero nel 1950, di tutte le cose che stavano pianificando di fare nel 1950, di tutti i sogni di cose che che volevano realizzare nel 1950. A conti fatti il 1950 fu così affascinante che negli anni a seguire la gente continuò a parlare di tutte le cose stupefacenti che accaddero, nel ’51, nel ’52 e nel ’53.Alla fine nel 1954 qualcuno si svegliò e si rese conto che il 1950 era in qualche modo passato di moda. (Risate) E improvvisamente la bolla esplose.
E la storia del 1950 è la storia di ogni anno che abbiamo in archivio, con una piccola variante, perché ora abbiamo questi bei diagrammi. E dato che abbiamo questi bei diagrammi, possiamo misurare le cose. Possiamo dire: “Quanto velocemente la bolla esplode?”. E si scopre che possiamo misurarla in maniera precisissima. Equazioni vennero dedotte, grafici furono realizzati ed il risultato definitivo é che scopriamo che la bolla esplode sempre più velocemente col passare di ciascun anno. Stiamo perdendo interesse nel passato più rapidamente.
JM: Ora un piccolissimo consiglio sulla carriera. Per quanti di voi che desiderano essere famosi, possiamo imparare dalle 25 figure politiche più famose, autori, attori e così via.Ad esempio, se volete diventare famosi da giovani, dovreste fare gli attori perché in quel caso la fama inizia a crescere con l’avvicinarsi dei trent’anni siete ancora giovani, è davvero meraviglioso. Se invece potete attendere un po’, potreste diventare degli autori,perché in quel caso raggiungerete vette altissime, come Mark Twain, ad esempio. Estremamente famoso. Ma se volete raggiungere il massimo dovreste rinviare le gratificazioni e, ovviamente, diventare un politico. In questo caso diventereste famosi verso la fine dei cinquant’anni, e molto molto famosi da andando avanti con l’età. Anche gli scienziati tendono a diventare famosi in età molto più avanzata. Biologi e fisici, ad esempio, tendono ad essere quasi tanto famosi quanto gli attori. Un errore che non dovreste commettere è quello di diventare dei matematici. (Risate) Se lo faceste potreste pensare: “Oh, fantastico! Realizzerò il mio miglior lavoro tra i venti e i trent’anni.” Ma, indovinate un po’? A nessuno importerà nulla.
ELA: Ci sono annotazioni più serie tra gli n-grammi. Ad esempio, ecco la traiettoria di Marc Chagall, un artista nato nel 1887. Questa sembra essere la normale traiettoria di una persona famosa. Diventa sempre più famoso, tranne quando si considerano gli n-grammi tedeschi. Se date uno sguardo in Germania, vedrete qualcosa di assolutamente bizzarro, qualcosa che non si vede praticamente mai, ovvero il fatto che diventa estremamente famoso e poi tutto a un tratto la sua fama precipita raggiungendo il punto più basso tra il 1933 e il 45, prima di recuperare terreno in seguito. Ovviamente quello che stiamo guardando è il fatto che Marc Chagall era un artista ebreo nella Germania nazista.
Ora questi segnali sono davvero tanto evidenti da non rendere necessario il sapere che qualcuno è stato censurato. Possiamo arrivarci tranquillamente usando teorie dei segnali davvero elementari. Ecco un modo facile per farlo. Ci si può ragionevolmente aspettareche la fama di una persona in un dato periodo di tempo sia approssimativamente la media della sua precedente fama e di quella successiva. Questo è un po’ quello che ci attendiamo. Ora, confrontiamo questo con la fama che osserviamo. E semplicemente dividiamo l’una per l’altra per produrre qualcosa che noi chiamiamo indice di repressione.Se l’indice di repressione di una persona è molto, molto, molto piccolo quella persona potrebbe benissimo star venendo censurata. Se è molto ampio, forse sta traendo beneficio dalla propaganda.
JM: Adesso potete dare un’occhiata alla distribuzione degli indici di repressione sull’intera popolazione Ad esempio, in questo caso: questo indice di repressione è quello di 5,000 persone estratte da libri inglesi in cui non risulta alcuna repressione. La distribuzione sarebbe questa, fondamentalmente distribuito attorno all’1. Ciò che si osserva è sostanzialmente identico alle aspettative. Questa è la distribuzione come vista in Germania; é molto diversa, spostata più a sinistra. La gente ne parlava due volte meno di quanto avrebbe teoricamente dovuto. Ma, cosa molto più importante, la distribuzione è molto più larga. Ci sono molte persone che finiscono nella parte più a sinistra della distribuzione di cui si parla circa 10 volte meno di quanto si sarebbe dovuto. Ma al contempo molte persone sulla parte più a destra che sembrano beneficiare della propaganda. Questa immagine è il marchio della censura nella storia dell’editoria.
ELA: Culturomica; è così che chiamiamo questo metodo. E’ un po’ come la genomica.Eccetto per il fatto che la genomica è uno spiraglio sulla biologia attraverso la finestra della sequenza di basi nel genoma umano. La culturomica è simile. E’ l’applicazione dell’analisi su larga scala di una raccolta di dati allo studio della cultura umana. Qui, invece che attraverso la lente di un genoma, è attraverso la lente di frammenti digitalizzati di registrazioni di carattere storico. La cosa esaltante della culturonomica è che chiunque può praticarla. Perché chiunque può praticarla? Chiunque può perché queste tre persone,Jon Orwant, Matt Gray e Will Brockman di Google videro il prototipo dell’Ngram Viewer. e dissero: “E’ così divertente. Dobbiamo renderlo disponibile al pubblico”. Quindi in due settimane giuste giuste, le due settimane precedenti alla pubblicazione del nostro saggioprogrammarono una versione dell’Ngram Viewer per il vasto pubblico. Così anche voi potete digitare una qualsiasi parola o frase alla quale siete interessati e vedere il suo n-grammo immediatamente; oltre a spulciare esempi di tutti i vari libri in cui appare il vostro n-grammo .
JM: Questo programma venne utilizzato un milione di volte durante il primo giorno di rilascio, e questa è la migliore di tutte le interrogazioni. Tutti vogliono essere best-qualcosa: best seller, best player… Ma si scopre che nel 18esimo secolo, alla gente non importava assolutamente nulla. Non volevano affatto essere “best-qualcosa”, volevano essere “beft-qualcosa”. Quello che è successo è, ovviamente, solamente un errore. Non è che si sforzassero di essere mediocri. Semplicemente un tempo si usava scrivere la S in maniera differente, un po’ come la F. Questa cosa Google al momento non la capì,quindi lo riferimmo nell’articolo scientifico che abbiamo scritto. Ma alla fine questo è solo un avvertimento sul fatto che, pur essendo molto divertente, interpretare questi grafici richiede molta cautela e bisogna farlo seguendo le regole base della scienza.
ELA: Le persone hanno usato questo strumento in un sacco di modi spassosi. (Risate) In realtà, non avremo nemmeno bisogno di parlare, ci limiteremo a mostrarvi tutte le diapositive restando in silenzio. Questa persona era interessata alla storia della frustrazione. Ci sono diversi tipi di frustrazione. Se sbatti un dito del piede, è un “argh” con una A. Se il pianeta Terra viene annientato dai Vogon per fare spazio a un passaggio interstellare, quello è un aaaaaaaargh” con otto A. Questa persona studia tutti gli “argh”composti da uno fino a otto A. E si scopre che meno frequenti “argh” sono, ovviamente, quelli che corrispondono a cose che sono più frustranti; tranne che, stranamente, all’inizio degli anni 80. Noi pensiamo che possa avere qualcosa a che fare con Reagan.
JM: ci sono molti utilizzi per questi dati, ma la cosa che più importa è che la registrazione storica stia venendo digitalizzata. Google ha iniziato a digitalizzare 15 milioni di libri. E’ il 12% di tutti i libri che siano mai stati pubblicati. E’ una porzione enorme della cultura umana. C’è molto di più nella cultura: ci sono i manoscritti, ci sono le riviste, ci sono cose che non sono testo, come l’arte e la pittura. Tutte cose che, casualmente, si trovano nei nostri computer, nei computer di tutto il mondo; E quando la digitalizzazione sarà completa, trasformerà il modo che abbiamo di comprendere il nostro passato, il nostro presente e la cultura umana.
Grazie infinite a tutti.
A parte le amenità, questo è uno dei pochi utilizzi intelligenti che si possono fare dell’immane quanto per il resto perniciosa opera di digitalizzazione massiva dei libri operata da Google Books. Non una biblioteca dell’oblio, ma un motore che genera nuovo sapere. Lo strumento Ngram Viewer di Google si presta a ricerche storiche e sociali interessanti. A voi viene qualche idea? Noi ci stiamo pensando. Per la verifica dei processi storici di censura, ad esempio, suggeriti dai due ricercatori con l’esempio di Marc Chagall in Germania. Molti altri potrebbero essere gli spunti, e magari ci torneremo sopra.