I TedTalks, per chi non li conoscesse, sono brevi e divertenti filmati didattici, della durata di pochi minuti, diffusi gratuitamente, nei quali esperti, ricercatori e personaggi noti raccontano esperienze e presentano brevissime lezioni (talks, appunto) su quasi ogni genere di materia. Alle volte sono argomenti molto triviali, come l’arte di allacciarsi le scarpe (e ciononoostante vi assicuriamo che dopo aver visto questo apparentemente ridicolo filmato abbiamo scoperto di aver raggiunto il mezzo secolo di vita senza aver mai imparato realmente come allacciarci le scarpe in modo sicuro), altre volte temi etici e filosofici. Con una caratteristica che fa naturalmente inorridire i cattedratici italiani: sono lezioni brevi ma interessanti, divertenti e istruttive. Esattamente l’opposto della maggior parte delle trombonate accademiche italiane.

Insomma, per dirla in tutta franchezza, sono proprio come i libri di Marcovalerio: interessanti ma sperabilmente anche leggibili.

Alle volte, queste lezioni dall’apparenza leggera aprono scenari inattesi. Come questo. Lo hanno visto oltre un milione e duecentomila persone.

Cosa abbiamo imparato da 5 milioni di libri

di Jean-Baptiste Michel e Erez Lieberman Aiden

Ecco cosa dicono i due ricercatori americani.

Erez Lieberman Aiden: Tutti sanno che un’immagine vale mille parole. ma noi di Harwardci stavamo chiedendo se fosse davvero così. (Risate) Perciò abbiamo messo insieme un gruppo di esperti, provenienti da Harvard, dall’MIT, dall’American Heritage Dictionary, dall’Encyclopedia Britannica e persino dal nostro gentile sponsor, Google. E ci abbiamo rimuginato sopra per circa quattro anni. E siamo giunti ad una conclusione sorprendente.Signore e signori, un’immagine non vale mille parole. In effetti abbiamo scoperto alcune immagini che valgono 500 miliardi di parole.

Jean-Baptiste Michel: Come siamo giunti a questa conclusione? Erez e io stavamo pensando ai diversi modi di ottenere una grande rappresentazione visiva della cultura umana, della sua storia e dei loro cambiamenti nel corso del tempo. Col passare degli anni sono stati scritti tantissimi libri, così abbiamo pensato: da questi milioni di libri é leggerli tutti.>. Se esiste una scala per misurare il grado di grandiosità delle cose, leggere tutti quei libri si piazza molto, molto in alto. Il problema è che c’è anche un asse X di cui tenere conto, l’asse della praticità. Sul quale si piazza molto, molto in basso

Molte persone tendono ad usare un approccio alternativo, che consiste nel prendere solo alcune fonti e leggerle molto attentamente. Estremamente pratico, ma non altrettanto grandioso. La cosa ideale da fare é riuscire ad arrivare nella parte grandiosa ma al contempo pratica di questo grafico. Si scopre che c’è un’azienda dall’altra parte del fiume chiamata Google, che alcuni anni prima aveva avviato un progetto di digitalizzazione che avrebbe potuto rendere quest’ultimo approccio possibile. Per questo progetto hanno digitalizzato milioni di libri. Ciò significa che una persona può utilizzare metodi computazionali per leggere tutti questi libri solo cliccando su un pulsante. -Questo- é sia molto pratico che assolutamente grandioso.

ELA: Lasciate che vi racconti qualcosa sulla provenienza dei libri. Da tempo immemore sono esistiti gli autori. Questi autori hanno sempre avuto l’ardente desiderio di scrivere libri, Cosa che divenne considerevolmente più facile con lo sviluppo della macchina tipografica alcuni secoli fa. Da allora, gli autori sono riusciti in 129 milioni distinte occasioni, a pubblicare libri. Ora, se quei libri non sono andati persi nel corso della storia,allora si trovano da qualche parte in una qualche libreria, e molti di quei libri sono stati reperiti dalle biblioteche e digitalizzati da Google, che ad oggi ha scansionato 15 milioni di libri.

Ora, quando Google digitalizza un libro, lo converte in un formato digitale molto pratico.Ora oltre ad avere i dati abbiamo anche i metadati. Abbiamo informazioni su cose come dove il libro fu pubblicato, chi era l’autore, quando venne pubblicato. E quel che facciamo è esaminare tutte quelle informazioni ed escludere tutto all’infuori dei dati della miglior qualità. Quello che resta è una selezione di cinque milioni di libri, 500 miliardi di parole,una riga di caratteri mille volte più lunga del genoma umano — un testo che, se venisse trascritto, coprirebbe la distanza tra qui e la luna, andata e ritorno per 10 volte — un autentico frammento del nostro genoma culturale. Ovviamente ciò che abbiamo fatto una volta messi di fronte ad una cosa così spaventosamente esagerata… (Risate) è stato ciò che qualunque ricercatore con un po’ di amor proprio avrebbe fatto. Abbiamo preso una pagina di XKCD e abbiamo detto: “Fatevi da parte. Qui stiamo per fare la scienza.”

JM: Ovviamente stavamo pensando: limitiamoci a mettere questi dati a disposizione di chiunque e lasciamo loro a “fare la scienza”. Ora stiamo pensando: “Quali dati possiamo divulgare?” Quello che vorremmo fare é prendere i libri e divulgare il testo integrale di questi cinque milioni di tomi. Google, e Jon Orwant in particolare, ci rivelarono una piccola equazione che dovremmo imparare. Se hai cinque milioni di libri hai anche cinque milioni di autori, e cinque milioni di querelanti fanno un’enorme causa legale. Perciò, anche se sarebbe stato davvero davvero grandioso, di nuovo, sarebbe stato anche molto molto poco fattibile. (Risate)

E così cedemmo di nuovo e ripiegammo sull’approccio più fattibile e un po’ meno grandioso. Ci dicemmo:” Ok, invece di divulgare il testo integrale divulgheremo le statistiche sui libri”. Prendete per esempio “Un barlume di felicità”. Sono quattro parole, noi lo chiamiamo un “quattro grammi”. Riveleremo quante volte uno specifico “quattro grammi” è apparso nei libri nel 1801, 1802, 1803, fino al 2008. Questo ci dà una serie temporale di quanto frequentemente questa particolare frase è stata usata nel tempo. Lo facciamo con tutte le parole e frasi che appaiono in quei libri, ottenendo così una grande tabella con due miliardi di righe che ci raccontano il modo in cui la cultura è cambiata.

ELA: Questi due miliardi di righe noi le chiamiamo due miliardi di n-grammi. Cosa ci raccontano? Gli n-grammi individuali misurano le tendenze culturali. Lasciate che vi faccia un esempio. Prendiamo il verbo irregolare “to thrive”, prosperare e immaginiamo che vi voglia dire che ieri ho prosperato. Potrei usare questa forma regolare. O, in alternativa, potrei usare questa forma irregolare. Hanno lo stesso significato, quale dovrei usare?Come scoprirlo?

All’inirca sei mesi fa l’approccio migliore in casi come questo era rivolgersi, ad esempio, a questo psicologo dalla favolosa capigliatura e chiedergli: “Steve, tu sei un esperto di verbi irregolari. Cosa dovrei fare secondo te?” E lui avrebbe detto: “Be’ la maggioranza delle persone usa thrived, ma alcune persone usano throve”. E tu sapevi anche, più o meno,che se fossi dovuto tornare indietro nel tempo di 200 anni e domandare al seguente luminare dalla capigliatura ugualmente favolosa, (Risate) “Tom, secondo te cosa dovrei dire?” Lui avrebbe detto: “Be’, di questi tempi la maggioranza della gente usa throve, ma alcuni usano thrived”. Quelli che intendo mostrarvi ora sono dati grezzi. Due righe da questa tabella di due miliardi di voci. Ciò che state vedendo è la frequenza anno dopo anno nell’uso di “thrived” e “throve” nella storia. Ora queste sono solo due righe fra due miliardi. Perciò l’intera collezione di dati è un miliardo di volte più grandiosa di questa diapositiva.

JM: Ora, ci sono molte altre immagini che valgono 500 miliardi di parole. Questa, ad esempio. Se semplicemente prendete la parola influenza, vedrete i picchi nel momento in cui sapevate che c’erano grandi epidemie di influenza che stavano mietendo vittime in tutto il mondo.

ELA: Se ancora non foste convinti, il livello del mare si sta innalzando, così come i livelli di anidride carbonica nell’atmosfera e la temperatura globale.

JM: Potreste inoltre voler dare un’occhiata a questo particolare n-grammo, giusto per poter dire a Nietzsche che Dio non è morto, anche se forse sarete d’accordo nel dire che avrebbe bisogno di un migliore agente.

ELA: Si può arrivare anche a concetti abbastanza astratti con questo metodo. Ad esempio, lasciate che vi racconti la storia dell’anno 1950. Durante buona parte della storia, a nessuno gliene fregava nulla del 1950. Nel 1700, nel 1800, nel 1900, a nessuno importava. Negli anni Trenta e Quaranta a nessuno importava Improvvisamente, a metà degli anni Quaranta, cominciò ad esserci del fermento. La gente si rese conto che il 1950 stava per arrivare, e poteva essere grandioso. (Risate) Ma nulla fece interessare la gente al 1950 come l’anno 1950. (Risate) La gente se ne andava in giro ossessionata. Non riuscivano a smettere di parlare di tutte le cose che fecero nel 1950, di tutte le cose che stavano pianificando di fare nel 1950, di tutti i sogni di cose che che volevano realizzare nel 1950. A conti fatti il 1950 fu così affascinante che negli anni a seguire la gente continuò a parlare di tutte le cose stupefacenti che accaddero, nel ’51, nel ’52 e nel ’53.Alla fine nel 1954 qualcuno si svegliò e si rese conto che il 1950 era in qualche modo passato di moda. (Risate) E improvvisamente la bolla esplose.

E la storia del 1950 è la storia di ogni anno che abbiamo in archivio, con una piccola variante, perché ora abbiamo questi bei diagrammi. E dato che abbiamo questi bei diagrammi, possiamo misurare le cose. Possiamo dire: “Quanto velocemente la bolla esplode?”. E si scopre che possiamo misurarla in maniera precisissima. Equazioni vennero dedotte, grafici furono realizzati ed il risultato definitivo é che scopriamo che la bolla esplode sempre più velocemente col passare di ciascun anno. Stiamo perdendo interesse nel passato più rapidamente.

JM: Ora un piccolissimo consiglio sulla carriera. Per quanti di voi che desiderano essere famosi, possiamo imparare dalle 25 figure politiche più famose, autori, attori e così via.Ad esempio, se volete diventare famosi da giovani, dovreste fare gli attori perché in quel caso la fama inizia a crescere con l’avvicinarsi dei trent’anni siete ancora giovani, è davvero meraviglioso. Se invece potete attendere un po’, potreste diventare degli autori,perché in quel caso raggiungerete vette altissime, come Mark Twain, ad esempio. Estremamente famoso. Ma se volete raggiungere il massimo dovreste rinviare le gratificazioni e, ovviamente, diventare un politico. In questo caso diventereste famosi verso la fine dei cinquant’anni, e molto molto famosi da andando avanti con l’età. Anche gli scienziati tendono a diventare famosi in età molto più avanzata. Biologi e fisici, ad esempio, tendono ad essere quasi tanto famosi quanto gli attori. Un errore che non dovreste commettere è quello di diventare dei matematici. (Risate) Se lo faceste potreste pensare: “Oh, fantastico! Realizzerò il mio miglior lavoro tra i venti e i trent’anni.” Ma, indovinate un po’? A nessuno importerà nulla.

ELA: Ci sono annotazioni più serie tra gli n-grammi. Ad esempio, ecco la traiettoria di Marc Chagall, un artista nato nel 1887. Questa sembra essere la normale traiettoria di una persona famosa. Diventa sempre più famoso, tranne quando si considerano gli n-grammi tedeschi. Se date uno sguardo in Germania, vedrete qualcosa di assolutamente bizzarro, qualcosa che non si vede praticamente mai, ovvero il fatto che diventa estremamente famoso e poi tutto a un tratto la sua fama precipita raggiungendo il punto più basso tra il 1933 e il 45, prima di recuperare terreno in seguito. Ovviamente quello che stiamo guardando è il fatto che Marc Chagall era un artista ebreo nella Germania nazista.

Ora questi segnali sono davvero tanto evidenti da non rendere necessario il sapere che qualcuno è stato censurato. Possiamo arrivarci tranquillamente usando teorie dei segnali davvero elementari. Ecco un modo facile per farlo. Ci si può ragionevolmente aspettareche la fama di una persona in un dato periodo di tempo sia approssimativamente la media della sua precedente fama e di quella successiva. Questo è un po’ quello che ci attendiamo. Ora, confrontiamo questo con la fama che osserviamo. E semplicemente dividiamo l’una per l’altra per produrre qualcosa che noi chiamiamo indice di repressione.Se l’indice di repressione di una persona è molto, molto, molto piccolo quella persona potrebbe benissimo star venendo censurata. Se è molto ampio, forse sta traendo beneficio dalla propaganda.

JM: Adesso potete dare un’occhiata alla distribuzione degli indici di repressione sull’intera popolazione Ad esempio, in questo caso: questo indice di repressione è quello di 5,000 persone estratte da libri inglesi in cui non risulta alcuna repressione. La distribuzione sarebbe questa, fondamentalmente distribuito attorno all’1. Ciò che si osserva è sostanzialmente identico alle aspettative. Questa è la distribuzione come vista in Germania; é molto diversa, spostata più a sinistra. La gente ne parlava due volte meno di quanto avrebbe teoricamente dovuto. Ma, cosa molto più importante, la distribuzione è molto più larga. Ci sono molte persone che finiscono nella parte più a sinistra della distribuzione di cui si parla circa 10 volte meno di quanto si sarebbe dovuto. Ma al contempo molte persone sulla parte più a destra che sembrano beneficiare della propaganda. Questa immagine è il marchio della censura nella storia dell’editoria.

ELA: Culturomica; è così che chiamiamo questo metodo. E’ un po’ come la genomica.Eccetto per il fatto che la genomica è uno spiraglio sulla biologia attraverso la finestra della sequenza di basi nel genoma umano. La culturomica è simile. E’ l’applicazione dell’analisi su larga scala di una raccolta di dati allo studio della cultura umana. Qui, invece che attraverso la lente di un genoma, è attraverso la lente di frammenti digitalizzati di registrazioni di carattere storico. La cosa esaltante della culturonomica è che chiunque può praticarla. Perché chiunque può praticarla? Chiunque può perché queste tre persone,Jon Orwant, Matt Gray e Will Brockman di Google videro il prototipo dell’Ngram Viewer. e dissero: “E’ così divertente. Dobbiamo renderlo disponibile al pubblico”. Quindi in due settimane giuste giuste, le due settimane precedenti alla pubblicazione del nostro saggioprogrammarono una versione dell’Ngram Viewer per il vasto pubblico. Così anche voi potete digitare una qualsiasi parola o frase alla quale siete interessati e vedere il suo n-grammo immediatamente; oltre a spulciare esempi di tutti i vari libri in cui appare il vostro n-grammo .

JM: Questo programma venne utilizzato un milione di volte durante il primo giorno di rilascio, e questa è la migliore di tutte le interrogazioni. Tutti vogliono essere best-qualcosa: best seller, best player… Ma si scopre che nel 18esimo secolo, alla gente non importava assolutamente nulla. Non volevano affatto essere “best-qualcosa”, volevano essere “beft-qualcosa”. Quello che è successo è, ovviamente, solamente un errore. Non è che si sforzassero di essere mediocri. Semplicemente un tempo si usava scrivere la S in maniera differente, un po’ come la F. Questa cosa Google al momento non la capì,quindi lo riferimmo nell’articolo scientifico che abbiamo scritto. Ma alla fine questo è solo un avvertimento sul fatto che, pur essendo molto divertente, interpretare questi grafici richiede molta cautela e bisogna farlo seguendo le regole base della scienza.

ELA: Le persone hanno usato questo strumento in un sacco di modi spassosi. (Risate) In realtà, non avremo nemmeno bisogno di parlare, ci limiteremo a mostrarvi tutte le diapositive restando in silenzio. Questa persona era interessata alla storia della frustrazione. Ci sono diversi tipi di frustrazione. Se sbatti un dito del piede, è un “argh” con una A. Se il pianeta Terra viene annientato dai Vogon per fare spazio a un passaggio interstellare, quello è un aaaaaaaargh” con otto A. Questa persona studia tutti gli “argh”composti da uno fino a otto A. E si scopre che meno frequenti “argh” sono, ovviamente, quelli che corrispondono a cose che sono più frustranti; tranne che, stranamente, all’inizio degli anni 80. Noi pensiamo che possa avere qualcosa a che fare con Reagan.

JM: ci sono molti utilizzi per questi dati, ma la cosa che più importa è che la registrazione storica stia venendo digitalizzata. Google ha iniziato a digitalizzare 15 milioni di libri. E’ il 12% di tutti i libri che siano mai stati pubblicati. E’ una porzione enorme della cultura umana. C’è molto di più nella cultura: ci sono i manoscritti, ci sono le riviste, ci sono cose che non sono testo, come l’arte e la pittura. Tutte cose che, casualmente, si trovano nei nostri computer, nei computer di tutto il mondo; E quando la digitalizzazione sarà completa, trasformerà il modo che abbiamo di comprendere il nostro passato, il nostro presente e la cultura umana.

Grazie infinite a tutti.

A parte le amenità, questo è uno dei pochi utilizzi intelligenti che si possono fare dell’immane quanto per il resto perniciosa opera di digitalizzazione massiva dei libri operata da Google Books. Non una biblioteca dell’oblio, ma un motore che genera nuovo sapere. Lo strumento Ngram Viewer di Google si presta a ricerche storiche e sociali interessanti. A voi viene qualche idea? Noi ci stiamo pensando. Per la verifica dei processi storici di censura, ad esempio, suggeriti dai due ricercatori con l’esempio di Marc Chagall in Germania. Molti altri potrebbero essere gli spunti, e magari ci torneremo sopra.

Autore

Redazione

La redazione di Marcovalerio. Qualche volta uno, qualche volta un altro. Ma siamo sempre una squadra.

Visualizza tutti gli articoli

Cookie	Durata	Descrizione
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
PHPSESSID	session	This cookie is native to PHP applications. The cookie is used to store and identify a users' unique session ID for the purpose of managing user session on the website. The cookie is a session cookies and is deleted when all the browser windows are closed.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
wordpress_test_cookie	session	WordPress sets this cookie to determine whether cookies are enabled on the users' browsers.
_GRECAPTCHA	5 months 27 days	Google Recaptcha service sets this cookie to identify bots to protect the website against malicious spam attacks.

Cookie	Durata	Descrizione
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.
iutk	5 months 27 days	This cookie is used by Issuu analytic system to gather information regarding visitor activity on Issuu products.
UID	2 years	Scorecard Research sets this cookie for browser behaviour research.
_ga	1 year 1 month 4 days	Google Analytics sets this cookie to calculate visitor, session and campaign data and track site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognise unique visitors.
_ga_*	1 year 1 month 4 days	Google Analytics sets this cookie to store and count page views.

Cookie	Durata	Descrizione
mc	1 year 1 month	Quantserve sets the mc cookie to track user behaviour on the website anonymously.
NID	6 months	Google sets the cookie for advertising purposes; to limit the number of times the user sees an ad, to unwanted mute ads, and to measure the effectiveness of ads.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.
__qca	never	The __qca cookie is associated with Quantcast. This anonymous data helps us to better understand users' needs and customize the website accordingly.

Cookie	Durata	Descrizione
eStore_submit_payment	session	No description
loglevel	never	No description available.
VISITOR_PRIVACY_METADATA	5 months 27 days	Description is currently not available.
wordpresspass_10339b6b7a5120b0a4da41e3ab21cf4c	past	Description is currently not available.
wordpressuser_10339b6b7a5120b0a4da41e3ab21cf4c	past	Description is currently not available.
wordpress_10339b6b7a5120b0a4da41e3ab21cf4c	past	Description is currently not available.
wordpress_logged_in_10339b6b7a5120b0a4da41e3ab21cf4c	past	Description is currently not available.
wordpress_sec_10339b6b7a5120b0a4da41e3ab21cf4c	past	Description is currently not available.
wp-postpass_10339b6b7a5120b0a4da41e3ab21cf4c	past	Description is currently not available.
wp-settings-0	past	Description is currently not available.
wp-settings-time-0	past	Description is currently not available.