23 marzo 2020

LEGGERE I NUMERI

Guida di sopravvivenza al rito del TG


PER COMINCIARE – La lettura dei dati che i media ci mostrano ha delle gravissime lacune. Letti correttamente non solo ci farebbero capire realmente quel che succede, ma sfaterebbero alcuni dei “miti” che cominciano a radicarsi nella nostra mente.

Ogni sera, da due settimane a questa parte, si ripete lo stesso rituale. Ci sediamo, annoiati e senza motivo stanchi, sul divano in salotto. Stanchi e annoiati accendiamo la TV. Si sente un urlo: “C’è il TG!”. Poi parte: e ci sono i soliti numeri, e ci si guarda discreti, quasi con paura di incrociare nello sguardo dell’altro la paura di cui si sa esser colpevole il proprio. Ora, c’è chi a questa routine si abitua piuttosto facilmente. C’è chi, in realtà, questa routine l’aveva fatta propria ben prima che i TG diventassero l’obbligato rito religioso della sera di tutta Italia. Non so se con orgoglio o con dispiacere, devo ammettere di non essere tra questi.

Sarà forse per questo motivo, mi chiedo ogni sera mentre mi sottopongo a quella che per me sta diventando una tortura, che riesco ancora a non ascoltare le voci dei (talvolta ottimi) giornalisti televisivi come se venissero da un pulpito investito di chissà quale sacra infallibilità? Forse. O forse sarà perché mi piace la statistica, la scienza dei dati, e dunque mi sento ribollire il sangue nelle vene ogni volta che sento un dato venire citato senza tutto quel corollario di informazioni (per esempio: come sono stati raccolti i dati? Da chi? Per conto di chi?) così necessario alla sua corretta interpretazione.

Così, approfittando del periodo di vuoto cadutoci addosso nell’ultimo mese, ho deciso di condividere col pubblico di ArcipelagoMilano una breve, incompleta ma (si spera) comprensibile “lezione” di statistica. Almeno, al prossimo appuntamento serale col vostro mezzobusto preferito, sarete meglio equipaggiati a riceverne le pallottole numeriche.

Cominciamo da dove bisognerebbe cominciare, cioè dall’inizio. I dati. Che non si producono da soli, anzi, vanno raccolti, fisicamente o virtualmente che sia, e già questa raccolta dovrebbe – ma spesso non è – esser soggetta a dei rigidi criteri. Il più importante è quello della casualità: per produrre un’analisi oggettiva, il campione di dati che scegliamo deve essere il più possibile “casuale”, ossia non comprendere solo ripetizioni di uno stesso caso.

Facciamo un esempio: se i dati sui positivi al COVID-19 della Protezione Civile dipendono dai tamponi effettuati, e tali tamponi sono effettuati a tappeto solo in alcune regioni, ed in altre effettuati solo sui soggetti a rischio, o solo su quelli asintomatici, ecco che i dati non soddisfano più questo criterio. E dunque utilizzarli così, nudi e crudi, non può che portare ad analisi infondate. Bisogna dire che l’idea che i dati su COVID-19 siano disponibili in base ai tamponi effettuati inizia ad essere diffusa e compresa, come si vede da questa tabella riportata dal Corriere sabato 21 marzo.

Monitoraggio 21 marzo.xlsx

Mentre mi fa piacere che questa singola nozione sia “passata”, mi lascia perplessa la totale assenza, perlomeno sul Web, di una qualsivoglia guida alla lettura dei dati ossessivamente diffusi. Tutto quello che sono riuscita a trovare sono questo articolo della AGI dal titolo promettente, che però si concentra decisamente troppo sulla distinzione morto “con”/”per” COVID-19, tralasciando dettagli più importanti e più comprensibili, un pezzo del Sole24ore che riporta alcuni siti informativi, ma senza alcuna spiegazione aggiuntiva, e l’analisi home-made di un fisico che, per quanto utile, rimane del tutto oscura per qualcuno che non abbia mai studiato statistica e probabilità.

Ci sono altri motivi, al di là della disponibilità o meno di tamponi e dunque di dati reali sulla percentuale di positivi, per cui i dati con cui ci bombardano ogni giorno non sono – e l’uso del modo indicativo è qui del tutto intenzionale – attendibili.

Innanzitutto: l’Italia è il secondo paese più vecchio al mondo, secondo gli ultimi dati Onu. Un elemento importante, se si considera che l’unica cosa relativamente certa sul Coronavirus è che sia più letale per gli anziani, in particolare per chi ha più di 80 anni. Un dato che è stato finora accolto come irrilevante (“in ospedale ci sono anche i giovani”, “non sottovalutate il virus”…): giustissimo dal punto di vista mediatico – non escludo che altrimenti ci ritroveremmo ancora oggi con mandrie di 20enni in libertà per le strade -, sbagliatissimo dal punto di vista scientifico perché non mette l’accento sulla protezione delle fasce di popolazione più a rischio – e così le nostre case di riposo sono ora dei lazzaretti.

Per fare un po’ di esercizio – e per occupare qualche ora di quarantena – ho calcolato la percentuale di over 65 in Lombardia (22,6%) e in Veneto (23,6%)1. Poi, grazie alla sopracitata tabella diffusa dal Corriere, ho calcolato il tasso di letalità da COVID-19 in Lombardia e in Veneto: 12,1% e 3,1%. Due percentuali molto diverse, nonostante la composizione demografica delle due regioni sia, come appena visto, molto simile. Per fare un confronto, ho pensato di guardare alla provincia di Hubei, dove tutto è cominciato: 11,4%2 di residenti over 65 e, secondo la maggior parte delle fonti, lo stesso tasso di letalità del Veneto, 3,1%.

Ci sarebbe, da milanesi, da disperarsi: mentre il Veneto, con una percentuale di over 65 doppia rispetto alla provincia cinese, se la cava ottimamente; noi siamo stati messi in ginocchio. Non solo il “modello cinese” inizia ad esercitare fascino, adesso ci si mette anche il “modello veneto” di Zaia (quello che – qualcuno ancora forse se lo ricorda – ha tagliato la sanità pubblica per anni).

Peccato che ci voglia molto meno tempo a prendere quelle percentuali per delle verità assolute, che a fare statistica come si deve. I dati, insegnano nelle università, non si interpretano fuori contesto. Nossignore: i dati, se li si vuole interpretare correttamente, vanno “modellati”: bisogna analizzarli tramite un “modello” (più semplicemente, un’equazione) che ne corregga i “difetti” – difetti che scaturiscono dall’impossibilità pratica di avere un database “perfetto”, casuale ma allo stesso tempo uguale, nella sua composizione, alla popolazione che rappresenta4.

Difficile spiegare in questa sede come si utilizzino i controls, parametri che correggono l’equazione del modello in modo che tenga conto delle caratteristiche particolari del campione utilizzato: ma sono la parte più importante di qualsiasi analisi, dato che senza di loro i risultati sarebbero inevitabilmente biased, letteralmente “di parte”.

Ecco spiegata la mia ciabatta che vola verso la televisione mentre si leggono cifre su cifre: i numeri già li conosciamo grazie alla Protezione Civile; mi piacerebbe che i giornalisti si scomodassero a lavorarli, quei numeri, pesarli, analizzarli, e che solo poi li presentassero al pubblico. Anche perché, così facendo, si dipinge un quadro che, se non assolve la Lombardia, perlomeno ci fa comprendere perché la nostra regione fosse destinata ad essere colpita più delle altre.

Partiamo da un’idea molto semplice, quella della densità abitativa – gli abitanti residenti su ogni km2 di territorio. In Lombardia: 421,6. In Veneto: 267,4. Aggiungiamoci un altro dato – informale – quello della percentuale di persone residenti che non sono però originarie della regione in cui risiedono: studenti fuori sede, lavoratori emigrati da altre regioni, anziani che hanno raggiunto la famiglia etc.

Ora immaginiamo uno scenario: l’8 marzo si viene a sapere, per vie traverse, che la Lombardia sarà dichiarata zona rossa4. Un certa quantità di quelle persone non originarie della Lombardia “scappa”, attraverso un territorio dove ogni km quadrato corrisponde a 400 possibili contatti/contagi, verso casa propria, aumentando criticamente i contagi. In Veneto va diversamente: viene dichiarato zona rossa due giorni dopo, il 10 di marzo, con un altro decreto ufficiale che però stavolta vieta gli spostamenti in tutta Italia; nessun interesse dunque, a cercare di spostarsi. Un primo motivo, dunque, per i nostri 25,515 casi contro i 4,617 del Veneto.

Ma non finisce qui. Almeno fino a questa settimana, il “chiudere tutto” italiano non ha compreso i luoghi di produzione e il settore agricolo. Per darvi un’idea, in Lombardia il settore manifatturiero conta circa 1 milione di addetti; il Veneto ne ha circa la metà5. Questo è determinante, poiché in Lombardia abbiamo 1 milione di persone che si sposta in zone densamente abitate, molti di loro con i mezzi pubblici: ed ecco che salgono i contagi. Certo, nessuno degli elementi che vi ho elencato basta, da solo, a spiegare la situazione della Lombardia: ma non sono elementi trascurabili, soprattutto quando il resto d’Italia – e del mondo – guarda a noi per capire come gestire efficacemente l’epidemia.

E questo sguardo un po’ dovrebbe farci vergognare, non tanto di noi stessi (a meno che non siate tra quelli che sono tornati dalla mamma al primo segno d’emergenza, allora vergognatevi pure), ma dei nostri rappresentanti e di quello che hanno fatto al nostro sistema sanitario: la media dei letti d’ospedale pro capite in Italia (senza neppure andare a guardare nel dettaglio i posti di terapia intensiva), è molto più bassa della media europea – siamo a 3,2 letti per 1000 abitanti, contro i 5 della media europea. Per darvi un confronto, la Germania – che registra uno dei tassi di letalità più bassi al mondo – ha 8 posti letto per 1000 abitanti; il Regno Unito, la pecora nera di questa pandemia, ne ha 2,56. Insomma, l’Italia è più vicina alle politiche del vecchio Boris di quanto ci piaccia pensare.

Ma nonostante questo tutto il mondo guarda a noi, perché gli altri dati disponibili, i dati cinesi, non sono attendibili. Se qualche dubbio al riguardo mi era rimasto, se avevo qualche speranza che in nome della medicina il governo cinese avesse avuto la decenza di comunicare dei dati esatti, mi è passato navigando il sito del National Bureau of Statistics of China: in esso viene dichiarato apertamente che le analisi dei dati raccolti si basano su un campione pari allo 0,8% della popolazione – in Italia siamo oltre il 2% (moltiplicate per le dimensioni e la varietà di territorio e popolazione e capirete la gravità di quello stacco dell’1,2%). Se aggiungiamo a questo l’idea – altro principio importantissimo in statistica – che i dati sono sempre raccolti da qualcuno per qualcuno, e consideriamo che la Cina non è una democrazia, penso sia naturale condividere la mia diffidenza.

Potrei andare avanti ore a parlare dell’uso sconsiderato, quasi criminale che si fa dei dati statistici nell’informazione, ma ho appena sentito qualcuno urlare “C’è il TG!”: non posso mancare.

Elisa Tremolada

 

1Fonte: Istat 2019.
2Fonte: National Bureau of Statistics of China.
4per esattezza, aggiungo che sono dichiarate zone rosse quel giorno anche le province venete di Treviso, Padova e Venezia
4Se volete approfondire l’argomento, consiglio i corsi gratuiti online del MIT su Probabilità e Statistica e Statistica Applicata.
5Fonte: Istat 2011.
6Fonte: AGI.



Condividi

Iscriviti alla newsletter!

Per ricevere in anteprima sulla tua e-mail gli articoli di ArcipelagoMilano





Confermo di aver letto la Privacy Policy e acconsento al trattamento dei miei dati personali


  1. luigi caroliBravissima!
    25 marzo 2020 • 10:54Rispondi
  2. Giorgio FortiSolo una domanda: perché la grande maggioranza dei media italiani, con forse una onorevole eccezione, non dicono, quando citano un numero di infettati, o morti, o guariti non dicono oltre alle altre cose che cita Elisa Tremolada, anche a chi sono riferiti i dati. Per esempio: cisono stati 92474infattiti, ma bisogna aggiungere ,su 60 milioni di residenti in Italia, e fa 0,00154/abitante, cioè sono stati infettati 1,54/1000 abitanti. Se si dice che una crescita è "esponenziale", la cosa ha significato solo se si dà il valore dell'esponente, in base 10 di solito, o in base 2, per indicare il tempo di raddoppio. Inoltre: gli infettati si misurano con precisione, grazie ai ricercatori cinesi, ma i morti non si sa di cosa esattamente siano morti, anche se infettati dalCovid17. Molti saluti, Giorgio Forti
    30 marzo 2020 • 21:43Rispondi
    • Elisa TremoladaA Giorgio Forti: Ha ragione, sono altri dettagli importanti per comprendere i dati (anche se 1,54 contagiati - ufficiali - su 1000 abitanti non sono pochi: se considera che il numero reale è, se non il triplo, almeno il doppio e che l'influenza stagionale, assai meno fatale e contro la quale molti sono oramai vaccinati, di solito ha un tasso di contagio di 13 contagiati/1000 abitanti, secondo l'ISS). Quanto al suo ultimo punto, i morti in realtà sono ben distinguibili: in Italia abbiamo fatto la deliberata scelta di contare tutti coloro che muoiono infettati dal Covid-19 come morti per Covid-19. La Germania, per esempio, ha fatto la scelta opposta, e questo si riflette nei numeri.
      7 aprile 2020 • 12:45
Lascia un commento

Il tuo indirizzo email non sarà pubblicato. Tutti i campi sono obbligatori.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.


Sullo stesso tema


17 maggio 2022

GLI ALPINI E LA MODERNITÀ

Giuseppe Ucciero



7 dicembre 2021

LE ATTUALITÀ MILANESI

Luca Beltrami Gadola



23 novembre 2021

LE ATTUALITÀ MILANESI

Luca Beltrami Gadola



9 novembre 2021

LE ATTUALITÀ MILANESI

Luca Beltrami Gadola






8 maggio 2021

LE DONNE NEL SISTEMA SANITARIO LOMBARDO

Elisa Tremolada


Ultimi commenti