SEZIONE 4: ANALISI DEI DATI E RISULTATI
In questa sezione descriveremo in dettaglio come calcolare e aggregare le tre componenti di rischio, Hazard, Exposure e Vulnerability, al fine di derivare il nostro indice di rischio globale e costruire una classifica di rischio per le regioni italiane. Quindi lo useremo per esplorare le correlazioni tra questa classifica e gli effetti osservati dell'epidemia COVID-19. Nella sezione precedente abbiamo motivato la scelta delle variabili di riferimento (indicatori di rischio) che adottiamo qui per derivare le tre componenti del rischio, come riassunto in Fig.7. Come già chiarito, l'Exposure e la Vulnerability possono anche essere considerate aggregate nella variabile Consequences.
Mostriamo brevemente, in primo luogo, fino a che punto queste variabili sono individualmente correlate ai principali indicatori di danno dell'epidemia COVID-19, rilevati in ciascuna regione italiana fino al 2 aprile 2020 (dati dal repository GitHub COVID-19 2020). In particolare, in Fig. 8 riportiamo il numero di casi totali di individui infetti rispetto alle tre variabili aggregate nell’Hazard (mobilità, concentrazione abitativa e densità di assistenza sanitaria), essendo quest'ultimo evidentemente collegato all'estensione del contagio. D'altra parte, in Fig. 9, il numero di decessi è rappresentato in funzione delle variabili che entrano sia nell'Exposure (popolazione) che nella Vulnerability (inquinamento atmosferico, temperatura media invernale e popolazione anziana), poiché questi indicatori sono più legati alla gravità delle possibili conseguenze dell'infezione. D'ora in poi, i dati dei distretti autonomi di Trento e Bolzano saranno aggregati nella regione Trentino Alto-Adige.
Da una rapida occhiata ai vari pannelli di entrambe le figure, risulta chiaramente che le regioni appartenenti alla parte settentrionale dell'Italia, in particolare la Lombardia che oggi sembra essere la più esposta al contagio, registrano più decessi rispetto alle regioni del sud e in diversi casi registrano valori piuttosto elevati degli indicatori di rischio (i grafici sono in scala semi-logaritmica per una migliore visualizzazione; il colore dei cerchi in tutti i grafici si adatta alla popolazione totale delle regioni corrispondenti).
Sembra che, in generale, la correlazione di ogni singola variabile con i danni di COVID-19 non sia così chiara. Ciò è evidente osservando i bassi valori dei coefficienti di Pearson dei semplici fit lineari presenti in ogni grafico ed è anche confermato visivamente dal confronto tra le mappe dei colori in Fig.10 (dove le variabili sono state normalizzate tra 0 e 1, ordinate secondo un livello di rischio crescente). Pertanto, una combinazione appropriata di questi indicatori potrebbe essere più ragionevole.
In questa sezione, dato per verificato che il modello proposto di raggruppamento delle variabili nelle tre principali componenti di rischio riassunte in Fig.7 – che chiameremo “modello E_H_V” - sia una buona scelta rispetto ad altre possibilità (per i dettagli tecnici vedi articolo originale), utilizzeremo una versione “non pesata” di tale modello (cioè dove tutte le variabili contribuiscono in egual misura ad influenzare il rischio) per ottenere una classifica del rischio a-priori per le regioni considerate, che sia potenzialmente adattabile ad altri paesi o ad altri set di dati epidemici (per virus in una certa misura compatibili con le caratteristiche di base del COVID- 19, come ad esempio quelli dell'influenza stagionale). Contestualmente presenteremo anche un confronto dettagliato della classifica del rischio a-priori ottenuta con i dati ufficiali dell'epidemia COVID-19 osservati al 2 aprile 2020.
Versione generale del modello E_H_V e classificazione del rischio a-priori
Utilizzando il modello E_H_V è possibile costruire una classifica approssimativa del rischio a-priori supponendo che tutte le variabili che entrano nelle tre componenti H, E e V (Hazard, Exposition e Vulnerability contribuiscano con lo stesso peso. Questa scelta rende la nostra stima del rischio regionale indipendente dalla specifica epidemia influenzale. Come caso studio, confronteremo poi la classifica risultante con la classifica dei danni del COVID-19, sia in termini di casi totali che di decessi.
Innanzitutto, se moltiplichiamo l'Exposition Ek e la Vulnerability Vk per la k-esima regione, possiamo definire le “Consequences”, o conseguenze, come:
Ck = Ek ∙ Vk (k = 1,…, 20)
Moltiplicando poi l’Hazard Hk e le Consequences Ck, otterremo finalmente l'indice di rischio globale Rk per ogni regione:
Rk = Hk ∙ Ck (k = 1,…, 20) (1)
A questo proposito, l'indice di rischio può essere interpretato come il prodotto di una grandezza correlata in qualche modo con le cause della diffusione del virus (Hk) e un’altra che è in relazione con gli effetti osservati sugli individui (Ck).
In Fig. 11 diamo una prima occhiata alla classifica delle regioni italiane disaggregate per le due principali componenti di rischio, ovvero l’Hazard e le Consequences. Si può notare che una separazione approssimativa tra le regioni settentrionali (con punteggi più alti) e quelle del centro e del sud (con punteggi più bassi) può già essere apprezzata in queste due classifiche.
D'altro canto, al fine di migliorare la correlazione con i danni reali da epidemia, in particolare quelli osservati per COVID-19, dobbiamo mettere insieme Hk e Ck nell'indice di rischio globale (1). In Fig. 12 possiamo finalmente apprezzare il potere predittivo del nostro modello osservando la classifica del rischio a priori delle regioni italiane, confrontata con i dati COVID-19 su casi totali e morti fino al 2 aprile 2020. I valori di Rk è stato normalizzato al valore massimo, in modo che la Lombardia abbia Rk = 1 (come visibile anche nella mappa di Fig.12). La media di Rk su tutte le regioni risulta essere Rav = 0,15 e può essere considerata approssimativamente un livello di riferimento per il Paese italiano (anche se, ovviamente, ha solo un valore relativo). Come già spiegato, a causa delle limitazioni intrinseche dei dati ufficiali COVID-19, è conveniente effettuare il confronto a livello aggregato di gruppi di regioni. Organizziamo quindi le 20 regioni, elencate in ordine decrescente di rischio, in 4 gruppi, a seconda del loro livello di danno in termini di casi totali registrati (meno di 1000, tra 1000 e 10000, tra 10000 e 40000, più di 40000) .
Con questa scelta, il nostro modello è chiaramente in grado di identificare correttamente le regioni settentrionali, in cui gli effetti epidemici sono oggi molto più evidenti: la prima in classifica, ovvero la Lombardia (con un punteggio di rischio circa tre volte superiore al secondo classificato) e il gruppo delle tre regioni immediatamente successive, Veneto, Piemonte ed Emilia Romagna (anche se non nell'ordine esatto dell’entità del danno). Un buon accordo può essere osservato anche per gli altri due gruppi: solo per la Sardegna gli effetti sia sui casi totali che sui decessi sembrano essere stati leggermente sopravvalutati, mentre per le altre due regioni, l'Umbria e la Valle d'Aosta, uno dei due indicatori di danno è stato leggermente sottovalutato.
Le piccole discrepanze con la classifica reale suggeriscono almeno due spiegazioni, entrambe plausibili. Da un lato, supponendo che la percentuale di danni nelle varie regioni rimarrà più o meno la stessa fino al raggiungimento dell'epidemia, potrebbe essere possibile che qualche altro indicatore di rischio significativo sia stato trascurato nella costruzione delle componenti dell'indice di rischio globale. A causa dell'introduzione di questi altri indicatori nel rischio globale, il Veneto e l'Emilia Romagna potrebbero scambiare posizioni, la Liguria, le Marche e l'Umbria potrebbero scalare la classifica e forse il Lazio, la Sicilia e la Sardegna potrebbero scendere. D'altra parte, è anche possibile che i pesi αk degli indicatori (scelti per essere uguali, così da rendere il nostro indice di rischio valido a priori indipendentemente dal caso specifico di epidemia) richiederebbero una messa a punto più fine attraverso una procedura di adattamento su reale dati epidemici, come quelli di COVID-19, al fine di stimare in che misura contribuiscono al rischio globale nel contesto del modello E_H_V. Per quanto riguarda questa possibilità, abbiamo cercato di trovare un set di pesi per gli indicatori calibrati su questa specifica epidemia. Tuttavia, la risultante classifica del rischio a-posteriori era molto simile a quella mostrata in Fig. 12, senza alcun miglioramento evidente, confermando così la solidità della nostra analisi del rischio a-priori rispetto a una calibrazione a-posteriori.
Ciò è confermato anche dalla Fig. 13, in cui la mappa dei colori del rischio (pannello centrale) viene confrontata con la mappa dei casi totali COVID-19 (riquadro di sinistra) e la mappa dei casi gravi e dei decessi dell'influenza stagionale 2019/2020 in Italia (pannello di destra, dati ISS - Epicentro 2020). L'accordo è già visibile a prima vista, ma potrebbe essere reso più rigoroso attraverso un'analisi più dettagliata basata su dati storici regionali sull'influenza stagionale negli anni precedenti (questo sarà oggetto di un altro studio, attualmente in corso).
Per supportare ulteriormente il buon accordo tra la classificazione del rischio a priori e i dati osservati di COVID-19, in Fig. 14 mostriamo le correlazioni tra l'indice di rischio e i tre principali indicatori di danno relativi all'epidemia, ovvero il numero totale di casi, il numero totale di decessi e l'occupazione in terapia intensiva. Per ogni grafico è stata eseguita una regressione lineare prendendo in considerazione solo le prime 10 regioni della classifica (nella colonna di sinistra) e tutte le regioni della classifica (colonna di destra). I coefficienti di correlazione di Pearson assumono sempre valori superiori a 0,97, indicando una forte correlazione positiva. In generale, gli accoppiamenti con solo le prime 10 regioni restituiscono valori del coefficiente di correlazione leggermente migliori.
Tutti questi risultati confermano definitivamente che il nostro modello è in grado di distinguere abbastanza bene quelle che sono di gran lunga le regioni più danneggiate, tutte appartenenti al nord Italia, da quelle appartenenti al centro e al sud, come riassunto anche in Fig. 15. Qui, le percentuali di danni (casi totali e decessi) in queste tre macroregioni al 2 aprile 2020, vengono confrontate con le percentuali di rischio a-priori cumulato associate alle stesse macroregioni: ancora una volta, la correlazione è evidente, almeno a questo livello di aggregazione.
Pertanto, possiamo sicuramente rispondere alla nostra domanda principale relativa alla forte distribuzione asimmetrica degli effetti epidemici sul territorio italiano: è molto probabile che non si tratti di un caso; le regioni settentrionali sono sicuramente le più rischiose, le più esposte a epidemie come COVID-19 (ma non solo) e in linea di principio avremmo potuto saperlo, poiché i dati sugli indicatori di rischio erano già disponibili prima del COVID-19 epidemia.
Un altro modo interessante per visualizzare queste correlazioni è rappresentare l'indice di rischio a-priori attraverso i suoi due principali componenti aggregati, Hazard e Consequences, e tracciare ciascuna regione come punto di coordinate (Hi, Ci) nel piano {H × C}. Questo tipo di diagramma di rischio è riportato nella figura 16, dove i punti sono stati anche caratterizzati dallo stesso colore del loro gruppo nella figura 12, indicando un diverso livello di danno (casi totali o decessi) osservato nella regione corrispondente al 2 aprile 2020. La posizione di ciascun punto può essere confrontata con una curva che rappresenta la posizione dei punti del piano con un indice di rischio pari al valore di riferimento Rav = 0,15 trovato per il nostro paese (rischio medio).
Secondo l'equazione 8, tale curva iso-rischio è un'iperbole, descritta dall'equazione C = Rav / H: tutte le regioni che si trovano sopra questa linea hanno un indice di rischio superiore alla media, mentre tutte le regioni sotto questa linea hanno un indice di rischio inferiore alla media (il valore dell'indice di rischio è riportato tra parentesi accanto a ciascuna regione). Ancora una volta, sembra chiaramente che la nostra analisi del rischio sia in grado di identificare correttamente le quattro regioni più danneggiate, e anche la grande maggioranza delle altre regioni meno danneggiate in base al loro gruppo di rischio.
Nella prossima sezione vedremo che la metodologia che stiamo proponendo in questo documento, e in particolare questo tipo di rappresentazione in termini di diagramma di rischio, potrebbe essere facilmente adottata al fine, da un lato, di eseguire un'analisi di ottimizzazione del rischio a-priori in termini di potenziale capacità di carico dei sistemi sanitari regionali e, d'altra parte, estrapolare alcune implicazioni politiche per prevenire danni in caso di epidemia come quella COVID-19.
Chiudiamo questa sezione mostrando, in Fig. 17, tre sequenze della distribuzione geografica dei danni (casi totali, decessi e occupazione in terapia intensiva) in funzione del tempo, dal 9 marzo 2020 al 2 aprile 2020, confrontati con la mappa geografica del livello di rischio a-priori (l'ultima immagine a destra in ogni sequenza), essendo quest'ultima indipendente dal tempo. In tutti i grafici, i danni sembrano diffondersi sulle regioni con un'intensità variabile (espressa dalla scala dei colori) predetta correttamente dalla nostra analisi del rischio.