LABORATORIO 01
LABORATORIO 01
Il Datasaurus
Nell'episodio 01, tramite il famoso esempio del Quartetto di Anscombe, abbiamo spiegato per quale motivo sia necessario, nella maggioranza dei casi, rappresentare graficamente i dati.
In particolare, l’analisi del Quartetto ci ha mostrato come dataset con gli stessi descrittori statistici possano avere in realtà rappresentazioni grafiche molto diverse e, quindi, quanto lo strumento della Data Visualization possa essere efficace per comparare tra loro diversi dataset.
Il quartetto consiste di 4 dataset di 11 punti sul piano cartesiano (quindi con due coordinate x e y), che sono quasi totalmente indistinguibili se confrontati solo in base alle loro principali caratteristiche statistiche, ma che risultano invece profondamente diversi quando rappresentati graficamente:
Questo esempio è noto da tempo: il suo autore è lo statistico statunitense Francis John Anscombe, che lo pubblicò nel 1973 col titolo "Graphs in Statistical Analysis" sulla rivista The American Statistician.
Potete trovare l'articolo originale cliccando qui.
Questo dataset divenne subito molto famoso nella comunità della Data Visualization, e ancor oggi rimane un solido esempio motivazionale per la rappresentazione grafica dei dati.
Tuttavia, Anscombe non spiegò mai il procedimento che seguì per costruire i 4 datasets, e il quartetto rimase quindi un esempio isolato per molti anni.
Pur essendo teoricamente validi, gli esempi riportati finora non risultano tuttavia molto interessanti o attrattivi dal punto di vista grafico… ma la storia continua.
A questo punto entra in scena un nuovo protagonista: Alberto Cairo, uno dei più importanti esperti al mondo di Data Visualization, docente all’Università di Miami e autore di numerosi testi fondamentali sull’argomento.
Quando, nel 2016, Cairo vide DrawMyData ne rimase piacevolemente colpito e, oltre a commentare con un “Fantastic!” che fa bella mostra di sé sul sito di Grant, decise di utilizzare subito questo strumento per creare il suo più famoso dataset sintetico, il Datasaurus. Cairo pubblicò il suo Datasaurus sia su Twitter che sul suo blog per rinforzare il suo famoso concetto “Never trust summary statistics alone; always visualize your data!”