LABORATORIO 01
Il Datasaurus
Dinosauri, dati e visualizzazioni
Durata
2,5 ore di attivitàPrerequisiti
- Episodio 01 | Introduzione alla Data Visualization
Competenze
- Acquisire le prime nozioni relative alla visualizzazione dei dati
- Acquisire alcune competenze base relative alla visualizzazione dei dati
Strumenti usati
- Google Drive
- Fogli Google
Il Quartetto di Anscombe
Nell'episodio 01, tramite il famoso esempio del Quartetto di Anscombe, abbiamo spiegato per quale motivo sia necessario, nella maggioranza dei casi, rappresentare graficamente i dati.
In particolare, l’analisi del Quartetto ci ha mostrato come dataset con gli stessi descrittori statistici possano avere in realtà rappresentazioni grafiche molto diverse e, quindi, quanto lo strumento della Data Visualization possa essere efficace per comparare tra loro diversi dataset.
Il quartetto consiste di 4 dataset di 11 punti sul piano cartesiano (quindi con due coordinate x e y), che sono quasi totalmente indistinguibili se confrontati solo in base alle loro principali caratteristiche statistiche, ma che risultano invece profondamente diversi quando rappresentati graficamente:
Questo esempio è noto da tempo: il suo autore è lo statistico statunitense Francis John Anscombe, che lo pubblicò nel 1973 col titolo "Graphs in Statistical Analysis" sulla rivista The American Statistician.
Potete trovare l'articolo originale cliccando qui.
Questo dataset divenne subito molto famoso nella comunità della Data Visualization, e ancor oggi rimane un solido esempio motivazionale per la rappresentazione grafica dei dati.
Tuttavia, Anscombe non spiegò mai il procedimento che seguì per costruire i 4 datasets, e il quartetto rimase quindi un esempio isolato per molti anni.
Lab. 01 | Es.01
Costruire il Quartetto
Costruire il Quartetto
Poi proveremo a spostare/togliere/aggiungere punti, per verificare l'effetto che tali modifiche hanno sia sull'aspetto grafico che sulle statistiche.
Lab. 01 | Es.02
MatLab
MatLab
Robert Grant
Pur essendo teoricamente validi, gli esempi riportati finora non risultano tuttavia molto interessanti o attrattivi dal punto di vista grafico… ma la storia continua.
Lab. 01 | Es.03
DrawMyData
DrawMyData
A questo punto entra in scena un nuovo protagonista: Alberto Cairo, uno dei più importanti esperti al mondo di Data Visualization, docente all’Università di Miami e autore di numerosi testi fondamentali sull’argomento.
Quando, nel 2016, Cairo vide DrawMyData ne rimase piacevolemente colpito e, oltre a commentare con un “Fantastic!” che fa bella mostra di sé sul sito di Grant, decise di utilizzare subito questo strumento per creare il suo più famoso dataset sintetico, il Datasaurus. Cairo pubblicò il suo Datasaurus sia su Twitter che sul suo blog per rinforzare il suo famoso concetto “Never trust summary statistics alone; always visualize your data!”
Lab. 01 | Es.04
Datasaurus Dozen
Datasaurus Dozen