LABORATORIO 01

Il Datasaurus

Dinosauri, dati e visualizzazioni

Questo laboratorio offre degli approfondimenti sui concetti affrontati nell'episodio 01, alternando approfondimenti e proposte di attività pratiche.Ci occuperemo in particolare di un gruppo di dataset creati dai rispettivi autori per dimostrare perché sia necessario, nella maggioranza dei casi, rappresentare graficamente i dati con cui abbiamo a che fare, senza limitarsi alla sola descrizione statistica e quindi numerica degli stessi. 

Durata

2,5 ore di attività

Prerequisiti

  • Episodio 01 | Introduzione alla Data Visualization

Competenze

  • Acquisire le prime nozioni relative alla visualizzazione dei dati
  • Acquisire alcune competenze base relative alla visualizzazione dei dati

Strumenti usati

  • Google Drive
  • Fogli Google

Il Quartetto di Anscombe

Nell'episodio 01, tramite il famoso esempio del Quartetto di Anscombe, abbiamo spiegato per quale motivo sia necessario, nella maggioranza dei casi, rappresentare graficamente i dati. 

In particolare, l’analisi del Quartetto ci ha mostrato come dataset con gli stessi descrittori statistici possano avere in realtà rappresentazioni grafiche molto diverse e, quindi, quanto lo strumento della Data Visualization possa essere efficace per comparare tra loro diversi dataset.

Il quartetto consiste di 4 dataset di 11 punti sul piano cartesiano (quindi con due coordinate x e y), che sono quasi totalmente indistinguibili se confrontati solo in base alle loro principali caratteristiche statistiche, ma che risultano invece profondamente diversi quando rappresentati graficamente:

Questo esempio è noto da tempo: il suo autore è lo statistico statunitense Francis John Anscombe, che lo pubblicò nel 1973 col titolo "Graphs in Statistical Analysis" sulla rivista The American Statistician

Potete trovare l'articolo originale cliccando qui.


Questo dataset divenne subito molto famoso nella comunità della Data Visualization, e ancor oggi rimane un solido esempio motivazionale per la rappresentazione grafica dei dati. 

Tuttavia, Anscombe non spiegò mai il procedimento che seguì per costruire i 4 datasets, e il quartetto rimase quindi un esempio isolato per molti anni.

Lab. 01 | Es.01
Costruire il Quartetto

Per capire fino a che punto il Quartetto di Anscombe sia stato concepito ad hoc per questo esempio, costruiremo un Foglio Google con i 4 dataset; inseriremo per ogni dataset un piano cartesiano con i relativi punti e calcoleremo con una formula automatica le statistiche elencate.
Poi proveremo a spostare/togliere/aggiungere punti, per verificare l'effetto che tali modifiche hanno sia sull'aspetto grafico che sulle statistiche.

Lab. 01 | Es.02
MatLab

Chatterjee e Firat forniscono alcune porzioni di codice MatLab per replicare la loro tecnica: chi di voi volesse cimentarsi con la programmazione potrebbe quindi provare, usando tale codice come guida, ad implementare il metodo in qualche linguaggio familiare.

Robert Grant

Pur essendo teoricamente validi, gli esempi riportati finora non risultano tuttavia molto interessanti o attrattivi dal punto di vista grafico… ma la storia continua.

Lab. 01 | Es.03
DrawMyData

Vediamo come costruire un dataset sintetico a forma di smile utilizzando DrawMyData.

A questo punto entra in scena un nuovo protagonista: Alberto Cairo, uno dei più importanti esperti al mondo di Data Visualization, docente all’Università di Miami e autore di numerosi testi fondamentali sull’argomento.

Quando, nel 2016, Cairo vide DrawMyData ne rimase piacevolemente colpito e, oltre a commentare con un “Fantastic!” che fa bella mostra di sé sul sito di Grant, decise di utilizzare subito questo strumento per creare il suo più famoso dataset sintetico, il Datasaurus. Cairo pubblicò il suo Datasaurus sia su Twitter che sul suo blog per rinforzare il suo famoso concetto “Never trust summary statistics alone; always visualize your data!”


Lab. 01 | Es.04
Datasaurus Dozen

Costruire un Foglio Google simile a quello fatto nel Lab.01 | Es.01 col quartetto di Anscombe e provare a modificare, eliminare, aggiungere punti e vedere l'effetto sulle relative statistiche e sull'aspetto grafico.