๐ฅ ๐ญ๐ฌ๐ฌ.๐ฌ๐ฌ๐ฌ ๐ฟ๐ฒ๐ฐ๐ผ๐ฟ๐ฑ ๐ถ๐ป ๐ฑ ๐๐ฒ๐ฐ๐ผ๐ป๐ฑ๐ถ!
๐ข Puรฒ capitare di aver bisogno di un Dataset di prova con il quale testare qualche nuova funzionalitร di trasformazione o di visualizzazione di un prodotto, oppure da utilizzare per una PoC da impostare "al volo", o ancora come dati per preparare presentazioni e casi d'uso per la divulgazione.
๐โ๐จ Non sempre รจ possibile utilizzare dati reali per tali scopi e spesso, se si parte dai dati reali disponibili, bisognerร oscurare informazioni sensibili o riservate prima di poterli usare.
โก Un'alternativa รจ quella di usufruire di servizi o siti che consentono di generare Dataset fittizi da poter utilizzare proprio con le finalitร sopra descritte.
๐ฅ Per comoditร , mi sono creato la mia propria applicazione web dalla quale posso generare Dataset di prova per i miei scopi.
๐ Il servizio che condivido, consente di generare un Dataset con informazioni relative alla "Persona Fisica" con i seguenti campi:
- Id (chiave del record),
- Codice Fiscale (chiave naturale di una Persona Fisica),
- Cognome Persona (3 lettere di esempio),ย
- Nome Persona (3 lettere di esempio),ย
- Sesso Persona (M/F),ย
- Data nascita della Persona (aaaa-mm-gg),ย
- Comune nascita (codice catastale del comune),ย
- descrizione Comune di nascita,ย
- descrizione Sovracomune di nascita (Provincia/Area Metropolitana),ย
- descrizione Regione di nascita,ย
- descrizione Area geografica di nascita (Nord/Sud/etc.),ย
- Email della Persona (formato nome.cognome.aaaammgg@dominio.sss),ย
- Telefono della Persona (formato nnn-nnnnnnn),ย
- Valore che rappresenta un numero da 0 a 100 che รจ possibile utilizzare come misura additiva.
Il codice catastale del comune e le corrispondenti descrizioni di comune, sovracomune, regione e area, vengono "estratte" dall'elenco dei 7.904 comuni censiti da Istat nell'aggiornamento del primo gennaio 2022: ovviamente nel tuo specifico scenario di prova, questi campi, si possono utilizzare come una generica localizzazione (ad es. la regione di nascita potrebbe essere utilizzata come quella di acquisto del numero di pezzi presente nel campo "Valore" di un certo prodotto).
In questo momento, il servizio che condivido, produce record con tutti i campi sempre valorizzati, coerenti con il formato atteso e consistenti rispetto al codice fiscale generato (mai riconducibile ad una persona fisica reale): potrebbe accadere che venga generato uno stesso codice fiscale piรน di una volta, ma il record sarebbe sempre coerente con gli altri record che presentano lo stesso codice.
La versione del servizio che ho pubblicato, consente l'estrazione del Dataset anche in formato JSON (in default CSV): nella versione completa, c'รจ anche la possibilitร di indicare una percentuale di record nei quali introdurre uno o piรน errori, o quella di generare altri tipi di Dataset (ad es. "Impresa").
๐ Buon lavoro!
#Data #Dataset #GoogleAppsScript #CSV #JSON #LookupTable #Persona #CodiceFiscale #Territorioย๐ฅ ๐๐ฎ๐๐ฎ๐๐ฒ๐ ๐ด๐ฒ๐ป๐ฒ๐ฟ๐ฎ๐๐ผ๐ฟ: ๐ฑ๐ถ๐๐ฝ๐ผ๐ป๐ถ๐ฏ๐ถ๐น๐ฒ ๐ถ๐น ๐ป๐๐ผ๐๐ผ ๐ฑ๐ฎ๐๐ฎ๐๐ฒ๐ "๐๐บ๐ฝ๐ฟ๐ฒ๐๐ฎ"!
๐ Per chi fosse interessato, ho abilitato anche la generazione di un Dataset con informazioni relative ad una "Impresa" con i seguenti campi:
- Id (chiave del record),
- Partita Iva (chiave naturale di una Impresa),
- Denominazione (ragione sociale)
- Forma giuridicaย
- Codice Ateco Attivitร (formato dd.dd.dd)
- Ateco Attivitร (descrittivo del codice)
- Data costituzione
- Comune sede legale
- Sovracomune sede legale (Provincia/Area Metropolitana)
- Regione sede legale
- Area sede legale
- Pec (formato <prima parola ateco>.<partita iva>@mail.pec)
- Telefono (formato nnn-nnnnnnn),
- Valore che rappresenta un numero da 0 a 100 che รจ possibile utilizzare come misura additiva.
๐ก๐ผ๐๐ฒ:
โน Il comune, sovracomune, regione e area della Sede Legale, vengono "estratte" dall'elenco dei 7.904 comuni censiti da Istat nell'aggiornamento del primo gennaio 2022.
โน La forma giuridica viene "estratta" dall'elenco delle 80 forme censite da Istat.
โน Il codice ateco e la relativa descrizione, vengono estratti dall'elenco delle 3.157 voci censite da Istat nell'aggiornamento del 2022.
Inoltre,
โ La forma giuridica e l'ateco potrebbero essere tra loro incongruenti: ad esempio, "Ente ecclesiastico" abbinato a "Mediatori in prodotti tessili, abbigliamento, pellicce, calzature e articoli in pelle", non รจ realistico ma come set di prova... puรฒ andare.
โ La Partita Iva viene generata secondo l'algoritmo ma introducendo un codice di controllo errato in modo da non generare (nel limite della casualitร ) codici di Imprese esistenti.
๐ Buon lavoro!
#Data #Dataset #GoogleAppsScript #CSV #JSON #LookupTable #Impresa #PartitaIva #FormaGiuridica #Ateco #Istatย๐ฅ ๐๐ฎ๐๐ฎ๐๐ฒ๐ ๐ด๐ฒ๐ป๐ฒ๐ฟ๐ฎ๐๐ผ๐ฟ: ๐ด๐ฒ๐ป๐ฒ๐ฟ๐ฎ๐๐ถ๐ผ๐ป๐ฒ ๐ฎ๐๐๐ผ๐บ๐ฎ๐๐ถ๐ฐ๐ฎ ๐ฒ ๐ฐ๐ฎ๐๐๐ฎ๐น๐ฒ ๐ฑ๐ถ ๐ฟ๐ฒ๐ฐ๐ผ๐ฟ๐ฑ ๐ฒ๐ฟ๐ฟ๐ฎ๐๐ถ ๐ป๐ฒ๐น ๐ฑ๐ฎ๐๐ฎ๐๐ฒ๐!
๐ข Per chi fosse interessato, ho abilitato anche la generazione di record errati nei Dataset disponibili: attraverso il parametro ๐ฒ๐ฟ๐ฟ, รจ possibile introdurre una certa percentuale di record errati all'interno del Dataset generato.
๐โ๐จ L'introduzione di record che presentano errori in uno o piรน campi, consente di avere un dataset di esempio sul quale creare regole di ๐๐ฎ๐๐ฎ ๐ค๐๐ฎ๐น๐ถ๐๐ sia per la scoperta e monitoraggio dei difetti che per la loro correzione. Infatti, per alcune tipologie di errore introdotte, sarร possibile "pulire" il dato, sfruttando il contenuto del campo (o di altri campi) contenuti nel record stesso (o in altri record).
โก Le tipologie di errori introdotte sono quelle classiche che troviamo "in natura" nei dati: valori nulli, chiavi naturali inconsistenti con il formato atteso, maiuscole-minuscole che possono invalidare controlli, codici di lookup inesistenti/inconsistenti, etc.
๐ฅ Queste tipologie di errore consentono di utilizzare il Dataset generato per analizzarlo dal punto di vista di alcune delle principali dimensioni del Data Quality: Consistenza, Completezza e Validitร .ย
๐ ๐๐ฒ ๐ฟ๐ฒ๐ด๐ผ๐น๐ฒ ๐ฐ๐ฟ๐ฒ๐ฎ๐ฟ๐ฒ ๐๐ ๐๐ป ๐๐ฎ๐น๐ฒ ๐ฑ๐ฎ๐๐ฎ๐๐ฒ๐ ๐ฑ๐ถ ๐ฝ๐ฟ๐ผ๐๐ฎ, ๐๐ฒ ๐ผ๐ฝ๐ฝ๐ผ๐ฟ๐๐๐ป๐ฎ๐บ๐ฒ๐ป๐๐ฒ ๐ฐ๐ผ๐๐๐ฟ๐๐ถ๐๐ฒ, ๐ฝ๐ผ๐๐ฟ๐ฎ๐ป๐ป๐ผ ๐ฒ๐๐๐ฒ๐ฟ๐ฒ ๐๐ฟ๐ฎ๐๐ณ๐ฒ๐ฟ๐ถ๐๐ฒ ๐๐ ๐ฎ๐น๐๐ฟ๐ถ ๐ฑ๐ฎ๐๐ถ ๐ฐ๐ผ๐ป ๐ฐ๐ผ๐ป๐๐ฒ๐ป๐๐๐ถ ๐ฎ๐ป๐ฎ๐น๐ผ๐ด๐ต๐ถ!
๐ก๐ผ๐๐ฒ:
โน I record errati sono introdotti in posizioni casuali nel dataset.
โน Ogni record errato, contiene uno o piรน campi anomali.
โน Le diverse tipologie di errore crescono al crescere del numero di record estratti.
โ Alcune tipologie di errore non sono introdotte: ad esempio la duplicazione di una chiave naturale che impatta (ad es.) la dimensione Univocitร del Data Quality.
โ La percentuale di record in errore ๐ฒ๐ฟ๐ฟ รจ un'approssimazione al numero intero superiore rispetto al numero di record estratti.
๐ Buon lavoro!
#Data #Dataset #DataQuality #GoogleAppsScript #toolsย