Big Data

Con l’espressione Big Data ci si riferisce a insiemi di dati che sono così grandi in volume e così complessi che i software e le architetture informatiche tradizionali non sono in grado di catturare.

Se un database tradizionale può gestire tabelle magari composte di milioni di righe, ma su decine o poche centinaia di colonne, i big data richiedono strumenti in grado di gestire lo stesso numero di record, ma con migliaia di colonne.

Si tende quindi a definire i contorni di un progetto Big Data analizzandolo per tre diversi aspetti, a cui ci si riferisce come le “tre V dei Big Data”:


  • Il Volume di dati

  • La grande Varietà nei tipi di dati

  • La Velocità con cui i dati devono essere acquisiti o analizzatiIl concetto di Big Data porta con sé diversi elementi e componenti

che permettono ad aziende e organizzazioni di sfruttare i dati per risolvere in modo pratico numerosi problemi di business.

I diversi componenti da considerare sono:


  • L’infrastruttura IT per i Big Data;

  • L’organizzazione e la struttura di archiviazione dei dati;

  • Gli strumenti analitici per Big Data;

  • Le competenze tecniche e matematiche;


Non ultimo, un reale caso di business in cui i Big Data possano apportare valore.In più, spesso i dati non sono nemmeno disponibili in forma strutturata, facilmente incasellabile in righe e colonne appunto, ma sono presenti sotto forma di documenti, meta dati, posizioni geografiche, valori rilevati da sensori IoT e numerose altre forme, dal semi-strutturato al completamente destrutturato. gestire ed elaborare in un tempo ragionevole.



A capo del progressivo utilizzo commerciale dei big data abbiamo:


  • Alation:

Alation analizza le risorse di un’azienda per catalogare ogni bit di informazione disponibile e poi centralizzare tutto il patrimonio dei dati aziendali, estraendo automaticamente le informazioni su ciò che i dati descrivono, da dove provengono, da chi e come vengono utilizzati.

In altre parole, gli strumenti offerti da Alation trasformano tutti i dati in metadati e consentono di fare ricerche rapide attraverso parole (in inglese) e non stringhe informatiche. I prodotti della società forniscono analytics collaborativi per insight più veloci e un mezzo unificato di ricerca, permettendo ai clienti di ottimizzare la struttura e migliorare la governance dei dati aziendali.


  • Alpine Data Labs:

Creata da un gruppo di dipendenti di Greenplum, la società Alpine Data Labs offre un’interfaccia di analisi avanzata su Apache Hadoop. L’obiettivo è fornire uno strumento intuitivo, che permette di analizzare il flusso di dati e costruire modelli predittivi che chiunque può utilizzare, anziché rivolgersi a un costoso data scientist per programmare le analisi.


  • Alteryx:

Alteryx si definisce come leader delle analisi dati “self-service”. Il suo software permette di integrare dati provenienti da diverse fonti, analizzarli e condividerli in modo che possano essere prese opportune decisioni. Le query possono essere fatte a partire da qualsiasi contesto, che sia lo storico delle operazioni di vendita alle attività sui social media.

In Italia sono presenti molti partner tra i più grandi integratori di sistemi, consulenti e rivenditori a valore aggiunto, individuabili dal link sul titolo.


  • Amazon Web Services:

Amazon offre una serie di piattaforme per i Big Data, tra cui Elastic MapReduce (basato su Hadoop), Kinesis Firehose per lo streaming di grandi quantità di dati in AWS, Kinesis Analytics per l’analisi dei dati, il database DynamoDB, NoSQL e HBase, il servizio di data warehousing Redshift. Tutti questi servizi sono inseriti all’interno delle offerte Amazon Web Services.


  • Big Panda:

BigPanda offre una piattaforma dedicata a staff IT e DevOps per gestire gli alert di sovraccarico. Una delle tante fonti di Big Data sono i log, che possono generare avvisi ridondanti o falsi facendo perdere il controllo della situazione. A partire da questa premessa, attraverso la sua piattaforma, BigPanda riconosce gli allarmi significativi di sovraccarico, permettendo di reagire più rapidamente ai problemi reali.


  • Cogito:

Cogito Dialog è un servizio verticale progettato per il personale addetto al supporto telefonico. Grazie a tecnologie di analisi comportamentale, che permettono di analizzare email dei clienti, social media, voce umana, Cogito Dialog aiuta il personale a migliorare la comunicazione con i clienti in tempo reale e le aziende a gestire meglio le performance.


  • Datameer:

Datameer definisce la sua Datameer Analytics Solution (DAS) l’unica soluzione Hadoop end-to-end per gli analytics.DAS supporta tutte ile principali varianti Hadoop, tra cui Apache, Cloudera, EMC Greenplum HD, IBM BigInsights, MapR, Yahoo e Amazon. La piattaforma gestisce l’integrazione delle fonti di dati, esegue analisi e visualizza i risultati con una interfaccia in stile foglio elettronico, che offre più di 200 funzioni di analisi e di visualizzazione.


  • Google:

Google continua a espandere la sua offerta di Big Data analytics, a partire da BigQuery, una piattaforma basata su cloud che permette di analizzare rapidamente grandi insiemi di dati. BigQuery utilizza un modello pay-as-you-go ed è serverless, quindi non richiede infrastrutture da gestire.


Google offre anche Dataflow, un servizio di elaborazione dei dati in tempo reale, Dataproc, un servizio basato su Hadoop/Spark, Pub/Sub per connettere i propri servizi alla messaggistica di Google, e Genomics, focalizzato sulle scienze genomiche.


  • HP Enterprise:

HP Enterprise ha sviluppato un considerevole portafoglio di prodotti Big Data in un tempo molto breve. Il suo prodotto principale è Vertica Analytics Platform, progettato per gestire volumi grandi e in rapida crescita di dati strutturati e fornire veloci prestazioni delle query su Hadoop e SQL Analytics con scalabilità a livello di petabyte.

Il software HPE IDOL fornisce un ambiente unico per dati strutturati, semi-strutturati e non strutturati. Supporta analisi ibride che sfruttano tecniche statistiche e Natural Language Processing (NLP).

HPE offre una serie di prodotti hardware, tra cui i sistemi di server HPE Moonshot per carichi di lavoro ottimizzati e HPE Apollo 4000, appositamente sviluppato per Big Data, analytics e object storage.

I sistemi iperconvergenti e l’architettura componibile Synergy di HPE sono progettati per carichi di lavoro SAP HANA e HPE 3PAR StoreServ 20000 immagazzina i dati analizzati, gestendo la domanda e la crescita futura dei carichi di lavoro.


  • IBM:

Oltre ai suoi sistemi mainframe e Power, IBM offre servizi cloud per l’elaborazione dei Big Data la sua controllata Softlayer. Sul lato software, i suoi database DB2, Informix e InfoSphere supportano le analisi dei Big Data, mentre Cognos e SPSS sono specializzati in BI e data insight. IBM offre anche InfoSphere, la piattaforma di base per l’integrazione dei dati e il data warehousing utilizzati in ambito Big Data.


  • Microsoft:

La strategia Big Data di Microsoft è ampia ed è cresciuta rapidamente. L’azienda ha una partnership con Hortonworks e offre lo strumento HDInsights based per l’analisi di dati strutturati e non strutturati sulla Hortonworks Data Platform.


Microsoft offre anche la piattaforma iTrend per il reporting dinamico di campagne, brand e singoli prodotti. SQL Server 2016 è dotato di un connettore ad Hadoop per l’elaborazione di Big Data, e Microsoft ha recentemente acquisito Revolution Analytics, che ha sviluppato l’unica piattaforma di analisi dei Big Data scritta in R, un linguaggio di programmazione per creare applicazioni Big Data senza avere le competenze di un data scientist.