2020.1 - DCC102 - Seminários VI - Análise de Dados em Redes de Computadores de Grande Porte - (ERE)

Horários

Online pelo Google Sala de Aula. Material novo toda terça-feira.

Atendimento: enviar e-mail ao professor com 24h de antecedência alocando 1 slot de 30 minutos.

Tema: Análise de Dados em Redes de Computadores de Grande Porte

Ementa

A análise de grandes massas de dados está cada vez mais presente nas diversas áreas da computação. Neste curso serão estudadas as tendências, soluções de software e o estado da arte, de forma geral, para a análise de dados em fluxo aplicado a ambientes de redes de computadores. Como exemplo, pode-se citar soluções como coleta e tratamento de dados/logs (e.g. Logstash), troca de mensagens (e.g. Kafka), processamento de dados (e.g. Spark) e ferramentas de visualização e análise de dados (e.g. Kibana, Microsoft PowerBI, Scikit-learn).

Visão Geral

A Figura mostra, de forma geral e genérica, como uma arquitetura de processamento de dados em larga escala se compõe. Nessa Figura vê-se a fonte de dados - logs, ou arquivos em geral que serão analizados - conectando a uma etapa de pré-processamento - nesta etapa pode acontecer algum tratamento de texto, redução de valores, exclusão de partes não interessantes para o resto do fluxo. Uma vez que os dados são coletados, eles serão enviados à chamada cama de distribuição - onde é possível imaginar ferramentas como aquelas baseadas em um pub/sub, como é o caso do Apache Kafka ou do RabbitMQ. Armazenado no sistema de distrubuição, é possível utilizar uma das duas categorias existentes de processamento, o em lote ou em tempo real (streaming), casa um com suas ferramentas - Spark streaming (realtime), Hadoop + Spark (batch), por exemplo. Uma vez disponíveis em batch ou realtime, os dados podem ser armazenados em uma base de dados - como o Cassandra, TimeSeriesDB etc - e enviadas para análise de dados e exibida no painel de visualização/dashboard. A etapa de análise de dados aparece na Figura como uma etapa adicional, já que a visualização dos dados já é possível apenas com os dados armazenados.

Veja sobre a arquitetura Lambda e Kappa em:

Cronograma

DCC102 - Seminários VI - 2020

1ª TAREFA: encontrar artigos que tenham usados arquiteturas de big data - como lambda, kappa etc - ou ferramentas que se encaixem na Figura de referência. São exemplos de ferramentas: Spark, Flink, Kafka, Cassandra, TimeSeriesDB, Hadoop, Apache Samza, Storm etc.

Artigos podem ser encontrados em http://scholar.google.com (em português ou inglês)