Cite um exemplo de “casa inteligente” e explique como a análise de dados pode melhorar nossa rotina automatizando tarefas cotidia
O processo de análise pode ser dividido em etapas. Cite e explique cada uma delas.
Descreva o conceito de Big Data.
Análise de dados tradicional e análise em Big Data são a mesma coisa? Justifique sua resposta.
Explique as principais diferenças entre processamento de dados estruturados, semiestruturados e não estruturados.
Quais são os tipos de bancos de dados NoSQL existentes? Cite uma ferramenta indicada para cada um dos tipos.
Qual a principal diferença entre o processamento em lote e o processamento em tempo real?
Uma arquitetura típica para projetos de Big Data é formada por quais componentes?
Descreva um Data Lake.
Dentre os métodos não supervisionados, a clusterização é uma das técnicas mais utilizadas. Descreva as técnicas de clusterização e em quais circunstâncias podem ser aplicadas.
Disserte sobre o que representam os métodos baseados em densidade. É possível encontrar anomalias (outliers) a partir destes métodos? Se sim, de que forma?
Descreva as principais diferenças entre as técnicas Single-Machine clustering e Multi-Machine clustering. Apresente exemplos.
Em se tratando de análise de redes sociais, qual característica principal difere esse tipo de análise em relação a análises baseadas em clustering? Explique.
Como as métricas de redes podem ser subdivididas? Cite e explique ao menos uma métrica de cada categoria.
O que é Multiplexidade? Cite um exemplo.
Por que manipular dados não estruturados (textuais) constitui-se em uma tarefa mais árdua se compararmos à análise de dados estruturados?
Qual a diferença entre as técnicas de Recuperação de Informação e Extração de Informação?
Por que o Digital Analytics é algo relevante para nossas análises?
No cenário digital, como você pode estabelecer uma diferença entre o que é métrica e um indicador? Cite um exemplo.
Que tipo de limitações a arquitetura tradicional do BI tem enfrentado na era Big Data?
Aponte diferenças entre o processo de ETL vs ELT:
Cite algumas ferramentas/frameworks Hadoop que podem ser utilizados para suprir carências na ingestão de dados no processo de ETL:
Em termos de processamento, o que credencia o Apache Spark a ser uma das soluções mais viáveis no Big Data?
Quais são os principais componentes do Spark? Qual a função de cada um?
O que é RDD e que tipo de operações são suportadas?
O que é a Internet das Coisas? Cite um exemplo prático.
De que maneira as empresas podem se beneficiar da análise de Big Data em um cenário de Internet das Coisas?
Cite alguns cenários de aplicações de Internet das Coisas. Tente pesquisar outros exemplos pela internet.
Observando algumas tendências de Big Data apontadas nessa seção, como você destacaria a presença mais incisiva da aprendizagem de máquina como apoio à tomada de decisões no futuro?
Um exemplo pode ser uma geladeira. Ela se comunicaria conosco ao notarque um determinado alimento armazenado dentro dela acabou ou está prestes a acabar, atribuindo uma escala de importância com base em nossos hábitos de consumo, ou seja, alimentos que consumimos diariamente possuem elevado grau de importância. Além disso, poderá sugerir os mercados mais próximos de nossa casa que possuam esse alimento em estoque. OBS.: esta resposta não é única, podendo aceitar outras ideias do acadêmico, mas que sejam relevantes.
Análise descritiva, Análise Diagnóstica, Análise Preditiva e Análise Prescritiva. As análises descritiva e diagnóstica apresentam como semelhanças o fato de responderem perguntas relacionadas ao passado: “o que aconteceu?”, “por que aconteceu?”, respectivamente. No entanto, a análise descritiva consiste em obter as primeiras informações estatísticas básicas, porém, de grande utilidade para verificar quais elementos são mais frequentes, ou que possuem maior média, ou construir gráficos simples como boxplot para detectar potenciaisoutliers. Por outro lado, a análise descritiva dá mais autonomia a algoritmos para detecção de padrões por meio de algoritmos e técnicas associativas. Por fim, as análises preditivas e prescritivas são mais avançadas e os seus resultados fornecem grandes valores para a organização. A primeira visa realizar previsões para antecipar problemas, enquanto que a segunda aprende com as experiências e atua diretamente nas ações referentes à tomada de decisão de forma automatizada. A complexidade e as chances de extrair valores aumentam proporcionalmente nessas etapas.
Big Data é a capacidade de administrar um volume enorme de dados diferentes na velocidade certa e dentro do prazo certo para permitir análises e reações em tempo real (ou) é um grande volume de informações, com alta velocidade e/ou ativos de informações de alta variedade que exige formas inovadoras e econômicas de processamento de informações que permitem uma melhor percepção na tomada de decisão e automação de processos.
Big Data difere-se da análise tradicional exatamente em função de seu próprio conceito, uma vez que, diferentemente da análise tradicional, a análise de Big Data considera uma infraestrutura diferente para lidar com intenso volume e variedade de dados que estão chegando a todo o momento, por exemplo, considera computação paralela para distribuição dos dados e assim dar suporte para análises mais avançadas em tempo hábil.
Dados estruturados possuem um esquema e uma estrutura definida, tendo presença em bancos de dados tradicionais e planilhas eletrônicas. Dados semiestruturados são dados que possuem uma certa estrutura, mas são menos rígidos, por exemplo, arquivos XML. Dados não estruturados são escritos em linguagem natural e não possuem arquivos de texto. Posts em redes sociais e vídeos são exemplos que podem ser citados.
Bancos de dados chave-valor, orientado a documentos, orientado a colunas e orientados a grafos. Para bancos chave-valor, podemos utilizar o Redis, para documentos o MongoDB, para os orientados a colunas temos o Cassandra e o Neo4Js para os baseados em grafos.
Processamento em lote é indicado para processar massivos de volumes dedados que estão armazenados durante um determinado período. Por outro lado, o processamento em tempo real executa o processamento em microlotes de dados e pode ser analisado assim que possível.
Camada de extração e integração de dados, camada de armazenamento efluxo de dados, camada de análise e camada de apresentação.
Um Data Lake é um servidor que armazena um conjunto de dados na sua forma mais bruta. É um modelo que suporta grandes volumes de dados estruturados e não estruturados sem a definição de esquema. O cientista de dados coleta os dados que necessita e realiza suas análises da maneira que desejar.
clusterização é uma técnica que visa particionar um conjunto de dados combase em suas similaridades. Objetivos que são próximos entre si compartilham de características em comum e possuem um alto grau de similaridade. Por outro lado, objetos ou pontos de dados que não pertencem ao mesmo cluster são muito diferentes entre eles e possuem alto grau de dissimilaridade. Cada cluster é delimitado com uma região de fronteira que classifica um dado número de pontos de dados e a validação tem que ser realizada por um especialista dodomínio. A clusterização pode ser aplicada em um conjunto de dados de volume razoável, assim como em dados preferencialmente do mesmo tipo.
Métodos baseados em densidade são aqueles que formam cluster a partir da densidade dos pontos em torno dos objetos a partir de um determinado raio. Pontos de dados que estiverem em regiões de baixa densidade podem ser potenciais outliers e precisam ser avaliados por especialistas.
As técnicas de Single-Machine clustering utilizam o poder de processamento de uma única máquina para processar os conjuntos de dados enquanto que as técnicas voltadas para Multi-Machine clustering otimizam o processamento ao utilizar várias máquinas. As técnicas de Single, como redução de dimensionalidade, são úteis para minimizar os efeitos de alta dimensão. Contudo, uma forma de otimizar ainda mais o processamento é paralelizar ou fatiar o conjunto de dados entre diversas máquinas utilizando o modelo de processamento simples, como o MapReduce para clusterização.
O fato de redes sociais serem representadas por matrizes ou através de grafos com vértices (atores sociais) e arestas (relacionamentos). É um ponto interessante, haja vista que o foco da análise, muitas vezes, não é feito de maneira isolada, ou seja, sem considerar outros vértices. O relacionamento entre os atores é fundamental para compreender como um dado vértice está posicionado na rede.
As métricas podem ser subdivididas em métricas de: conexão, distribuição e segmentação. Como métricas de conexão temos o exemplo da hemofilia, que visa encontrar semelhanças entre atores em uma determinada rede, considerando fatores, como faixa etária, profissão, sexo etc. A centralidade é uma métrica de distribuição que mede a importância de um ator em uma rede, esta inclusive pode ser subdividida em: grau, proximidade, autovalor e assim por diante. Por fim, a coesão é uma métrica de segmentação que objetiva medir quão coeso é um vértice em um grupo, ou seja, uma coesão fraca pode conduzir uma rápida “quebra” da rede.
Está relacionado à maneira pela qual dois atores sociais interagem entre em diferentes contextos. Um exemplo útil para comprovar a compreensão da definição precisa ser algo que compare dois atores diferentes com duas ou mais relações em diferentes contextos.
A razão dessa maior complexidade se dá por conta desses dados não possuírem uma estrutura definida e estarem sujeitos a erros e problemas advindos da linguagem natural. Além disso, a tarefa de pré-processamento é árdua para tornar o dado representativo e possível de analisar. Os dados estruturados, por outro lado, possuem uma organização e recebem uma interferência humana mínima que torna o ambiente mais favorável para análise de dados.
A recuperação de informação é o mecanismo de selecionar um conjunto de documentos que satisfazem uma necessidade, tais como os mecanismos de busca. A extração de informação, como o nome sugere, visa coletar um conjunto de informações (normalmente não estruturados e textuais) que são organizadas e estruturadas para um usuário ou persistida em algum Banco de Dados.
Uma resposta possível seria que as empresas hoje precisam compreender o comportamento (hábitos e costumes) dos seus clientes na internet. As pesquisas revelam que grande parte do mundo já está conectado por diferentes dispositivos. Dessa maneira, a presença da internet no nosso cotidiano reflete no nosso comportamento digital. Basta imaginar que, quando estamos descontentes com alguma marca ou serviço, muitas vezes registramos nossas reclamações na rede. Nesse caso, uma análise de dados nos mais diversos canais digitais pode ajudar empresas a perceberem qual real sentimento de seus clientes quanto a sua marca.
Uma métrica é um valor medido (bruto). Por exemplo, a contagem do número de visitantes de um site é uma métrica. Um indicador, por outro lado, pode ser criado por uma ou mais métricas com o intuito de medir o desempenho do negócio. Um indicador pode oferecer um parâmetro de conversão de vendas que pode ser útil para empresas que desejam se certificar de que suas ações de marketing realmente estão surtindo o efeito esperado.
A arquitetura tradicional de BI tem sofrido com requisitos de armazenamento e processamento de grandes volumes de dados que estão aptos para serem coletados, transformados e analisados. Os requisitos de negócios têm sido direcionados a tomadas de decisões em uma janela temporal cada vez menor, a qual um BI tradicional não consegue suportar análises em microlotes de dados, inviabilizando tomadas de decisões dessa natureza.
O processo de ETL visa à extração e transformação de um conjunto de dados estruturados e necessita da definição de um schema de Banco de Dados. Após a etapa de transformação os dados podem ser carregados em um DW, Data Mart, ou mesmo alimentar um modelo de Machine Learning. O ELT é um processo que atende às demandas do Big Data: dados de grande volume e heterogêneos. Primeiro ocorre o processo de extração dos dados, em seguida, os dados são armazenados (carregados) em um formato bruto em um servidor que suporte armazenamento e processamento distribuídos. A transformação só ocorre após o processo de carga.
Os dados estruturados podem ser coletados pelo SQOOP através decomandos SQL e em seguida podem ser armazenados no HDFS. Quando trabalhamos com streaming de dados, o Apache Flume pode ser uma alternativapara mover dados para o HFDS ou mesmo bancos não relacionais. O Apache Kafka pode ser uma outra solução para essa mesma finalidade.
O fato deste framework utilizar o processamento em memória o torna mais veloz em termos de processamento. Em computação iterativa, as operações de MapReduce tradicionais utilizam o disco para armazenar os dados intermediários, enquanto que o Spark utiliza a memória disponível e assim as repetitivas operações de escrita-leitura são mais velozes. Ainda que utilizemos parte do processamento do Spark no disco, a velocidade ainda é maior se comparada ao uso exclusivo do Hadoop MapReduce.
O Apache Spark apresenta quatro componentes principais: Spark SQL, SparkStreaming, Spark MLlib e Spark GraphX. 1) Spark SQL: conecta o Spark a fontes de dados estruturados utilizando a linguagem SQL; 2) Spark Streaming: coleta dados de fontes com fluxo contínuo, úteis em aplicações de tempo real; 3) Spark MLlib: é uma biblioteca do Spark que implementa algoritmos distribuídos para aprendizagem de máquina com elevado poder de eficiência; 4) Spark GraphX: útil para processamento de grafos de forma eficiente, com elevada flexibilidade e facilidade de uso que o Spark oferece.
Os RDDs são uma estrutura específica para trabalhar com dados no Spark.É um componente que abstrai toda a complexidade do paralelismo, dividindo a coleção de objetos em diferentes nós de um cluster. Por meio do RDD, o Spark consegue gerenciar falhas e alcançar eficiência no processamento dos dados. O RDD suporta dois tipos de operações: as transformações e as ações.
Uma resposta aceitável é dizer que a Internet das Coisas compreende um conjunto de dispositivos (objetos) que se conectam à internet produzindo informação e interagindo entre si. Por exemplo, sensores implantados em coisas, como um ar-condicionado, para fazer a leitura do ambiente e determinar a temperatura “ideal” com o intuito de reduzir custos com energia.
Os sensores implantados em um ambiente de negócio poderão fazer a leitura do ambiente e as empresas de fabricação, por exemplo, poderão compreender melhor a performance das máquinas, antecipar problemas, melhorar o fluxo de produção (aumentando a sua eficiência) e reduzir custos operacionais.
Cidades inteligentes, agricultura inteligente, saúde e bem-estar, varejo elogística inteligente.
Uma resposta aceitável é o fato de que as empresas tenderão a encontrar cada vez mais real valor nos seus negócios por meio de algoritmos e técnicas de aprendizagem de máquina. Tudo isso aliado a uma crescente perspectiva de usuários não especialistas interagindo com Machine Learning sem nenhum conhecimento prévio de programação.