Big Data

BIG DATA

A sociedade produz e consome um volume significativo de dados, aqui denominados de matéria prima, os quais, com velocidade cada vez maior, são gerados por diversas ferramentas e adquirem diferentes formatos estruturais.

Mcafee e Brynjolfsson (2012) afirmam que, por dia, ocorre um aumento de 2,5 exabytes na produção de dados; Davenport (2014), por sua vez, ressalva que o mundo utilizou 2,8 zetabytes de dados em 2012, mas que apenas 0,5% desses dados foram analisados de alguma forma. Esse autor estima que aproximadamente 25% deles têm valor potencial e reconhece que essa estimativa é modesta quando se considera a quantidade de dados disponíveis.

Dervojeda et al. (2013) afirmam que aproximadamente 90% dos dados produzidos no mundo correspondem aos dois últimos anos e que 20% desses dados são numéricos. Essa evidência incentiva a realização de pesquisas sobre a área de MD, inclusive algoritmos de dados quantitativos.

De acordo com Gantz e Reinsel (2012), a previsão é de que, em 2020, serão produzidos mais de 40.000 exabytes (mais de 5.200 gigabytes para cada habitante no mundo). Khan et al. (2014) relatam que a expectativa para 2020 é de que 50 bilhões de novos dispositivos sejam conectados à internet e preveem que a produção de dados será 44 vezes maior do que em 2009.

O Big Data, mesmo com alguns vestígios de ceticismo, ganhou a atenção da academia. Segundo alguns autores, tais desconfianças desaparecerão com o passar do tempo, já que esse método tem relevância considerável para muitas organizações (KHAN et al. 2014; DAVENPORT, 2014; LI et al., 2015).

As definições de Big Data na literatura convergem quanto aos seguintes fatos: utilização de diferentes fontes de dados e características como tipo de dados, volume, velocidade e variedade (MANYIKA et al., 2011; BEGOLI e HOREY, 2012; MCFEE e BRYNJOLFSSON, 2012; KAISLER et al., 2013; DAVENPORT, 2014; LI et. al., 2015; GANTZ e REISEN, 2012). Estendendo a definição, Zikopoulos e Eaton (2011) acrescenta a característica veracidade e Kaisler et al. (2013) mencionam as características valor e complexidade. Davenport (2014) agrega venalidade, isto é, a possibilidade de ser vendido.

Volume dos dados

Demchenko et al. (2013) afirmam que o volume é a característica de maior relevância no Big Data, cujos requisitos adicionais e específicos (tamanho, escala, quantidade e dimensão dos dados) impõem limites às tecnologias tradicionais de descoberta de conhecimento. O volume dos dados não se restringe ao disponível internamente na organização: compreende também o acesso a dados externos (KAISLER et al., 2013).

Velocidade dos dados

Refere-se à dinâmica de criação, transferência e aglomeração dos dados (KAISLER et al., 2013), as quais ocorrem em “tempo real”. McAfee e Brynjolfsson (2012) afirmam que a velocidade agrega a possibilidade de vantagem competitiva nas atividades de extração e processamento em tempo real.

Variedade dos dados

A análise de dados em formatos não estruturados ou semiestruturados pode ser complexa. Em razão disso, os dados devem ser previamente estruturados (KHAN et al. 2014). Consequentemente, diante da possibilidade de tratamento dos dados, os algoritmos tradicionais de MD são capazes de localizar padrões desconhecidos.

Os diferentes formatos de dados, não estruturado e semiestruturado, como textos, imagens, vídeos e áudios, oferecem desafios significativos diante das exigências impostas pela gestão do armazenamento e pela arquitetura de banco de dados (KAISLER et al., 2013, DEMCHENKO et al., 2013).

Valor dos dados

De acordo com Kaisler et al. (2013), a característica valor está relacionada à sua utilidade no processo de tomada de decisão. Ou seja, essa característica assume o mesmo propósito do termo útil, definido no processo KDD por Fayyad et al. 1996b. Complementarmente, Demchenko et al. (2013) destacam a relevância do valor e a relação com as características volume e variedade.

Veracidade dos dados

Obviamente, todas as características do Big Data são pertinentes, no entanto, tornam-se irrelevantes caso os dados não sejam confiáveis.

Segundo Demchenko et al. (2013), isso depende de aspectos como origem, métodos de extração e tratamento de dados, os quais estão associados à confiabilidade dos dados no que diz respeito à segurança da fonte, à integridade e à autenticidade.


Bibliografia:

BRACHMAN, R.; KHABAZA, T.; KLOESGEN, W.; PIATETSKY-SHAPIRO, G.; SIMOUDIS, E.. Mining business databases. Communications of the ACM, v. 39, n. 11, p. 42-48, 1996. BEGOLI, E.; HOREY, J.. Design principles for effective knowledge Discovery from big data. In: Software Architecture (WICSA) and European Conference on Software Architecture (ECSA), 2012 joint working IEEE/IFIP conference on. IEEE, 2012. p. 215-218. DAVENPORT, T. H.. Big Data no trabalho: derrubando mitos e descobrindo oportunidades. São Paulo, Campus, 2014. DEMCHENKO, Y.; GROSSO, P.; DE LAAT, C.; MEMBREY, P.. Addressing big data issues in scientific data infrastructure. In: Collaboration Technologies and Systems (CTS), 2013 International Conference on. IEEE, p. 48-55. 2013. DERVOJEDA, K.; VERZIJL, D.; NAGTEGAAL, F.; LENGTON, M.; ROUWMAAT E.. Big data: Artificial intelligence. Business Innovation Observatory, Netherlands. European Union. Case study 9. p. 1-15, 2013. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P.. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, v. 39, n. 11, p. 27-34, 1996. Feldens, M. A.; Moraes, R.; Pavan, A.; Castilho, J.. Towards a methodology for the discovery of useful knowledge combining data mining, data warehousing and visualization. In: Conferencia Latino americana de Informatica (CLEI’ 98), XXIV1998, Quito, Ecuador. Proceedings... [S.l.]: PUCE-XEROX, 1998. v.2, p.935-947. GANTZ, J.; REINSEL, D.. The digital universe in 2020: Big data, bigger digital shadows, and biggest growth in the far east. IDC iView: IDC Analyze the future, v. 2007, p. 1-16, 2012.KHAN, N.; YAQOOB, I.; HASHEM, I. A. T.; INAYAT, Z.; MAHMOUD A. W. K.; ALAM, M.; GANI, A.. Big Data: survey, technologies, opportunities, and challenges. The Scientific World Journal. Hindawi Publishing Corporation.Li, J.; Tao, F.; Cheng, Y.; Zhao, L.. Big Data in product lifecycle management. The International Journal of Advanced Manufacturing Technology, v. 81, n. 1-4, p. 667-684, 2015. MANYIKA, J.; CHUI, M.; BROWN, B.; BUGHIN, J.; DOBBS, R.; ROXBURGH, C.; BYERS, A. H.. Big data: The next frontier for innovation, competition, and productivity. Global Institute, McKinsey & Company, 2011.ZIKOPOULOS, P.; EATON, C.. Understanding big data: Analytics for enterprise class hadoop and streaming data. McGraw-Hill Osborne Media, USA, 2011.