A
Amostra: porção representativa de uma seleção de dados, usada para análises estatísticas e inferências sobre todo o conjunto de dados.
Analisar: processo de examinar, interpretar e extrair informações úteis de um grupo de dados, usando técnicas e métodos estatísticos, matemáticos e computacionais.
Analytics: processo de explorar e analisar grandes volumes de dados para extrair informações úteis na geração de insights. Dependendo do objetivo, suas análises podem ser descritivas, preditivas ou prescritivas,
Análise descritiva: usada para entender o comportamento dos dados, descrevendo características importantes de um conjunto de dados através de técnicas estatisitcas como média, mediana, desvio padrão, frequência e distribuição de dados.
Análise preditiva: tipo de análise de dados que utiliza modelos estatísticos e de aprendizado de máquina para prever tendências, comportamentos, riscos e resultados futuros com base em dados históricos.
Análise prescritiva: tipo avançado de análise de dados que utiliza técnicas de modelagem e de aprendizado de máquina para identificar a melhor ação a ser tomada numa determinada situação, com base nos dados históricos e de tempo real. Seu uso nas empresas ajuda a otimizar processos, reduzir riscos, melhorar a eficiência e maximizar seus resultados.
B
Backup: prática de se fazer uma cópia de segurança de dados importantes para que possam ser restaurados caso perdidos ou corrompidos.
Big Data: trata-se de grandes volumes de dados, estruturados ou não estruturados, gerados a partir de várias fontes e que podem ser processados para extrair informações valiosas.
Business Intelligence: conjunto de tecnologias e práticas que são usadas para coletar, integrar, analisar e apresentar informações valiosas de negócios para que possam ser usadas ao tomar decisões estratégicas.
Binário: sistema numérico que usa apenas dois dígitos, 0 e 1, para representar qualquer informação em formato digital como texto, imagem, som e vídeo.
Bit: menor unidade de informação computacional, representada por um dígito binário (0 ou 1), usada para processar, armazenar e transmitir informações digitais.
Byte: unidade básica de armazenamento de informações em computadores e outros dispositivos eletrônicos composta por oito bits de dados.
C
Criptografia: prática de codificar informações ou dados para protegê-los da visualização, acesso ou uso não autorizados, garantindo que apenas o destinatário pretendido possa acessá-los e interpretá-los. É amplamente utilizada em segurança da informação, transações financeiras, comunicações seguras e outras aplicações de proteção de dados.
D
Dados: são informações brutas ou fatos coletados por meio de observação, experimentação ou outros métodos e podem ser processados para gerar informações úteis e insights valiosos.
Dados bronze: são dados estruturados e limpos, mas que ainda não foram validados e verificados quanto à qualidade e precisão, podendo conter erros ou inconsistências.
Dados prata: são dados que passaram por um processo de validação para garantir a qualidade e precisão, mas ainda precisam de processamento e análise para gerar informações úteis.
Dados ouro: são conjuntos de dados precisos, limpos e confiáveis, altamente relevantes e valiosos para análises de negócios e tomada de decisões.
Datasets: conjuntos de dados transformados e prontos para serem utilizados e analisados através de relatórios e painéis desenvolvidos em ferramentas de dataviz.
Data streaming (Fluxo de dados): é o processo de transmitir, receber e processar continuamente um grande volume de dados em tempo real, permitindo análises e tomada de decisões em tempo hábil.
Data Warehouse: armazém de dados centralizado que é utilizado para armazenar grandes volumes de dados históricos de uma organização.
Data Mining: processo de explorar e analisar grandes conjuntos de dados para descobrir padrões, tendências e relacionamentos ocultos, ajudando as empresas a tomarem decisões baseadas em dados, identificando oportunidades de negócios, melhorando seus processos e maximizando seus lucros.
DAGs (Directed Acyclic Graphs): diagramas usados para representar o fluxo de execução de tarefas num processo, com setas que indicam a dependência entre as tarefas e seus grafos acíclicos (ou seja, sem loops ou ciclos no fluxo de execução). São muito utilizados em sistemas de processamento de dados distribuídos, como Apache Airflow e Spark.
E
ETL (Extract, Transform, Load): processo tratamento que envolve a extração, transformação e carregamento de dados de várias fontes de dados em um data warehouse (por exemplo).
ELT (Extract, Load, Transform): processo de integração de dados extraídos de várias fontes, carregados diretamente num data warehouse ou dataviz e, transformados e preparados para serem analisados.
I
Inferência: processo de tirar conclusões ou fazer afirmações sobre um conjunto de dados com base numa amostra representativa, usando técnicas estatísticas por exemplo
M
Machine Learning: é um campo de estudo da inteligência artificial desenvolvido de algoritmos e modelos que permitem que computadores aprendam e melhorem continuamente a partir de dados. Tem como objetivo permitir que os computadores identifiquem padrões e tomem decisões com base em seus aprendizados
N
NLP (Processamento de Linguagem Natural): subárea da ciência da computação que se concentra na interação entre humanos e computadores usando linguagem natural. Envolve o uso de algoritmos e técnicas de aprendizado de máquina para analisar, interpretar e gerar linguagem humana, permitindo que computadores entendam e respondam as perguntas, traduzam entre idiomas, reconheçam falas e até mesmo gerem textos em linguagem natural. São aplicados em assistentes virtuais, análise de sentimentos, chatbots, tradução automática, textos e etc.
O
Outliers (Valores Atípicos): são valores que se diferenciam significativamente do restante dos dados num conjunto. Eles podem ser causados por erros de medição, falhas no processo de coleta de dados ou simplesmente por serem resultados raros e/ou extremos. A identificação e tratamento de outliers é importante em análise de dados, pois podem afetar negativamente a qualidade dos modelos ou insights obtidos a partir dos dados. Podem ser identificados por meio de métodos estatísticos, como desvio padrão ou gráficos de boxplot a fim de serem removidos ou tratados de diferentes maneiras, dependendo do contexto e do objetivo da análise.
P
Padrões: são as características, tendências ou comportamentos recorrentes identificados num conjunto ou processo de análise de dados.
Pipeline de dados: conjunto de processos interconectados que permitem a coleta, transformação, armazenamento e análise de dados de forma eficiente e escalável. Cada etapa do processo recebe dados de entrada, realiza uma ou mais operações e passa os dados processados para uma próxima etapa ou saída.
Plotar (Plotagem): é a forma de representar visualmente os dados em um gráfico ou diagrama, facilitando a compreensão e a interpretação dos mesmos. A plotagem é essencial na análise de dados, permitindo que analistas visualizem os padrões, tendências, identifiquem correlações, outliers e gerem insights de forma clara e concisa para os usuários finais.
Q
Query: Instruir num banco de dados a recuperacao de dados utilziando linguagens de consulta como SQL.
Quartil: um Valor que divide um conjunto de dados em quatro partes iguais, representando diferentes percentis.
R