Algoritmo: Conjunto de regras e instruções lógicas que um computador segue para resolver problemas ou realizar tarefas específicas de processamento.
A/B Testing: Método de comparação entre duas versões de uma variável para determinar qual delas gera o melhor resultado estatístico.
Big Data: Termo que descreve grandes volumes de dados que crescem em velocidade e variedade, exigindo tecnologias avançadas para sua análise.
Bias (Viés): Erro sistemático em um modelo que ocorre quando os dados de treino não representam fielmente a realidade do problema.
Clustering: Técnica de agrupamento automático de dados que possuem características semelhantes em categorias chamadas de "clusters".
Data Mining: Processo para explorar grandes bases de dados a fim de descobrir padrões ocultos, anomalias e correlações úteis para a tomada de decisão.
Deep Learning: Ramo do aprendizado de máquina baseado em redes neurais artificiais que imitam a estrutura do cérebro para processar padrões complexos.
Feature Engineering: Técnica de selecionar, modificar e transformar variáveis brutas em formatos que melhorem o desempenho dos modelos de previsão.
Generative AI: Ramo da inteligência artificial focado em criar novos conteúdos originais, como textos, imagens, códigos e músicas.
Imbalanced Data: Conjunto de dados onde as classes de interesse não estão distribuídas de forma igual, exigindo técnicas especiais de tratamento na IA.
Inferência: processo de tirar conclusões ou fazer afirmações sobre um conjunto de dados com base numa amostra representativa, usando técnicas estatísticas por exemplo
K-Nearest Neighbors (KNN): Algoritmo simples que classifica um dado com base na proximidade e semelhança com os vizinhos mais próximos no conjunto.
LLM (Large Language Model): Modelos de IA treinados em volumes massivos de texto para entender e gerar linguagem humana natural.
Machine Learning: Subcampo da IA focado em criar sistemas que aprendem e melhoram seu desempenho automaticamente através da experiência com dados.
NLP (Processamento de Linguagem Natural): Campo da IA que foca na interação entre computadores e a linguagem humana natural, escrita ou falada.
Overfitting: Problema que ocorre quando um modelo decora os dados de treino tão bem que perde a capacidade de generalizar para novos dados.
Pipeline: Fluxo automatizado que conduz os dados desde a sua origem bruta até a limpeza, processamento e entrega final para análise.
Padrões: são as características, tendências ou comportamentos recorrentes identificados num conjunto ou processo de análise de dados.
Predição: Resultado gerado por um modelo estatístico que utiliza dados históricos para estimar a probabilidade de um evento futuro acontecer.
R: Linguagem de programação estatística utilizada para análise, manipulação de dados e criação de gráficos complexos.
Randon Forest: Algoritmo de aprendizado de máquina que combina várias árvores de decisão para aumentar a precisão de previsões e classificações.
Recall: Métrica que mede a capacidade de um modelo em identificar corretamente todos os casos positivos reais dentro de um conjunto.
Redes Neurais: Modelos computacionais inspirados no cérebro humano, usados para reconhecer padrões complexos em imagens, voz e textos.
Root Mean Square Error (RMSE): Medida matemática comum usada para calcular a diferença entre os valores previstos por um modelo e os valores reais.
R-Quadrado (R²): Valor estatístico que indica o quanto um modelo consegue explicar a variação dos dados; quanto mais próximo de 1, melhor o ajuste.
Redução de Dimensionalidade: Processo de simplificar dados complexos, mantendo apenas as informações mais importantes para facilitar a análise.
RAG (Retrieval-Augmented Generation): Técnica que permite a uma IA consultar documentos externos e privados para fornecer respostas mais precisas e atualizadas.
Rede Neural Convolucional (CNN): Tipo especial de rede neural muito usada para "enxergar" e classificar o que há dentro de imagens e vídeos.
Rede Neural Recorrente (RNN): Tipo de rede neural projetada para processar sequências de dados, como textos, séries temporais ou áudios.
Regra de Associação: Técnica de mineração de dados usada para descobrir relações interessantes entre variáveis em grandes bancos de dados (como "quem compra pão, compra leite").
Regularização: Técnica matemática (como Lasso ou Ridge) usada para evitar que um modelo de IA fique "viciado" demais nos dados de treino.
Relatório de Classificação: Tabela que resume o desempenho de um modelo de IA, mostrando métricas como Precisão, Recall e F1-Score.
Resíduo: Diferença entre o valor real observado e o valor que o modelo previu; quanto menor o resíduo, mais preciso é o seu modelo.
Robustez: Capacidade de um algoritmo ou modelo de dados continuar funcionando corretamente mesmo quando recebe informações com erros ou ruídos.
Random Undersampling: Técnica que remove aleatoriamente exemplos da classe majoritária em um conjunto de dados para equilibrar as proporções.
Random Oversampling: Técnica que duplica aleatoriamente exemplos da classe minoritária para evitar que o modelo ignore grupos menores de dados.
Scikit-learn: Biblioteca em Python essencial para criar modelos de aprendizado de máquina, oferecendo ferramentas de classificação, regressão e agrupamento.
Spark: Mecanismo de processamento de dados em larga escala que permite analisar grandes volumes de informações com alta velocidade e paralelismo.
Análise descritiva: usada para entender o comportamento dos dados, descrevendo características importantes de um conjunto de dados através de técnicas estatisitcas como média, mediana, desvio padrão, frequência e distribuição de dados.
Análise preditiva: tipo de análise de dados que utiliza modelos estatísticos e de aprendizado de máquina para prever tendências, comportamentos, riscos e resultados futuros com base em dados históricos.
Análise prescritiva: tipo avançado de análise de dados que utiliza técnicas de modelagem e de aprendizado de máquina para identificar a melhor ação a ser tomada numa determinada situação, com base nos dados históricos e de tempo real. Seu uso nas empresas ajuda a otimizar processos, reduzir riscos, melhorar a eficiência e maximizar seus resultados.
Variância: Medida estatística que indica o quanto os dados de um conjunto estão afastados do seu valor médio esperado.
TensorFlow: Biblioteca de código aberto desenvolvida pelo Google para criar e treinar modelos complexos de aprendizado de máquina e redes neurais profundas.
Uplift Modeling: Técnica analítica usada para prever a mudança de comportamento de um indivíduo como resultado direto de uma ação ou tratamento específico.
Validation Set (Conjunto de Validação): Parte dos dados usada durante o treinamento de um modelo de IA para ajustar hiperparâmetros e evitar o sobreajuste (overfitting).
Vector Database: Tipo de banco de dados otimizado para armazenar e pesquisar vetores matemáticos, essencial para aplicações modernas de IA generativa.
Outliers (Valores Atípicos): são valores que se diferenciam significativamente do restante dos dados num conjunto. Eles podem ser causados por erros de medição, falhas no processo de coleta de dados ou simplesmente por serem resultados raros e/ou extremos. A identificação e tratamento de outliers é importante em análise de dados, pois podem afetar negativamente a qualidade dos modelos ou insights obtidos a partir dos dados. Podem ser identificados por meio de métodos estatísticos, como desvio padrão ou gráficos de boxplot a fim de serem removidos ou tratados de diferentes maneiras, dependendo do contexto e do objetivo da análise.
Unsupervised Learning: Técnica de aprendizado de máquina onde o modelo encontra padrões e estruturas em dados que não possuem rótulos prévios.
User Interface (UI): Conjunto de elementos visuais e interativos que permitem a comunicação entre o usuário e um sistema de dados ou software.
Correlation: Medida estatística que indica a força e a direção da relação entre duas variáveis diferentes dentro de um conjunto.
Data Lake: Repositório centralizado que permite armazenar vastas quantidades de dados estruturados e não estruturados em seu formato bruto.
Exploratory Data Analysis (EDA): Abordagem inicial de análise para resumir as características principais dos dados antes de aplicar modelos complexos.
Hyperparameter: Configuração externa ao modelo que o cientista de dados ajusta manualmente para otimizar o processo de aprendizado.
Outlier: Ponto de dado que se desvia drasticamente do restante do conjunto, podendo indicar erros ou eventos raros e importantes.
Standardization: Processo de transformar dados de diferentes escalas em um formato padrão para facilitar a comparação e o processamento.
ANOVA: Técnica estatística usada para comparar as médias de três ou mais grupos e identificar se há diferenças significativas entre eles.
AutoML: Ferramentas que automatizam as etapas repetitivas da criação de modelos de IA, desde o pré-processamento até a escolha do algoritmo.
Computer Vision: Área da IA que treina computadores para interpretar e compreender o mundo visual através de imagens e vídeos digitais.
Data Governance: Conjunto de processos e políticas que garante que os dados de uma empresa sejam seguros, privados e de alta qualidade.
Ensemble Learning: Técnica que combina as previsões de vários modelos de machine learning para obter um resultado final mais robusto e preciso.
Gradient Descent: Algoritmo de otimização usado para encontrar os melhores parâmetros de um modelo, minimizando o erro durante o treinamento.
Neural Networks: Modelos computacionais inspirados no sistema nervoso humano, capazes de aprender padrões complexos em grandes volumes de dados.
Sentiment Analysis: Uso de processamento de linguagem natural para identificar e extrair opiniões ou emoções em textos, como avaliações de clientes.
Synthetic Data: Dados gerados artificialmente por algoritmos que mantêm as propriedades estatísticas de dados reais sem expor informações sensíveis.
F1-Score: Métrica de desempenho que combina Precisão e Recall em um único valor para avaliar o equilíbrio de um modelo de IA.
Linear Regression: Modelo estatístico que analisa a relação entre uma variável dependente e uma ou mais variáveis independentes para prever valores.
Logistic Regression: Algoritmo de classificação usado para prever a probabilidade de um evento pertencer a uma de duas categorias possíveis.
MLOps (Machine Learning Operations): Prática que une o desenvolvimento de modelos de IA com a operação de TI para garantir ciclos de vida eficientes.
Reinforcement Learning: Tipo de aprendizado onde um agente toma decisões em um ambiente para maximizar uma recompensa ao longo do tempo.
Prompt Engineering: Técnica de criar e refinar comandos de texto para obter as melhores respostas de modelos de IA generativa.
Data Warehouse: Armazém digital centralizado que consolida dados de várias fontes para facilitar a análise e a geração de relatórios.
Data Mart: Subconjunto de um Data Warehouse focado em uma área específica da empresa, como Vendas ou Marketing.
NoSQL: Tipo de banco de dados não relacional que armazena informações em formatos flexíveis, ideal para grandes volumes e dados variados.
Scalability (Escalabilidade): Capacidade de um sistema de dados de crescer e lidar com um aumento na demanda sem perder o desempenho.
Shadow Data: Dados que são coletados e armazenados por uma organização, mas que não são utilizados ou monitorados ativamente.
Web Scraping: Técnica automatizada usada para extrair grandes quantidades de informações e dados diretamente de sites e páginas da internet.