EXPLORE MEUS CÓDIGOS DE CIÊNCIA DE DADOS NO GITHUB!
Tenho desenvolvido diversos projetos acadêmicos voltados para a área de Ciência de Dados e gostaria de compartilhar esse conhecimento com você.
Neste repositório, você encontrará códigos e notebooks relacionados à análise de dados, aprendizado de máquina e outras aplicações práticas que exploram conceitos fundamentais e avançados da Ciência de Dados.
Se tiver interesse em explorar os conteúdos, colaborar, sugerir melhorias ou simplesmente trocar ideias, fique à vontade para navegar, contribuir e interagir.
A troca de conhecimento é sempre bem-vinda!
👉 https://github.com/marcovsilva
Predição e Análise Geoespacial de Focos de Queimadas
Resumo: Pipeline end-to-end de Ciência de Dados, da extração de microdados do INPE à modelagem preditiva.
Detalhes: Integrei dados geoespaciais via API "Base dos Dados" para mapear e prever focos de incêndio no Brasil. Realizei limpeza massiva de dados, engenharia de features temporais/espaciais e treinei modelos (Random Forest/XGBoost), gerando artefatos reproduzíveis para monitoramento ambiental.
Tech: Python, XGBoost, Base dos Dados (SQL), Análise Geoespacial, Scikit-learn.
Classificação de Sinais de Trânsito com CNNs e Transfer Learning (GTSDB)
Resumo: Pipeline robusto de Deep Learning para classificação de imagens em cenário de alto desbalanceamento.
Detalhes: Avaliei e implementei arquiteturas modernas (MobileNetV2, ResNet50, GoogLeNet) para classificar sinais de trânsito. O diferencial foi o uso de estratégias de Data Augmentation e WeightedRandomSampler para corrigir o desbalanceamento severo das classes, garantindo que o modelo aprendesse a identificar sinais raros com alto F1-Score.
Tech: PyTorch, CNNs, Transfer Learning, Pandas, Scikit-learn.
Detecção de Objetos: Sinais de Trânsito (Pipeline Clássico)
Resumo: Construção de um sistema de detecção de objetos "do zero" focado nos fundamentos matemáticos da Visão Computacional.
Detalhes: Implementei um detector utilizando janelas deslizantes (Sliding Windows) e pirâmides de imagem para localizar sinais em fotos de estradas. Combinei descritores HOG com um classificador SVM e apliquei técnicas de refinamento como Hard Negative Mining (para reduzir falsos positivos) e Non-Maximum Suppression (NMS).
Tech: Python, OpenCV, Scikit-image, SVM, HOG Features.
Reconhecimento de Sinais de Trânsito (HOG + SVM)
Resumo: Classificação eficiente de imagens para sistemas autônomos utilizando extração de características manuais.
Detalhes: Desenvolvi um sistema para reconhecer 43 categorias de sinais de trânsito alemães (GTSRB). Ao utilizar descritores de gradientes orientados (HOG) alimentando um SVM Linear, o projeto atingiu ~97% de acurácia com baixo custo computacional, ideal para sistemas embarcados.
Tech: Python, Scikit-learn, Scikit-image, NumPy.
Estabilidade e Risco de Crédito (Home Credit)
Resumo: Modelo de Credit Scoring focado em identificação de inadimplência em base desbalanceada.
Detalhes: Simulação de cenário bancário real utilizando dados da competição Home Credit. Treinei um classificador Random Forest (Acurácia 97%, AUC 0.99) e realizei uma análise crítica sobre o trade-off entre precisão e recall, propondo estratégias de negócio para mitigar o risco financeiro dos falsos negativos.
Tech: Python, Random Forest, Análise de Risco, Matriz de Confusão.
Classificação de Inadimplência: Redes Neurais (Keras) vs. MLP
Resumo: Estudo comparativo de arquiteturas neurais para detecção de risco de crédito.
Detalhes: Desenvolvi e comparei o desempenho de Redes Neurais Artificiais (via Keras/TensorFlow) contra Perceptrons Multicamadas (Scikit-learn). O estudo focou na otimização de hiperparâmetros (Dropout, Batch Size, Learning Rate) para maximizar a métrica AUC-ROC, priorizando a detecção de clientes inadimplentes.
Tech: TensorFlow, Keras, Scikit-learn, Redes Neurais.
Forecasting de Vendas de Café (Prophet vs. ARIMA)
Resumo: Previsão de demanda para gestão de estoque utilizando modelos estatísticos modernos.
Detalhes: Analisei padrões de consumo e sazonalidade semanal em máquinas de vendas. Comparei a eficácia do modelo clássico ARIMA contra o algoritmo Facebook Prophet, entregando métricas comparativas (RMSE/MAE) para apoiar decisões estratégicas de reposição de produtos.
Tech: Python, Facebook Prophet, Statsmodels, ARIMA.
Análise de Temperaturas em Melbourne: Holt-Winters vs. ARIMA
Resumo: Modelagem climática para identificação de padrões sazonais complexos.
Detalhes: Apliquei testes de estacionariedade e decomposição de séries temporais em dados históricos (1981-1990). Demonstrei que o modelo de Suavização Exponencial (Holt-Winters) superou o ARIMA ao capturar explicitamente a componente sazonal dos dados climáticos.
Tech: Python, Time Series Analysis, Statsmodels.
Regressão Multivariada: Predição de Peso (Lasso Regression)
Resumo: Otimização de modelos preditivos com seleção automática de features.
Detalhes: Implementei um pipeline de regressão para predição de características físicas com Validação Cruzada (K-Fold). O destaque foi o uso da regularização Lasso para eliminar variáveis irrelevantes (feature selection) e evitar overfitting, superando modelos de Ridge e Random Forest em consistência.
Tech: Python, Lasso/Ridge Regression, Cross-Validation.
Regressão Linear Simples: Salário vs. Experiência
Resumo: Estudo estatístico fundamental sobre correlação e predição salarial.
Detalhes: Análise de correlação linear para prever salários com base em anos de experiência. Além do ajuste do modelo, realizei uma análise segmentada por gênero para investigar diferenças estruturais nos coeficientes e interceptos, validando com métricas de erro (EQM/MAPE).
Tech: Python, Scikit-learn, Estatística Descritiva.
Clusterização de Transações de Vendas (Segmentação de Produtos)
Resumo: Aplicação de aprendizado não supervisionado para identificar padrões de compra e otimizar estoque.
Detalhes: Realizei um estudo comparativo de algoritmos de clusterização (K-Means, DBSCAN e Agglomerative Clustering) em dados de vendas semanais. O pipeline incluiu pré-processamento com normalização e redução de dimensionalidade via PCA (Análise de Componentes Principais). Utilizei métricas como Silhouette Score e Davies-Bouldin para validar que o método Agglomerative Clustering foi o mais eficaz na segmentação de produtos de alto volume vs. alta variabilidade.
Tech: Python, Scikit-learn, PCA, K-Means, Hierarchical Clustering.
Classificação de E-mails (Spam Detector) com Otimização de Hiperparâmetros
Resumo: Benchmark de modelos de classificação supervisionada para filtragem de segurança de e-mails.
Detalhes: Desenvolvi e comparei a performance de 6 algoritmos de Machine Learning (incluindo Naive Bayes, SVM e Random Forest) para classificar e-mails. O diferencial do projeto foi o pipeline rigoroso de avaliação: apliquei escalonamento de dados (StandardScaler/MinMaxScaler) e utilizei GridSearchCV para o ajuste fino (tuning) de hiperparâmetros, maximizando a acurácia e analisando a matriz de confusão para minimizar falsos positivos.
Tech: Python, Scikit-learn, GridSearchCV, Random Forest, SVM, NLP Context.
Case Study Bellabeat: Análise de Comportamento (Google Analytics)
Resumo: Análise estratégica de dados de wearables para direcionamento de marketing (Business Intelligence).
Detalhes: Utilizando a linguagem R, processei dados de saúde (FitBit) para identificar correlações entre sono e sedentarismo. Apliquei clusterização (K-means) para segmentar perfis de usuários, fornecendo recomendações de negócio baseadas em dados para a equipe executiva da Bellabeat.
Tech: R Language, Tidyverse, ggplot2, K-means Clustering.
Previsão de Desastres Naturais
Resumo: Protótipo de sistema de alerta antecipado baseado em dados climáticos.
Detalhes: Projeto acadêmico focado na classificação de probabilidade de desastres (deslizamentos/inundações). O pipeline incluiu a padronização de variáveis ambientais (StandardScaler) e a implementação de Regressão Logística Multinomial para auxiliar autoridades na tomada de decisão preventiva.
Tech: Python, Scikit-learn, Regressão Logística, Análise Multivariada.
Análise Exploratória de Dados (EDA): Previsão de Preços de Carros
Resumo: Higienização de dados brutos e análise estatística descritiva para inteligência de mercado automotivo.
Detalhes: Foco na engenharia de dados e preparação. Implementei rotinas de limpeza (Data Cleaning) para converter dados não estruturados de preços e tratar inconsistências. Realizei análise estatística completa e visualização de distribuição (histogramas) para identificar padrões de precificação e anomalias, preparando a base para modelagem preditiva.
Tech: Python, Pandas, NumPy, Matplotlib, Seaborn.