Portfólio Marcos - Projetos GitHub

Página de projetos em código Python e R de diversos projetos

EXPLORE MEUS CÓDIGOS DE CIÊNCIA DE DADOS NO GITHUB!

Tenho desenvolvido diversos projetos acadêmicos voltados para a área de Ciência de Dados e gostaria de compartilhar esse conhecimento com você.

Neste repositório, você encontrará códigos e notebooks relacionados à análise de dados, aprendizado de máquina e outras aplicações práticas que exploram conceitos fundamentais e avançados da Ciência de Dados.

Se tiver interesse em explorar os conteúdos, colaborar, sugerir melhorias ou simplesmente trocar ideias, fique à vontade para navegar, contribuir e interagir.
A troca de conhecimento é sempre bem-vinda!

👉 https://github.com/marcovsilva

Predição e Análise Geoespacial de Focos de Queimadas

Resumo: Pipeline end-to-end de Ciência de Dados, da extração de microdados do INPE à modelagem preditiva.

Detalhes: Integrei dados geoespaciais via API "Base dos Dados" para mapear e prever focos de incêndio no Brasil. Realizei limpeza massiva de dados, engenharia de features temporais/espaciais e treinei modelos (Random Forest/XGBoost), gerando artefatos reproduzíveis para monitoramento ambiental.

Tech: Python, XGBoost, Base dos Dados (SQL), Análise Geoespacial, Scikit-learn.

GitHub - marcovsilva/projeto_predi-o_analise_focos_queimadas: Este projeto usa dados do INPE para analisar e prever focos de queimadas no Brasil, aplicando um pipeline completo de ciência de dados, da limpeza dos dados à modelagem preditiva.Este projeto usa dados do INPE para analisar e prever focos de queimadas no Brasil, aplicando um pipeline completo de ciência de dados, da limpeza dos dados à modelagem preditiva. - marcovsilva/pro...

Classificação de Sinais de Trânsito com CNNs e Transfer Learning (GTSDB)

Resumo: Pipeline robusto de Deep Learning para classificação de imagens em cenário de alto desbalanceamento.

Detalhes: Avaliei e implementei arquiteturas modernas (MobileNetV2, ResNet50, GoogLeNet) para classificar sinais de trânsito. O diferencial foi o uso de estratégias de Data Augmentation e WeightedRandomSampler para corrigir o desbalanceamento severo das classes, garantindo que o modelo aprendesse a identificar sinais raros com alto F1-Score.

Tech: PyTorch, CNNs, Transfer Learning, Pandas, Scikit-learn.

GitHub - marcovsilva/projeto-gtsdb-cnns: Este projeto aborda o desafio de classificar sinais de trânsito do benchmark GTSDB (German Traffic Sign Detection Benchmark) utilizando diferentes arquiteturas de redes neurais convolucionais (CNNs), técnicas de pré-processamento, aumento de dados, regularização e balanceamento de classes.Este projeto aborda o desafio de classificar sinais de trânsito do benchmark GTSDB (German Traffic Sign Detection Benchmark) utilizando diferentes arquiteturas de redes neurais convolucionais (CNNs...

Detecção de Objetos: Sinais de Trânsito (Pipeline Clássico)

Resumo: Construção de um sistema de detecção de objetos "do zero" focado nos fundamentos matemáticos da Visão Computacional.

Detalhes: Implementei um detector utilizando janelas deslizantes (Sliding Windows) e pirâmides de imagem para localizar sinais em fotos de estradas. Combinei descritores HOG com um classificador SVM e apliquei técnicas de refinamento como Hard Negative Mining (para reduzir falsos positivos) e Non-Maximum Suppression (NMS).

Tech: Python, OpenCV, Scikit-image, SVM, HOG Features.

GitHub - marcovsilva/Projeto-de-Visao-Computacional-Deteccao-de-Sinais-de-TransitoContribute to marcovsilva/Projeto-de-Visao-Computacional-Deteccao-de-Sinais-de-Transito development by creating an account on GitHub.

Reconhecimento de Sinais de Trânsito (HOG + SVM)

Resumo: Classificação eficiente de imagens para sistemas autônomos utilizando extração de características manuais.

Detalhes: Desenvolvi um sistema para reconhecer 43 categorias de sinais de trânsito alemães (GTSRB). Ao utilizar descritores de gradientes orientados (HOG) alimentando um SVM Linear, o projeto atingiu ~97% de acurácia com baixo custo computacional, ideal para sistemas embarcados.

Tech: Python, Scikit-learn, Scikit-image, NumPy.

GitHub - marcovsilva/Classificacao-de-Sinais-de-Transito-com-HOG-SVM-Contribute to marcovsilva/Classificacao-de-Sinais-de-Transito-com-HOG-SVM- development by creating an account on GitHub.

Estabilidade e Risco de Crédito (Home Credit)

Resumo: Modelo de Credit Scoring focado em identificação de inadimplência em base desbalanceada.

Detalhes: Simulação de cenário bancário real utilizando dados da competição Home Credit. Treinei um classificador Random Forest (Acurácia 97%, AUC 0.99) e realizei uma análise crítica sobre o trade-off entre precisão e recall, propondo estratégias de negócio para mitigar o risco financeiro dos falsos negativos.

Tech: Python, Random Forest, Análise de Risco, Matriz de Confusão.

GitHub - vinispeed/Projeto-Estabilidade-de-Cr-dito: Este projeto foi desenvolvido para um teste de uma vaga de emprego simulando uma instituição financeira com o objetivo de aprimorar o processo de avaliação de risco de crédito.Este projeto foi desenvolvido para um teste de uma vaga de emprego simulando uma instituição financeira com o objetivo de aprimorar o processo de avaliação de risco de crédito. - vinispeed/Projeto-...

Classificação de Inadimplência: Redes Neurais (Keras) vs. MLP

Resumo: Estudo comparativo de arquiteturas neurais para detecção de risco de crédito.

Detalhes: Desenvolvi e comparei o desempenho de Redes Neurais Artificiais (via Keras/TensorFlow) contra Perceptrons Multicamadas (Scikit-learn). O estudo focou na otimização de hiperparâmetros (Dropout, Batch Size, Learning Rate) para maximizar a métrica AUC-ROC, priorizando a detecção de clientes inadimplentes.

Tech: TensorFlow, Keras, Scikit-learn, Redes Neurais.

GitHub - vinispeed/Projeto-de-Redes-Neurais-Artificiais---Previsao-de-inadiplencia-de-Cart-o-de-Credito: Este projeto tem como objetivo desenvolver, comparar e analisar modelos de machine learning para prever a inadimplência de clientes, utilizando redes neurais (Keras) e MLP do Scikit-learn.Este projeto tem como objetivo desenvolver, comparar e analisar modelos de machine learning para prever a inadimplência de clientes, utilizando redes neurais (Keras) e MLP do Scikit-learn. - vinisp...

Forecasting de Vendas de Café (Prophet vs. ARIMA)

Resumo: Previsão de demanda para gestão de estoque utilizando modelos estatísticos modernos.

Detalhes: Analisei padrões de consumo e sazonalidade semanal em máquinas de vendas. Comparei a eficácia do modelo clássico ARIMA contra o algoritmo Facebook Prophet, entregando métricas comparativas (RMSE/MAE) para apoiar decisões estratégicas de reposição de produtos.

Tech: Python, Facebook Prophet, Statsmodels, ARIMA.

GitHub - vinispeed/Projeto-Serie-Temporal-Coffee-Sales: Este projeto realiza uma análise completa da série temporal das vendas diárias de café em uma máquina de venda automática. O objetivo é identificar padrões de consumo, tendências, sazonalidades e avaliar modelos de previsão para auxiliar na tomada de decisões estratégicas, como reposição de estoque e promoções.Este projeto realiza uma análise completa da série temporal das vendas diárias de café em uma máquina de venda automática. O objetivo é identificar padrões de consumo, tendências, sazonalidades e a...

Análise de Temperaturas em Melbourne: Holt-Winters vs. ARIMA

Resumo: Modelagem climática para identificação de padrões sazonais complexos.

Detalhes: Apliquei testes de estacionariedade e decomposição de séries temporais em dados históricos (1981-1990). Demonstrei que o modelo de Suavização Exponencial (Holt-Winters) superou o ARIMA ao capturar explicitamente a componente sazonal dos dados climáticos.

Tech: Python, Time Series Analysis, Statsmodels.

GitHub - vinispeed/analise-serie-temporal: Este projeto realiza uma análise completa da série temporal das temperaturas mínimas diárias em Melbourne, Austrália, utilizando técnicas de decomposição, transformação, modelagem e avaliação de previsões. O objetivo é comparar diferentes abordagens e identificar o modelo mais adequado para previsão deste tipo de dado.Este projeto realiza uma análise completa da série temporal das temperaturas mínimas diárias em Melbourne, Austrália, utilizando técnicas de decomposição, transformação, modelagem e avaliação de pr...

Regressão Multivariada: Predição de Peso (Lasso Regression)

Resumo: Otimização de modelos preditivos com seleção automática de features.

Detalhes: Implementei um pipeline de regressão para predição de características físicas com Validação Cruzada (K-Fold). O destaque foi o uso da regularização Lasso para eliminar variáveis irrelevantes (feature selection) e evitar overfitting, superando modelos de Ridge e Random Forest em consistência.

Tech: Python, Lasso/Ridge Regression, Cross-Validation.

GitHub - vinispeed/Regress-o-Multivariada: Este projeto utiliza técnicas de regressão multivariada para prever o peso de indivíduos com base em diversas variáveis explicativas. O modelo principal utilizado é o **Lasso Regression**, com validação cruzada (k-fold) para avaliar o desempenho.Este projeto utiliza técnicas de regressão multivariada para prever o peso de indivíduos com base em diversas variáveis explicativas. O modelo principal utilizado é o **Lasso Regression**, com vali...

Regressão Linear Simples: Salário vs. Experiência

Resumo: Estudo estatístico fundamental sobre correlação e predição salarial.

Detalhes: Análise de correlação linear para prever salários com base em anos de experiência. Além do ajuste do modelo, realizei uma análise segmentada por gênero para investigar diferenças estruturais nos coeficientes e interceptos, validando com métricas de erro (EQM/MAPE).

Tech: Python, Scikit-learn, Estatística Descritiva.

GitHub - vinispeed/Trabalho-de-Regress-o-linear-simplesContribute to vinispeed/Trabalho-de-Regress-o-linear-simples development by creating an account on GitHub.

Clusterização de Transações de Vendas (Segmentação de Produtos)

Resumo: Aplicação de aprendizado não supervisionado para identificar padrões de compra e otimizar estoque.

Detalhes: Realizei um estudo comparativo de algoritmos de clusterização (K-Means, DBSCAN e Agglomerative Clustering) em dados de vendas semanais. O pipeline incluiu pré-processamento com normalização e redução de dimensionalidade via PCA (Análise de Componentes Principais). Utilizei métricas como Silhouette Score e Davies-Bouldin para validar que o método Agglomerative Clustering foi o mais eficaz na segmentação de produtos de alto volume vs. alta variabilidade.

Tech: Python, Scikit-learn, PCA, K-Means, Hierarchical Clustering.

GitHub - vinispeed/Projeto_clustering_SalesTransactionsWeekly: Identificar padrões ou agrupamentos (clusters) nos dados de transações semanais de vendas usando diferentes algoritmos de clusterização. O foco será no agrupamento de produtos para gerar insights sobre padrões de compra e otimizar estratégias de vendas.Identificar padrões ou agrupamentos (clusters) nos dados de transações semanais de vendas usando diferentes algoritmos de clusterização. O foco será no agrupamento de produtos para gerar insights s...

Classificação de E-mails (Spam Detector) com Otimização de Hiperparâmetros

Resumo: Benchmark de modelos de classificação supervisionada para filtragem de segurança de e-mails.

Detalhes: Desenvolvi e comparei a performance de 6 algoritmos de Machine Learning (incluindo Naive Bayes, SVM e Random Forest) para classificar e-mails. O diferencial do projeto foi o pipeline rigoroso de avaliação: apliquei escalonamento de dados (StandardScaler/MinMaxScaler) e utilizei GridSearchCV para o ajuste fino (tuning) de hiperparâmetros, maximizando a acurácia e analisando a matriz de confusão para minimizar falsos positivos.

Tech: Python, Scikit-learn, GridSearchCV, Random Forest, SVM, NLP Context.

GitHub - vinispeed/Projeto-Classifica-o-de-Emails-Spam: Este projeto tem como objetivo principal desenvolver e comparar modelos de aprendizado de máquina para a classificação de e-mails como spam ou não spam. O conjunto de dados utilizado, obtido do Kaggle, contém informações sobre as 3000 palavras mais frequentes em um conjunto de e-mails.Este projeto tem como objetivo principal desenvolver e comparar modelos de aprendizado de máquina para a classificação de e-mails como spam ou não spam. O conjunto de dados utilizado, obtido do Kag...

Case Study Bellabeat: Análise de Comportamento (Google Analytics)

Resumo: Análise estratégica de dados de wearables para direcionamento de marketing (Business Intelligence).

Detalhes: Utilizando a linguagem R, processei dados de saúde (FitBit) para identificar correlações entre sono e sedentarismo. Apliquei clusterização (K-means) para segmentar perfis de usuários, fornecendo recomendações de negócio baseadas em dados para a equipe executiva da Bellabeat.

Tech: R Language, Tidyverse, ggplot2, K-means Clustering.

Projeto-final-de-analise-de-dados-do-google/Projeto Final de analise de dados do google.Rmd at 9548696091696ca3a35a6cd4d42f23d9d1f9c6d0 · vinispeed/Projeto-final-de-analise-de-dados-do-googleO problema que estamos tentando resolver é entender como os consumidores utilizam dispositivos inteligentes que não são da Bellabeat, para aplicar esses insights na melhoria de um produto específic...

Previsão de Desastres Naturais

Resumo: Protótipo de sistema de alerta antecipado baseado em dados climáticos.

Detalhes: Projeto acadêmico focado na classificação de probabilidade de desastres (deslizamentos/inundações). O pipeline incluiu a padronização de variáveis ambientais (StandardScaler) e a implementação de Regressão Logística Multinomial para auxiliar autoridades na tomada de decisão preventiva.

Tech: Python, Scikit-learn, Regressão Logística, Análise Multivariada.

ProjetoPrevencao/PrevencaoDesastres.py at 62c43b058686486c9c44d3aec3b0dea2aa9ca364 · vinispeed/ProjetoPrevencaoEsse e um código base de aprendizado de maquina para tentar prever desastres naturais ( Ainda tem que melhorar ) - vinispeed/ProjetoPrevencao

Análise Exploratória de Dados (EDA): Previsão de Preços de Carros

Resumo: Higienização de dados brutos e análise estatística descritiva para inteligência de mercado automotivo.

Detalhes: Foco na engenharia de dados e preparação. Implementei rotinas de limpeza (Data Cleaning) para converter dados não estruturados de preços e tratar inconsistências. Realizei análise estatística completa e visualização de distribuição (histogramas) para identificar padrões de precificação e anomalias, preparando a base para modelagem preditiva.

Tech: Python, Pandas, NumPy, Matplotlib, Seaborn.

LH_CD_MARCOS_VINICIUS_DA_SILVA/Desafio de Ciencia de dados - Relatórios das análises estatísticas Desafio de Ciencia de dados + codigos.ipynb at c0a281fa88c53cef7f36f3970dfedb2663eb5b40 · vinispeed/LH_CD_MARCOS_VINICIUS_DA_SILVAENTREGA DE PROJETO. Contribute to vinispeed/LH_CD_MARCOS_VINICIUS_DA_SILVA development by creating an account on GitHub.

MAIS INFORMAÇÕES EM

Meu Linkedin

Page updated

Google Sites

Report abuse