EMPRESA 1: MURABEI - Data Science.
ATIVIDADE 1
Definição do problema: construção de um modelo preditivo para análise de previsão do preço do minério de ferro para a empresa ArcelorMittal.
Resultados\Contribuições: o modelo desenvolvido ajudou a empresa a tomar as medidas cabíveis com mais eficiência, por meio da análise futura do preço do minério de ferro com janela de até 12 meses, a partir de dados futuros de preços numéricos, bem como análise de textos futuros que são gerados a partir dos históricos dos preços e dos textos passados. Assim, os gestores poderão se organizar melhor para a tomada de decisão.
Tipos de dados\documentos e ações: séries temporais de diversos seguimentos, bem como séries de textos de notícias.
Técnicas e abordagens utilizadas: Modelos Dinâmicos Lineares - DLM, Ensemble, Análise de sentimento, LLM, Análise de multicolinearidade.
Ferramentas/Pacotes/Bibliotecas computacionais: statsmodels, sciki-learn,
ATIVIDADE 2
Definição do problema: construção de um modelo para análise de previsão de sobrevivência de filtros para a empresa Alcoa.
Tipos de dados\documentos e ações: séries de dados relacionadas aos ciclos de processos, pressão, nível da bacia, carga de sólidos. nível da perna barométrica e etc.
Técnicas e abordagens utilizadas: Modelo Risco Proporcional de Cox, Modelo Weibull, Modelo Exponencial, Modelo Log-Normal, Modelo de Tempo de Vida Acelerado - AFT, Modelos Vetoriais Autorregressivos, Markov Chain Monte Carlo - MCMC.
Ferramentas/Pacotes/Bibliotecas computacionais: statsmodels, lifelines.
ATIVIDADE 3
Definição do problema: construção de um modelo Dinâmico Bayesiano Autoregressivo - TVP-BVAR.
Tipos de dados\documentos e ações: séries temporais de diversos setores macroeconômicos.
Técnicas e abordagens utilizadas: AR, VAR, BVAR.
Ferramentas/Pacotes/Bibliotecas computacionais:
EMPRESA 2: Freire Gerbasi & Bittencourt Advogados - FGB.
ATIVIDADE 1
Definição do problema: construção de um modelo de Inteligência Artificial para realizar cruzamento de informações e análise de fraude\inconsistências de forma automatizada, através de documentos textuais e com imagens, incluindo verificação de duplicidade.
Tipos de dados\documentos e ações: extração de textos em PDFs e imagens, bem como QR CODE, Código de barras, assinaturas, links, logotipo e outras informações em documentos, como: Comprovantes de Residência, Documentos de Identificação, Petições, Procurações, Declarações, etc.
Técnicas e abordagens utilizadas: Processamento de Linguagem Natural (PLN), Modelos de Classificação e agrupamento de textos, Análise de similaridade, prompts para a API do ChatGPT e do Gemini, Reconhecimento Óptico de Caracteres (OCR), Reconhecimento de Entidades Nomeadas (NER), envio em lotes.
Ferramentas/Pacotes/Bibliotecas computacionais: Família BERT; faiss; datetime; pytesseract; easyocr; torch; torchvision; pdf2image; fitz (PyMuPDF); PyPDF2; pdfminer; pdfplumber; unicodedata; difflib; pyzxing; pyzbar; spacy; language_tool_python; itertools; PIL; cv2; io; os; re; hashlib; tqdm; collections; pathlib; transformers; sentence_transformers; skimage; numpy; pandas; nltk; sklearn.feature_extraction.text: CountVectorizer; sklearn.metrics.pairwise: cosine_similarity; nltk.corpus: stopwords; nltk.tokenize: word_tokenize; wordcloud; google.generativeai;.
ATIVIDADE 2
Definição do problema: construção de um modelo de Inteligência Artificial para classificar diferentes tipos (86) de documentos jurídicos.
Tipos de dados\documentos e ações: publicações jurídicas no formato de texto.
Técnicas e abordagens utilizadas: Processamento de Linguagem Natural (PLN), Modelos de Classificação e agrupamento de textos, Redes Neurais, Balanceamento de classes.
Ferramentas/Pacotes/Bibliotecas computacionais: psycopg2; datetime; torch; torchvision; unicodedata; pathlib; matplotlib.pyplot; seaborn; transformers; numpy; pandas; nltk; sklearn.feature_extraction.text: CountVectorizer; sklearn.metrics.pairwise: cosine_similarity; sklearn.model_selection: train_test_split, cross_val_score, GridSearchCV; imblearn.over_sampling: SMOTE; nltk.corpus: stopwords; nltk.tokenize: sklearn.base: BaseEstimator, ClassifierMixin; sklearn.preprocessing: LabelEncoder, StandardScaler; sklearn.metrics: roc_auc_score; accuracy_score, precision_score, recall_score, roc_curve, classification_report, silhouette_score; sklearn.cluster: KMeans; sklearn.decomposition: PCA; sklearn.manifold: TSNE; tensorflow.keras.callbacks: EarlyStopping; tensorflow.keras.models: Sequential; tensorflow.keras.layers: Dense, LSTM, Dropout, SpatialDropout1D; tensorflow.keras.utils: to_categorical; tensorflow.keras.optimizers: Adam.
ATIVIDADE 3
Definição do problema: construção de um modelo de Inteligência Artificial para classificar diferentes tipos de comprovantes de residência.
Tipos de dados\documentos e ações: imagens de comprovantes de residência de empresas como Coelba, Embasa, Anel, Caixa Econômica, Shopee, Vivo, Claro, TIM e etc.
Técnicas e abordagens utilizadas: Redes Neurais, Balanceamento de classes, augmentation.
Ferramentas/Pacotes/Bibliotecas computacionais: os; io; time; torch; Random; numpy; pandas; pickle; urllib.request; torchvision; torch.nn; torch.nn.functional; torchvision.models; torchvision.transforms; matplotlib.pyplot; PIL: Image; pathlib: Path; collections: Counter; torch.utils.data: random_split; torch.utils.data.dataloader: DataLoader; torchvision.utils: make_grid; torchvision.datasets: ImageFolder; torchvision.models: resnet18, ResNet18_Weights, resnet152, ResNet152_Weights; warnings.
ATIVIDADE 4
Definição do problema: desenvolver um modelo de Inteligência Artificial para gerar relatórios a partir de processos com grande volume de dados.
Tipos de dados\documentos e ações: resumir o volume de um grande conjunto de dados de processos jurídicos, a partir de documentos no formato PDF.
Técnicas e abordagens utilizadas: Processamento de Linguagem Natural (PLN), prompts para a API do ChatGPT e do Gemini, Reconhecimento Óptico de Caracteres (OCR), envios em lotes.
Ferramentas/Pacotes/Bibliotecas computacionais: datetime; pytesseract; fitz (PyMuPDF); unicodedata; PIL; cv2; io; os; re; tqdm; pandas; google.generativeai; openai.
ATIVIDADE 5
Definição do problema: desenvolver um modelo de Inteligência Artificial para automatizar a extração e preenchimento de campos (96 em uma plataforma) com informações de diferentes processos jurídicos.
Tipos de dados\documentos e ações: extrair informações de um grande conjunto de dados de processos jurídicos.
Técnicas e abordagens utilizadas: Processamento de Linguagem Natural (PLN), prompts para a API do ChatGPT e do Gemini, envio em lotes.
Ferramentas/Pacotes/Bibliotecas computacionais: datetime; unicodedata; os; re; tqdm; pandas; google.generativeai; openai.
ATIVIDADE 6
Definição do problema: desenvolver um modelo de Inteligência Artificial para criação de diferentes tipos de minutas jurídicas, como Petição Inicial, Procuração, Contestação, Contratos, Termos e etc.
Tipos de dados\documentos e ações: informações de dados iniciais, como Nome Completo (Advogado e/ou Cliente), CPF, Número de Protocolo ou Processo, Serviço, Prazo, Valor, Autor, Réu e etc.
Técnicas e abordagens utilizadas: Processamento de Linguagem Natural (PLN), prompts para a API do ChatGPT e do Gemini.
Ferramentas/Pacotes/Bibliotecas computacionais: datetime; unicodedata; os; re; tqdm; google.generativeai; openai.
ATIVIDADE 7
Definição do problema: desenvolver um modelo para transformar qualquer tipo de documento jurídico com diferentes formatos (extensões) para o formato PDF.
Tipos de dados\documentos e ações: documentos com diferentes tipos de extensões como .html, .docx, .txt, .odt, .xml, .rtf, .rar, .md, .csv, .json e etc.
Técnicas e abordagens utilizadas: a função recebe os documentos e converte para o formato PDF.
Ferramentas/Pacotes/Bibliotecas computacionais: os; pypandoc; rarfile; tempfile; shutil, tqdm, pathlib, pandas; logging.
ATIVIDADE 8
Definição do problema: desenvolver um modelo de Inteligência Artificial para automatizar a interpretação, extração e preenchimento de campos (4 campos em uma plataforma) com informações de alguns atributos de diferentes processos jurídicos.
Tipos de dados\documentos e ações: extrair informações interpretativas de um grande conjunto de dados de processos jurídicos.
Técnicas e abordagens utilizadas: Processamento de Linguagem Natural (PLN), prompts para a API do ChatGPT e do Gemini, envios em lotes.
Ferramentas/Pacotes/Bibliotecas computacionais: datetime; unicodedata; os; re; tqdm; pandas; google.generativeai; openai.
ATIVIDADE 9
Definição do problema: ajudar a desenvolver um modelo de Inteligência Artificial para extrair informações de audiências jurídicas, por meio de vídeos e áudios.
Tipos de dados\documentos e ações: realizar a transcrição, diarização e interpretação de vídeos e áudios de audiências jurídicas.
Técnicas e abordagens utilizadas: Processamento de Linguagem Natural (PLN), descrição, diarização, prompts para a API do ChatGPT e do Gemini, envios em lotes.
Ferramentas/Pacotes/Bibliotecas computacionais: datetime; pathlib; unicodedata; os; re; tqdm; pandas; google.generativeai; openai; moviepy.editor: VideoFileClip; whisper; torch; pyannote.audio: Pipeline.
EMPRESA 3: Oxaala Tecnologias LTDA.
Atividade Geral: desenvolvimento de algoritmos computacionais para processamento e análise de dados.
ATIVIDADE 1
Definição do problema: desenvolver um Software Livre de Inteligência Artificial e Implementação de Algoritmos para criação de Biblioteca de Apoio à Interpretação Sísmica 2D e 3D.
Resultados\Contribuições: (a) Otimização do tempo de análise de falhas e outros atributos em mais de 50%; (b) Redução do ruído nos dados.
Tipos de dados e ações: extrair, de forma automatizada, informações de mapas sísmicos 2D e 3D, bem como de séries de dados espaciais de perfis de poços, além da construção da interface gráfica.
Técnicas e abordagens utilizadas: Modelagem estatística e matemática, aprendizado supervisionado, programação orientada à objetos.
Ferramentas/Pacotes/Bibliotecas computacionais: PyQt5, sys; glob; segyio; paths; sgyLoad; lasio; sqlite3 matplotlib.pyplot; seaborn; transformers; numpy; pandas; sklearn.model_selection: train_test_split, cross_val_score, GridSearchCV; imblearn.over_sampling: SMOTE; sklearn.base: BaseEstimator, ClassifierMixin; sklearn.preprocessing: LabelEncoder, StandardScaler; sklearn.metrics: roc_auc_score; accuracy_score, precision_score, recall_score, roc_curve, classification_report, silhouette_score; tensorflow; keras; tensorflow.keras.callbacks: EarlyStopping; tensorflow.keras.models: Sequential; tensorflow.keras.layers: Dense, LSTM, Dropout, SpatialDropout1D; tensorflow.keras.utils: to_categorical; tensorflow.keras.optimizers: Adam.
Matemática/Estatística: Regressão polinomial.
ATIVIDADE 2
Definição do problema: Desenvolvimento de um algoritmo com Inteligência Artificial para filtragem e detecção de correlação, de forma automatizada, em dados de recursos hídricos da Companhia Baiana de Pesquisa Mineral (CBRM), com o intuito de estudar e avaliar o monitoramento de águas subterrâneas em aquíferos brasileiros.
Resultados\Contribuições: (a) Identificação de uma bomba com defeito; (b) Periodicidades e tendências no aumento e diminuição do volume do aquífero; (c) Novo modelo customizado de Machine Learning.
Tipos de dados e ações: Extrair informações em séries de dados temporais climatológicos (pressão, temperatura, umidade, chuva, rio) e de séries de dados espaciais de poços (volume). As variáveis estatísticas analisadas foram cedidas pela Companhia Baiana de Pesquisa Mineral - CBPM. As condições do conjunto de dados foram: Rede de 8 poços para monitoramento, 6 estações pluviométricas, 11 estações de fluxo fluvial, 3 estações meteorológicas com sensores de pressão atmosférica, temperatura e umidade.
Técnicas e abordagens utilizadas: Modelagem estatística e matemática, família SARIMAX, aprendizado supervisionado, programação orientada à objetos.
Ferramentas/Pacotes/Bibliotecas computacionais: matplotlib.pyplot; seaborn; transformers; numpy; pandas; statsModels; PyTorch; sklearn.model_selection: train_test_split, cross_val_score, GridSearchCV; imblearn.over_sampling: SMOTE; sklearn.base: BaseEstimator, ClassifierMixin; sklearn.preprocessing: LabelEncoder, StandardScaler; sklearn.metrics: roc_auc_score; accuracy_score, precision_score, recall_score, roc_curve, classification_report, silhouette_score; tensorflow.keras.callbacks: EarlyStopping; tensorflow.keras.models: Sequential; tensorflow.keras.layers: Dense, LSTM, Dropout, SpatialDropout1D; tensorflow.keras.utils: to_categorical; tensorflow.keras.optimizers: Adam.
Matemática/Estatística: Coeficientes de correlação, Expoentes de correlação, Média móvel, Regressão polinomial, Transformadas Wavelet, Fractais, Análise espectral, Análise de correlação cruzada destendenciada, Análise de flutuação destendenciada.
ATIVIDADE 3
Definição do problema: Aprimoramento do modelo de algoritmo computacional Multi‑Fractal Detrended Cross ‑ Correlation Heatmaps (MF-DCCHM) for time series analysis, com a utilização de séries temporais do PIB, TAXA SELIC, CÂMBIO e dados do setor automotivo do Brasil.
Resultados\Contribuições: (a) Mapeamento temporal de altas e baixas dos indicadores; (b) Previsão dos indicadores; (c) Tomada de decisão mais eficaz.
Tipos de dados e ações: Foram utilizados séries de dados temporais PIB, TAXA SELIC, CÂMBIO e dados do setor automotivo do Brasil, como Venda e Estoque.
Técnicas e abordagens utilizadas: Modelagem estatística e matemática, família SARIMAX.
Ferramentas/Pacotes/Bibliotecas computacionais: pathlib; matplotlib.pyplot; seaborn; numpy; pandas, statsModels.
Matemática/Estatística: Média móvel, Coeficientes de correlação, Expoentes de correlação, Regressão polinomial, Fractais, Análise espectral, Análise de correlação cruzada destendenciada, Análise de flutuação destendenciada.
EMPRESA 4: Centro Universitário Famec - UniFamec.
ATIVIDADE 1
Definição do problema: determinar a eficiência e previsibilidade do tempo e número de paradas de máquinas industriais da empresa Badische Anilin- und Sodafabrik (Fábrica de Anilina e Soda de Baden ) - BASF, a partir da curva de taxa de falhas, considerando os indicadores de ativos produzidos.
Resultados\Contribuições: (a) Manutenção preventiva e preditiva mais eficazes; (b) Redução de custo; (c) Projeção futura para que os gestores possam se antecipar às situações e ter a melhor base para tomada de decisão possível.
Tipos de dados\documentos e ações: foram utilizadas séries temporais de uma empresa petroquímica de manufatura de polímero em processo contínuo, tais como: (a) Tempo de Produção – tempo em que os equipamentos estão disponíveis para produção e em operação; (b) Perdas Planejadas – tempo planejado para paradas e intervenções na fábrica, como por exemplo manutenções ou limpezas em equipamentos; (c) Perdas Imprevistas – tempo de produção perdido devido a fatores externos, sem possibilidade de gestão da fábrica, tais como falta de energia ou interrupção no suprimento de matérias primas; (d) Somatório Produtivo – referência de capacidade produtiva da fábrica, sendo o tempo total de operação e perdas, somados.
Técnicas e abordagens utilizadas: Modelagem estatística e matemática, família SARIMAX, Análise de Flutuação Destendenciada, Análise Destendenciada de Correlação Cruzada, Análise Espectral.
Ferramentas/Pacotes/Bibliotecas computacionais: Fortran, software Origin, Linux.
Matemática/Estatística: Média móvel, Coeficientes de correlação, Expoentes de correlação, Regressão polinomial, Fractais, Espectro de Potência e de Frequência.
ATIVIDADE 2
Definição do problema: mapear padrões históricos do setor automotivo do Brasil e prever a demanda e oferta de veículos.
Resultados\Contribuições: (a) Período em que deve-se evitar a subprodução e superprodução de produtos para que o estoque não fique tão cheio ou tão vazio; (b) Viabilidade da contratação/demissão de funcionários em meio a diferentes períodos (sazonais); (c) Planejamento do orçamento de produção e (d) Estratégia de marketing para atrair novos consumidores.
Tipos de dados\documentos e ações: foram utilizadas séries temporais de venda e estoque do setor automotivo do Brasil, extraídas do banco de dados da FENABRAVE.
Técnicas e abordagens utilizadas: Modelagem estatística e matemática, família SARIMAX, Análise de Flutuação Destendenciada, Análise Destendenciada de Correlação Cruzada, Análise Espectral.
Ferramentas/Pacotes/Bibliotecas computacionais: Fortran, software Origin, Linux.
Matemática/Estatística: Média móvel, Coeficientes de correlação, Expoentes de correlação, Regressão polinomial, Fractais, Espectro de Potência e de Frequência.
EMPRESA 5: Universidade Federal da Bahia - UFBA.
ATIVIDADE 1
Definição do problema: Criar um novo modelo estatístico para ser aplicado à qualquer série de dados de sinais (temporal, espacial e etc.). Estudar e mapear determinados tipos de rochas em subsuperfície, utilizando séries de dados espaciais. Estudar e mapear eventos climatológicos da cidade de Salvador, utilizando atributos de séries temporais.
Resultados\Contribuições: (a) Busca automatizada no que se refere às correlações, tendências, ciclicidade, padrões e etc; (b) Capacidade de mapear eventos cíclicos de forma mais robusta; (c) Identificação de eventos locais e globais com diferentes intensidades; (d) Capaz de encontrar periodicidades, tendências, atraso temporal/espacial, anomalias e etc; (e) Foi possível identificar semelhanças entre rochas que sofreram deslocamento vertical devido a algum evento geológico; (f) Identificou-se o tipo de rocha em subsuperfície; (g) Periodicidades e tendências entre os sinais das grandezas físicas; (h) Mapeamento de ciclicidade de eventos climáticos, bem como da ocorrência de manchas solares.
Tipos de dados\documentos e ações: foram utilizadas dezenas de tipos de séries de dados artificiais/sintéticas para o desenvolvimento e aprimoramento do modelo. Também foram utilizadas variáveis estatísticas cedidas pela Petrobrás, considerando uma rede de 4 poços para monitoramento, sendo três perfis para cada poço: sônico, resistividade e gama. Além disso, utilizou-se oito parâmetros climatológicos em um intervalo de 50 anos, que foram extraídos do Instituto Nacional de Meteorologia, tais como: Temperatura (máxima, mínima e média), Unidade, Precipitação, Pressão atmosférica, Insolação e Evaporação
Técnicas e abordagens utilizadas: Modelagem estatística e matemática família SARIMAX.
Ferramentas/Pacotes/Bibliotecas computacionais: Fortran, software Origin, Linux.
Matemática/Estatística: Média móvel, Coeficientes de correlação, Expoentes de correlação, Regressão polinomial, Fractais, Análise espectral, Análise de correlação cruzada destendenciada, Análise de flutuação destendenciada.
ATIVIDADE 2
Definição do problema: desenvolver um novo modelo matemático para estudar e mapear a dinâmica de infecção do vírus HIV por meio de um sistema de equações diferenciais parciais.
Resultados\Contribuições: foi possível simular a dinâmica de infecção do vírus HIV em função do tempo, corroborando com os resultados que constam na literatura.
Tipos de dados\documentos e ações: foram utilizados dados sintéticos\artificiais.
Técnicas e abordagens utilizadas: Modelagem matemática dinâmica.
Pacotes/Bibliotecas: Fortran, Linux, ORIGIN.
Matemática/Estatística: Equações Diferenciais Parciais.