Os projetos apresentados abaixo foram realizados nas (ou em parceria com) seguintes empresas:
Oxaala Tecnologias LTDA.
Universidade Federal da Bahia - UFBA
Badische Anilin- und Sodafabrik (Fábrica de Anilina e Soda de Baden ) - BASF
Companhia Baiana de Pesquisa Mineral - CBPM
Definição do problema: o objetivo foi estudar e avaliar o monitoramento de águas subterrâneas em aquíferos brasileiros, utilizando séries temporais. Maiores informações podem ser encontradas no Artigo publicado na Scientific Reports Nature.
Passos seguidos: definição do problema, preparar o ambiente de codificação, visão geral, carregar e compreender os dados, organizar os dados, análise exploratória e limpeza dos dados, criação do modelo de Machine Learning e Estatístico.
Tipo de aprendizado: Supervisionado.
Variáveis/Atributos: as variáveis estatísticas analisadas foram cedidas pela Companhia Baiana de Pesquisa Mineral - CBPM. As condições do conjunto de dados foram:
Rede de 8 poços para monitoramento.
6 estações pluviométricas.
11 estações de fluxo fluvial.
3 estações meteorológicas com sensores de pressão atmosférica, temperatura e umidade.
Tamanho dos dados: (1461, 36).
Ferramentas/Frameworks/Pacotes/Bibliotecas computacionais: software Origin, Numpy, Pandas, Matplotlib, StatsModels, PyTorch, arquitetura transformer.
Matemática/Estatística: Coeficientes de correlação, Expoentes de correlação, Regressão polinomial, Transformadas Wavelet, Fractais, Análise de correlação cruzada destendenciada, Análise de flutuação destendenciada.
Linguagens de programação: Python e Fortran.
Resultados: (a) Identificação de uma bomba com defeito; (b) Periodicidades e tendências no aumento e diminuição do volume do aquífero; (c) Novo modelo customizado de Machine Learning.
A seguir pode-se conferir alguns painéis que constam no artigo.
(a) Poço 1 e Poço 8, (b) Poço 1 e Poço 6, (c) Rio 1 e Rio 10, (d) Chuva 1 e Chuva 4, (e) Temperatura 1 e Umidade 1, (f) Temperatura 1 e Umidade 2.
(a) Poço 1 e Chuva 4, (b) Poço 1 e Rio 10, (c) Pressão 1 e Temperatura 1, (d) Poço 1 (filtro simples) e Rio 4 (filtro simples), (e) Poço 1 (filtro Wavelet 0,35) e Rio (filtro simples), (f) Poço (filtro Wavelet 0,70) e Rio (filtro simples).
Figura 3: Wavelet Gated Multiformer com: (a) Encoder; (b) Sinal de saída de lote aleatório de Wavelet Crossformer; (c) Transformer; (d) Sinal após a porta de mistura. Saída do Encoder; (e) Tendência cíclica Wavelet; (f) Tendência sazonal e (g) Decoder com blocos internos de correlação cruzada.
Figura 4: Bloco de correlação cruzada Wavelet com (a) Operações internas da camada e entrada de autoatenção para (b) Consultas e (c) Chaves (K). Tensor de lote aleatório antes e depois da remoção de ruído com filtro wavelet db4 para (d, e) Consultas e (f, g) Chaves, respectivamente. (h) Representa um lote aleatório para a correlação cruzada QK usando um filtro médio e wavelet db4.
Figura 5: Previsões de 30 e 60 dias para o poço de água subterrânea W1 com (a, d) Wavelet Gated Multiformer, (b, e) Transformer e (c, f) Autoformer com tamanho de entrada de 180 dias, respectivamente.
Figura 6: Previsões de 30 e 60 dias para o poço de água subterrânea W4 com (a, d) Wavelet Gated Multiformer, (b, e) Transformer e (c, f) Autoformer com tamanho de entrada de 180 dias, respectivamente.
Definição do problema: o objetivo foi estudar a autocorrelação e correlação cruzada em séries temporais de dados econômicos do Brasil. Maiores informações podem ser encontradas no Artigo publicado na Scientific Reports Nature.
Passos seguidos: definição do problema, preparar o ambiente de codificação, visão geral, carregar e compreender os dados, organizar os dados, análise exploratória e limpeza dos dados, criação do modelo estatístico.
Tipo de aprendizado: Modelagem estatística.
Variáveis/Atributos: PIB, Taxa Selic, Câmbio, Estoque e Venda de automóveis. As variáveis estatísticas analisadas foram extraídas do banco de dados do Banco Central do Brasil.
Ferramentas/Pacotes/Bibliotecas computacionais: software Origin, Numpy, Pandas, Matplotlib, StatsModels.
Matemática/Estatística: Coeficientes de correlação, Expoentes de correlação, Regressão polinomial, Média móvel, Fractais, Análise espectral, Análise de correlação cruzada destendenciada, Análise de flutuação destendenciada.
Linguagens de programação: Python e Fortran.
Resultados: foi possível identificar níveis de periodicidades e tendências entre as séries de dados econômicos, bem como corroborar alguns eventos com a literatura.
A seguir pode-se conferir alguns painéis que constam no artigo.
Figura 1: Análise de flutuação utilizando as seguintes referências: (a) média e (b) tendência. As vendas, estoque, e vendas & estoque são representados por círculos (vermelho), quadrados (preto) e triângulos (azul), respectivamente. Regiões I e II indicam diferentes regimes q-Multi-fractais, onde q = 2.
Figura 2: Diagrama MF-DCCHM de correlações cruzadas. (a) Média de cada período. (b) Mapa de calor MF-DCCHM de correlações cruzadas considerando múltiplas caixas móveis v distribuídas ao longo dos anos. (c) Os espectros de amplitude e (d) Potência versus frequência anual de estoque e vendas.
Figura 3: Série temporal (azul) e média móvel (vermelho) de (a) Vendas (Unidades) e (b) Estoque (unidades) do Setor Automotivo Brasileiro, bem como (c) PIB per capita, (d) Taxa de Juros Nominal, e (e) Taxa Nominal de câmbio do Brasil.
Figura 4: Análise de flutuação com três regimes multifractais para (a) RIL e PIB, (b) Vendas e PIB, (c) Vendas e RIL, (d) RLB e PIB, (e) Vendas e RLB, e (f) RLB e RIL.
Figura 5: Mapas de calor de correlação cruzada com tendência multifractal de (a) NIR e Vendas, (b) PIB e Vendas, (c) NIR e PIB, (d) RLB e PIB, (e) RLB e RIL e (f) RLB e Vendas.
Definição do problema: O objetivo deste trabalho de Doutorado foi aprimorar o novo modelo estatístico que foi desenvolvido durante o Mestrado para que este modelo pudesse ser aplicado à qualquer série de dados de sinais (temporal, espacial e etc.). Este modelo estatístico realiza uma busca automatizada no que se refere às correlações, tendências, ciclicidade, padrões e etc. Maiores informações podem ser encontradas no Artigo publicado na Annals of the Brazilian Academy of Sciences.
Passos seguidos: definição do problema, preparar o ambiente de codificação, visão geral, gerar e carregar dados sintéticos, organizar os dados.
Tipo de Aprendizado: Modelagem estatística.
Variáveis/Atributos: foram utilizadas séries de dados artificiais/sintéticas para o aprimoramento do modelo.
Tamanho dos dados: (5000, 20).
Matemática/Estatística: Coeficientes de correlação, Expoentes de correlação, Regressão polinomial, Fractais, Análise espectral, Análise de correlação cruzada destendenciada, Análise de flutuação destendenciada.
Linguagem de programação: Fortran.
Ferramentas/Pacotes/Bibliotecas computacionais: software Origin, Linux.
Resultados: Este novo modelo estatístico é capaz de encontrar periodicidades, tendências, atraso temporal/espacial, anomalias e etc.
A seguir pode-se conferir alguns painéis que constam no artigo.
Figura 1: Exemplo de transformação de uma série integrada bruta para uma série de passos (diferenças sucessivas). (a) Série integrada e (b) Série de passos.
Figura 2: (a) Série de passos de magnitudes, (b) Série de passos de sinais, (c) Série integrada de magnitudes e (d) Série integrada de sinais.
Figura 3: Séries de dados (a, b) Brutas, (c, d) Sinais e (e, f) Magnitudes. Nas séries brutas, o valor de alpha representa o expoente de autocorrelação da respectiva série.
Figura 4(a): Análise de Flutuação Destendenciada - DFA.
Figura 4(b): Análise Destendenciada de Correlação Cruzada - DCCA.
Figura 4: Análise de autocorrelação (DFA) e de correlação cruzada em (DCCA) torno da média (vermelho) e em torno da tendência (preto). (a) Série bruta, (b) Série de sinais e (c) Série de magnitudes.
Figura 5: Para os dois diagramas menores temos o procedimento de busca automática para a média dos coeficiente entre as funções W2 e W3, em função do tamanho da série N e do deslocamento relativo DR. (a) Com a condição > 0,75. (b) Com a condição > 0,80 em (b). A série de magnitudes é exibida em (1), a série de sinais em (2) e a série original em (3). Para o diagrama maior temos o procedimento de busca automática para a média dos coeficiente entre as funções W1 e W3 em função do tamanho da série N e do deslocamento relativo DR, apenas para a série de magnitudes. (a) Com a condição > 0,75. (b) Com condição > 0,80.
Figura 6: Análise entre as funções W2 e W3 para o deslocamento relativo DR = 0, DR = 190 e DR = 690 pontos. Em (a), a vertical o eixo representa o tamanho da série N e o eixo horizontal representa o deslocamento relativo DR entre as séries para a condição > 0,80. Em (b), o eixo vertical representa a variação da janela n e o eixo horizontal é o tamanho da série N . As cores representam os valores dos coeficientes . A seta preta sólida indica que o mapa de correlações foi gerado a partir do procedimento de busca automática para cada deslocamento.
Figura 7: Espectro de potência da função W3 para a série original e de sinal, respectivamente. No topo tem-se o espectro não suavizado, enquanto que na parte de baixo tem-se o espectro suavizado. Os valores obtidos para o expoente espectral b estão indicados no canto inferior esquerdo de cada painel.
Definição do problema: o objetivo foi estudar e mapear determinados tipos de rochas em subsuperfície, utilizando séries de dados espaciais. Maiores informações podem ser encontradas no Artigo publicado na Computational Geosciences.
Passos seguidos: definição do problema, preparar o ambiente de codificação, visão geral, carregar e compreender os dados, organizar os dados, análise exploratória e limpeza dos dados, criação do modelo estatístico.
Tipo de Aprendizado: Modelagem estatística.
Variáveis/Atributos: as variáveis estatísticas analisadas foram cedidas pela Petrobrás. As condições do conjunto de dados foram:
Rede de 4 poços para monitoramento, 1BAS68, 1BAS121, 1BAS80 e 1BAS37.
3 perfis para cada poço.
Séries de dados espaciais analisadas: sônico, resistividade e gama.
Tamanho dos dados: (26000, 12).
Ferramentas/Pacotes/Bibliotecas computacionais: software Origin, Linux.
Matemática/Estatística: Coeficientes de correlação, Expoentes de correlação, Regressão polinomial, Fractais, Análise espectral, Análise de correlação cruzada destendenciada, Análise de flutuação destendenciada.
Linguagem de programação: Fortran.
Resultados: (a) Foi possível identificar semelhanças entre rochas que sofreram deslocamento vertical devido a algum evento geológico; (b) Identificou-se o tipo de rocha em subsuperfície e (c) Periodicidades e tendências entre os sinais das grandezas físicas.
A seguir pode-se conferir alguns painéis que constam no artigo.
Figura 1: Três séries de dados espaciais para cada um dos quatro poços, sendo estes representados por (a), (b), (c) e (d). Os perfis utilizados são o Sônico (DT), Gama (y) e Resistividade.
Figura 2: Análise de flutuação destendenciada (DFA) em torno da média (linha tracejada) e em torno da tendência (linha cheia). (1) representa as séries de sinais e (2) representa as séries brutas. (a) representa o poço 1BAS68 e (b) representa o poço 1BAS121.
Figura 3: (a) Procedimento de busca automática entre três séries de dados espaciais para cada um dos dois poços, 1BAS68 e 1BAS121, atribuindo o registro para a média dos coeficientes maior que 0,7. O eixo vertical representa a profundidade do poço, enquanto que o eixo horizontal representa o deslocamento relativo. Cada símbolo representa a correlação cruzada entre a mesma série de dados (grandeza física) para cada poço, em que o Quadrado representa o perfil resistividade, o triângulo representa o perfil sônico e o círculo representa o perfil gama. (b) Mapa de correlação cruzada para uma caixa deslizante de tamanho N', com um deslocamento relativo de 15 metros entre cada par de séries (mesma grandeza física) em cada poço. A seta em azul no diagrama (a) indica a superposição das três geometrias em uma mesma profundidade, após um deslocamento de 15 metros, coincidindo com o mapa (b).
Figura 4: A interpretação para este diagrama é semelhante ao que foi realizado para o diagrama (a) da Figura 3. Para esta situação foram utilizadas as três séries de dados citadas anteriormente, porém, para os poço 1BAS37 e 1BAS80.
Figura 5: Espectro de potência para as três séries de dados espaciais do poço 1BAS121, realizando a suavização dos dados, em (b) e (d), e sem suavização dos dados, em (a) e (c).
Definição do problema: O objetivo foi elaborar um novo modelo estatístico para estudar e mapear determinados tipos de rochas em subsuperfície, utilizando séries de dados espaciais. Maiores informações podem ser encontradas no Artigo publicado na Physica A.
Passos seguidos: definição do problema, preparar o ambiente de codificação, visão geral, carregar e compreender os dados, organizar os dados, análise exploratória e limpeza dos dados.
Tipo de Aprendizado: Modelagem estatística.
Variáveis/Atributos: as variáveis estatísticas analisadas foram cedidas pela Petrobrás. As condições do conjunto de dados foram:
Rede de 2 poços para monitoramento, 1BAS68, 1BAS121.
3 perfis para cada poço.
Séries de dados espaciais analisadas: sônico, resistividade e gama.
Tamanho dos dados: (26000, 6).
Ferramentas/Pacotes/Bibliotecas computacionais: software Origin, Linux.
Matemática/Estatística: Coeficientes de correlação, Expoentes de correlação, Regressão polinomial, Fractais, Análise de correlação cruzada destendenciada, Análise de flutuação destendenciada.
Linguagem de programação: Fortran.
Resultados: (a) Foi possível identificar semelhanças entre rochas que sofreram deslocamento vertical devido a algum evento geológico e (b) Periodicidades e tendências entre os sinais das grandezas físicas.
A seguir pode-se conferir alguns painéis que constam no artigo.
Figura 1: Da esquerda para a direita temos: No primeiro gráfico as séries de dados espaciais do poço 1BAS121. Os perfis indicados são o sônico (preto), gama (vermelho) e resistividade (verde). No segundo gráfico temos as análises de flutuação destendenciada e as análises de correlação cruzada destendenciada, em que os resultados são para as séries brutas (a), séries de magnitudes (b) e séries de sinais (c).
Figura 2: Para os dois diagramas na parte superior temos, da esquerda para a direita, em que o primeiro representa a correlação cruzada para os coeficientes com diferentes séries em um mesmo poço (1BAS68), enquanto que o segundo diagrama representa a correlação cruzada de uma série de dados da mesma grandeza física em dois poços (1BAS68 e 1BAS121), promovendo um deslocamento relativo entre as séries em 15 metros.
Definição do problema: o objetivo foi desenvolver um novo modelo matemático para estudar e mapear a dinâmica de infecção do vírus HIV por meio de um sistema de equações diferenciais parciais. Maiores informações podem ser encontradas no Artigo publicado na Physica A.
Passos seguidos: definição do problema, preparar o ambiente de codificação, visão geral, gerar e carregar os dados.
Tipo de Aprendizado: Modelo composto por um sistema com cinco equações diferenciais parciais.
Variáveis/Atributos: foram gerados dados sintéticos.
Matemática/Estatística: Equações diferenciais parciais.
Linguagem de programação: Fortran.
Ferramentas/Pacotes/Bibliotecas computacionais: software Origin, Linux.
Resultados: foi possível simular a dinâmica de infecção do vírus HIV em função do tempo, corroborando com os resultados que constam na literatura.
A seguir pode-se conferir alguns painéis que constam no artigo.
Figura 1: Gráficos mostrando a evolução do vírus HIV para diferentes condições iniciais.
Figura 2: Gráficos mostrando a evolução do vírus HIV para diferentes condições iniciais.
Figura 3: Mapas mostrando a evolução do vírus HIV para diferentes condições iniciais.
Projeto 7: Este trabalho não teve permissão da Badische Anilin- und Sodafabrik (Fábrica de Anilina e Soda de Baden ) - BASF para ser publicado.
Definição do problema: verificar e mapear o comportamento relacionado à eficiência das máquinas de produção de ativos da BASF.
Passos seguidos: definição do problema, preparar o ambiente de codificação, visão geral, carregar e compreender os dados, organizar os dados, análise exploratória e limpeza dos dados, criação do modelo estatístico.
Tipo de aprendizado: Modelagem estatística.
Variáveis/Atributos: Foram utilizados quatro (4) diferentes ativos de produção, cujo quais não posso explicitar.
Ferramentas/Pacotes/Bibliotecas computacionais: software Origin, Excel.
Matemática/Estatística: Coeficientes de correlação, Expoentes de correlação, Regressão polinomial, Média móvel, Fractais, Análise espectral, Análise de correlação cruzada destendenciada, Análise de flutuação destendenciada.
Linguagens de programação: Fortran e Python.
Resultados: foi possível identificar níveis de periodicidades e tendências entre as séries de dados de ativos internos à empresa. Além disso, pôde-se identificar máquinas que tiveram diferentes desempenhos, bem como conciliar estas atividades com os funcionários que manuseiam estas máquinas.
A seguir pode-se conferir alguns painéis em que os nomes originais das variáveis estatísticas foram substituídos por nomes apropriados para interpretação.
Figura 1: Séries temporais com dados mensais de i) Tempo de Produção (TP), em azul; ii) Perdas Planejadas (PP), em amarelo; iii) Perdas Imprevistas (PI), em vermelho e iv) Somatório Produtivo (SU), em verde.
Figura 2: Séries obtidas através dos dados de TP. (a) Em azul tem-se a série de entrada de dados de TP e em laranja a série das diferenças sucessivas de TP. (b) Em laranja tem-se a transformação para série de sinais das diferenças sucessivas, enquanto que em azul tem-se a série integrada de sinais. (c) Em laranja tem-se a transformação para série de magnitudes das diferenças sucessivas, enquanto que em azul tem-se a série integrada de magnitudes.
Figura 3: Gráficos para a obtenção dos expoentes DFAx e DCCAx dos pares TP&PP e PP&PI, das séries originais e de sinais. O subíndice x refere-se às numerações que indicam se as flutuações são em torno da média ou da tendência.
Figura 4: curvas de taxa de probabilidade de falhas.
Figura 5: Gráficos para o par TP&PP: (a) Tem-se a variação dos valores dos coeficientes em função do tempo; (b) Mapa de Correlações. Utilizou-se uma caixa deslizante de 60 pontos com janelas ν variando de 10 até 60 pontos, como mostra o eixo vertical, e o tempo, em anos, está indicado no eixo horizontal. As cores indicam a intensidade dos coeficientes, que variam de -1 até 1, como mostra a barra vertical de cores à direita ao lado do mapa e (c) Médias móveis para o par TP_PP considerando a caixa móvel de 60 dias.
Figura 6: Gráficos para o par PP&PI: (a) Tem-se a variação dos valores dos coeficientes em função do tempo; (b) Mapa de Correlações. Utilizou-se uma caixa deslizante de 60 pontos com janelas ν variando de 10 até 60 pontos, como mostra o eixo vertical, e o tempo, em anos, está indicado no eixo horizontal. As cores indicam a intensidade dos coeficientes, que variam de -1 até 1, como mostra a barra vertical de cores à direita ao lado do mapa e (c) Médias móveis para o par TP&PP considerando a caixa móvel de 60 dias.
Figura 7: Em (a) tem-se os espectros de frequência, em ciclos mensais, para as séries i) tempo de produção – TP; ii) Perdas Planejadas – PP; iii) perdas imprevistas – PI, e; referência da capacidade produtiva da fábrica – SU. Em (b) tem-se uma ampliação de um pequeno intervalo de frequência a partir de (a).