produção petrolífera brasileira

"Data is the new oil"

A frase acima ficou conhecida em 2006 graças ao matemático londrino Clive Humby.

Em 2017, o Economist publicou um artigo dizendo que o recurso mais valioso do mundo não era mais o petróleo, mas os dados.

Alguns criticam a comparação feita por Clive, já que os dados, ao contrário do petróleo, têm as seguintes características:

  • não é um recurso finito;

  • é durável e reutilizável;

  • seu valor depende de quem o utiliza.

Independente de qualquer opinião, é inegável a importância dos dados atualmente. E se os dados são o novo petróleo, o que dizer de dados sobre petróleo?

Nos últimos tempos, com a descoberta do pré-sal, o Brasil passou a figurar entre os principais produtores de petróleo no cenário mundial. Com perspectivas do aumento de produção de seus poços, o país pode, em um futuro recente, passar a pertencer ao seleto grupo dos 5 maiores produtores mundiais. Com a infinidade de dados gerados no setor petrolífero, torna-se essencial

Neste trabalho, foi proposta uma análise completa dos datasets de produção de petróleo por poço disponibilizados pela Agência Nacional de Petróleo, que vão desde a aquisição até a visualização de atributos. Dentre as ferramentas abordadas, optou-se pelo uso das técnicas de visualização scatterplots , mapas coropletos e coordenadas paralelas.



Vídeo


Dados

O dataset nomeado por 'Dados de Produção por Poço (pós-2018)' é fornecido pela Agência Nacional do Petróleo, Gás Natural e Biocombustíveis (ANP).

A base possui informações detalhadas sobre os volumes produzidos mensalmente em cada poço. A temporalidade dos dados se encontra em base mensal no formato de separação por vírgula (csv). Avaliou-se a produção de janeiro de 2021 a maio de 2022.

Utilizou-se também uma base com características de cada poço para utilização das coordenadas geográficas a fim de ilustrar a produção de cada poço em sua localização real conforme sua latitude e longitude.

Para aquisição dos dados utilizou-se a biblioteca requests, que permite a aquisição dos dados através do canal de dados abertos da ANP. Como os dados estão disponibilizados no formato compactado (zip) foram aplicadas as funções disponíveis nas bibliotecas zipfile e io para descompactação dos arquivos e salvamento local. Na aba Dados é possível verificar os arquivos utilizados.

Preparação dos datasets:

Feita a importação das duas bases de dados, optou-se por juntar as mesmas em um único conjunto de dados. Utilizando a função merge da biblioteca Pandas, concatenou-se as duas bases por meio do nome de cada poço. Em seguida, com o objetivo de analisar a produção de petróleo no Brasil ao longo dos meses, optou-se por excluir da base as instâncias cuja produção de petróleo foi nula.


  1. Dataset para Scatterplot com Mapa Coropleto

      • Atributos para Scatterplot: período, média diária de produção de cada poço, tipo de extracao, latitude e longitude;

      • Atributos para coropleto: agregação das médias diárias de produção por período;

      • Carregamento do arqvuivo GeoJSON que define a geometria dos contornos gráficos do país.


  1. Dataset para Scatterplot para análise da qualidade por tipo de extração

      • Atributos selecionados: período, média diária de produção de cada poço, tipo de extração, grau API;

      • Remoção das instâncias sem informação sobre grau API.


  1. Dataset para coordenadas paralelas

      • Atributos selecionados: bacia, tipo de instalação poço, tipo de extração.



Visualizações


Primeiramente, optou-se por utilizar a união do scatterplot com o mapa coropleto para analisar a produção de cada poço individualmente, bem como a produção total de petróleo no Brasil.

A técnica scatterplot pode ser observada ao plotar cada poço do tipo mar e pré-sal sendo os eixos horizontal e vertical suas coordenadas geográficas latitude e longitude. O tipo de extração é definido pela cor do marcador e a média diária mensal é definida pelo tamanho do marcador. Assim, foi possível a comparação dos atributos latitude, longitude, tipo de extração e média diária de produção de cada poço

Já o mapa coropleto é observado pela coloração no interior dos limites territorias do Brasil. Assim, quanto mais escuro o tom do azul, maior a produção de petróleo no país no mês em análise.

A segunda visualização apresenta um gráfico de dispersão comparando a quantidade produzida, tanto no eixo horizontal como no tamanho dos marcadores, e a qualidade do petróleo no eixo horizontal. Verifica-se que há vários poços do tipo terra, mas a produção é inferior quando comparada aos tipos mar e pré-sal. Os poços mar tem uma grande variabilidade no petróleo produzido e os poços do tipo pré-sal. É possível notar que o petróleo brasileiro possui um grau API, em média, entre 20 a 30, que caracteriza um petróleo do tipo pesado a médio. Entretanto, também nota-se a ocorrência de petróleos mais leves em alguns poços, i.e., acima de um grau api de 33. Também é possível verificar o comportamento da série de dados ao longo do tempo.

Por fim, a visualização por meio da técnica coordenadas paralelas permitiu compreender a relação entre algumas variáveis categóricas da base de dados

Análise de Produção de Água nos Poços Brasileiros

Mar


pré-sal


terra


A figura acima teve como objetivo a verificação de uma relação linear entre as variáveis de produção de petróleo e produção de água por meio da plotagem de um gráfico em scatterplots com o ajuste de uma regressão linear. É possível notar facilmente e visualmente que a relação entre essas variáveis não é ajustável através de uma regressão linear simples. Isso se deve porque não há um padrão definido de uma maior produção de petróleo resultando em uma maior produção de água e vice-versa. Na figura ao lado fica evidente que algumas bacias, como, por exemplo, Recôncavo, Potiguar, Sergipe, Alagoas e Tucano Sul possuem uma elevada produção de água em relação à produção de petróleo, que pode estar relacionado com a vida útil dos poços em questão.



Análise de Produção de Petróleo ao Longo do Tempo

mar


pré-sal


terra


É possível notar que o nível de produção via mar e pré-sal possuem magnitudes superiores em relação à produção em terra. Além disso, também nota-se que devido ao atual processo de desinvestimento de alguns poços de petróleo pela maior empresa petrolífera brasileira (Petrobras), os poços em terra estão em declínio de produção desde o início de 2021. Entretanto, apesar de ainda ser menor do que a produção em mar, a produção através do pré-sal deve receber novos incentivos no futuro próximo e deve continuar sua tendência ascendente. A técnica baseada em séries temporais foi útil para observar tais dinâmicas nos dados. Além disso, através da abordagem via técnica de stacked area (vide figuras acima) é possível notar a magnitude da produção por categorias. Sendo assim, nota-se a predominância da produção da bacia de Santos (SP e RJ) e da bacia de Campos (RJ). Por fim, a visualização atráves de Treemap reforça essa interpretação e também evidencia o estado do Rio de Janeiro como maior produtor e a maior relevância da produção via mar.

por estado


por tipo de extração


Análise da distribuição dos dados

As figuras acima apresentam importantes informações quanto a distribuição dos dados. Na primeira figura, a técnica de histograma foi implementada e é possível observar um conjunto extenso de observações entre o intervalo de 20 a 25 do grau API. Visualmente é possível notar uma assimetria à direita e uma distribuição possivelmente leptocúrtica com elevada curtose devido a um elevado número de poços nessa faixa de intervalo. Diferentemente, na segunda foi analisada a distribuição do tempo mensal de produção (em horas) por tipo de extração. Pode-se observar uma presença grande de dados no intervalo entre 600 a 800 horas de produção (entre 25 a 31 dias, aproximadamente). De fato é esperado que os poços possuam fluxos contínuos de produção durante todos os dias do mês e tende-se a serem ajustados para a máxima produção. Dessa forma, não foram encontrados divergências entre os tipos de extração para tal análise. Por fim, a figura ao lado ilustra a variação dos dados de produção por bacia. Nota-se uma grande variação dos dados de produção quando observa-se os poços representados pelos pontos em cada boxplot. No geral, as Bacias podem apresentar campos e poços de produção com mínimas produções até produções máximas atípicas (outliers).

Considerações finais

Verifica-se na primeira visualização que, em geral, há uma tendência de crescimento da produção de petróleo no país ao longo dos meses. Além disso, os poços do tipo mar e pré-sal estão concentrados no litoral da região sudeste do Brasil.

Também foi observado que o tipo de extração em terra, apesar de ter mais poços, representa uma pequena proporção na produção total quanto comparado aos tipos mar e pré-sal.

Avaliando a qualidade do petróleo, o tipo pré-sal apresentou a menor variabilidade com grau API em torno do valor 30.

Por fim, constata-se que as bacias mais instâncias na base de dados foram a Potiguar, Recôncavo, Sergipe, Santos e Campo

O presente estudo buscou utilizar diferentes técnicas de visualização de informação para a análise, exploração, interpretação e visualização dos dados de produção mensal de petróleo por poços da ANP. As técnicas utilizadas foram: o scatterplot, o mapa coropleto, coordenadas paralelas, time series (séries temporais), histograma, boxplot e treemap.

Inicialmente com a análise exploratória, foi possível obter o entendimento da base de dados. Durante o pré-processamento foi realizado o tratamento da base de dados conforme cada técnica de visualização.

Com as bases preparadas, foi possível gerar as visualizações propostas e entender o comportamento da produção de petróleo no Brasil. Verificou-se uma curva de crescimento da produção de petróleo ao longo dos meses do período observado (jan/2021 a mai/2022), com uma alta concentração no litoral sudeste do país. Também foi observado que o tipo de extração em terra, apesar de ter mais poços, representa uma pequena proporção na produção total quanto comparado aos tipos mar e pré-sal. Avaliando a qualidade do petróleo, o tipo pré-sal apresentou a menor variabilidade com grau API em torno do valor 30. Entretanto, a média nacional está no intervalo entre 20 a 30, que classifica o petróleo como pesado a médio.

Além disso, as bacias do Recôncavo, Potiguar, Alagoas, Sergipe e Tucano Sul apresentaram uma alta taxa de produção de água, o que pode ser uma evidência do tempo útil de tais poços. Ainda assim, a queda observada da produção via terra pode estar relacionada ao processo de desinvestimento dos poços operados pela Petrobras. Sendo assim, possivelmente as produções em mar e pré-sal devem ser incentivadas no futuro próximo, já que as bacias de Santos e Campos possuem a predominância da produção no país, representadas pelos estados de RJ e SP.