Sejam bem vindos a atividade de Férias do PET Estatística: Análise Exploratória de Dados com Python. Abaixo apresentamos o código que desenvolvemos, com o tratamento de dados e análise de dados realizados. No desenvolvimento alguns objetivos foram definidos para nos guiar no estudo, além de um conjunto de perguntas e respostas.
Não deixe de conferir a seção faça você mesmo no final da página, onde disponibilizamos diversos materiais para seus estudos.
A base de dados é uma forma de catalogar e armazenar informações específicas, de forma organizada e inter-relacionada com foco em permitir e facilitar a recuperação da informação.
Este conjunto de informações tem diversos usos, no contexto da análise exploratória de dados estes serão os dados a serem analisados e sumarizados.
A primeira etapa para iniciar a análise e dados, são os dados. É possível utilizar dados coletados por si mesmo ou utilizar uma base de dados pré-existente, neste caso podemos utilizar algumas plataformas interessantes que tem como objetivo disponibilizar bases de dados para usos diversos, no exemplo acima utilizamos a SF Salaries, uma base de dados que contem informações de pagamento de salários na cidade de São Francisco dos anos 2011 a 2014. Disponível em: https://www.kaggle.com/kaggle/sf-salaries.
É necessário realizar a limpeza e tratamento da base de dados, neste caso foram deletadas diversas linhas por não possuírem dados verossímeis, além da transformação do tipo de informação contida nas colunas, mudando por exemplo os tipos das variáveis e criando colunas com novas variáveis, além de ser necessário adequar as diferentes variáveis no modelo de análise a ser utilizado.
No modelo disponibilizado acima é possível observar quais processos realizamos e aplicar os mesmos conceitos na sua própria base de dados!
Recomendamos as seguintes plataformas de dados:
O PET Estatística UFC não possuí quaisquer vínculos com os sites aqui mencionados.
Nossa IDE (Integrated Development Environment ou Ambiente de Desenvolvimento Integrado ) de escolha foi o Jupyter Notebook, utilizando principalmente da linguagem Python, nossa escolha de IDE se deu pela praticidade e capacidade do Jupyter, sendo possível utilizar o mesmo pelo navegador, além de que nativamente é possível utilizar as principais linguagens de programação e marcação.
Caso já possua conhecimento de programação o Jupyer é uma plaforma de rápido aprendizado, abaixo disponibilizamos guias introdutórios a Python e a Plataforma Jupyter.
Recomendamos os seguintes guias:
https://www.alura.com.br/artigos/conhecendo-o-jupyter-notebook (Uma redação que explica rapidamente a interface do Jupyter).
https://www.youtube.com/watch?v=aCG6JmsfwR8 (Vídeo introdutório ao Jupyter).
https://www.youtube.com/watch?v=S9uPNppGsGo (Curso em vídeo gratuito e de alta qualidade de programação em Python).
O PET Estatística UFC não possuí quaisquer vínculos com os sites aqui mencionados.
A análise exploratória de dados consiste na investigação das principais características de um grupo de dados, utilizando técnicas que incluem ferramentas de visualização e geralmente são a primeira análise a ser aplicada em um conjunto de dados, auxiliando a identificar as melhores técnicas estatísticas a se utilizar em estágios mais avançados da análise.
A AED ajuda a visualizar e desenvolver os métodos mais adequados a serem utilizados no conjunto de dados analisado, além de auxiliar a detectar erros óbvios, padrões e desvios presentes nos dados analisados. Para realizar a AED com Python não é necessário um entendimento avançado da linguagem de programação em questão.
Utilizamos as bibliotecas a seguir:
Pandas (Utilizada para manipulação e análise de dados, focada em facilitar a manipulação de Data Frames e Series.)
https://harve.com.br/blog/programacao-python-blog/pandas-python-vantagens-e-como-comecar/ (Redação a respeito do Pandas)
Matplotlib (Utilizada para criação de gráficos, focada em facilitar a visualização dos dados)
https://www.alura.com.br/artigos/criando-graficos-no-python-com-a-matplotlib (Redação respeito do Matplotlib)
NumPy (Ferramenta utilizada para realizar calculos em Arrays Multidimensionais, focada em facilitar o trabalho com arrays)
https://harve.com.br/blog/programacao-python-blog/numpy-python-o-que-e-vantagens-e-tutorial-inicial/ (Redação a respeito do Numpy)
A análise da base de dados SF salaries (Que conta com mais de 145.000 linhas) buscava responder as seguintes perguntas:
Segundo os dados, é mais vantajoso seguir uma carreira de policial ou bombeiro?
Como se comportou a base salarial dos policiais ao longo dos anos? faça um gráfico para visualizar melhor.
Qual a média de pagamento total de todos os empregados a cada ano?
Qual o top 5 de empregos mais comuns?
Quais os 10 cargos que mais receberam benefícios durante o período de 2012-2014?
Quais os 20 cargos mais bem pagos de 2012?
Os mesmos foram respondidos com os métodos encontrados no script acima.
Escolha uma base de dados e comece a explorar, formule suas perguntas e utilize do nosso script e do material proposto abaixo como guia inicial!
Como material de estudo recomendamos:
https://www.researchgate.net/publication/336778766_Introducao_a_Analise_Exploratoria_de_Dados_com_Python (Material Introdutório a Análise Exploratória de Dados com Python)
https://minerandodados.com.br/analise-exploratoria-de-dados-passo-a-passo-com-python/ (Artigo sobre análise exploratória de dados com Python)
https://www.kaggle.com/educfrio/an-lise-explorat-ria-de-dados/notebook ( Artigo com diversos exemplos interessantíssimos de exercícios)
O PET Estatística UFC não possuí quaisquer vínculos com os sites aqui mencionados.