Atividade de Férias com o R

Sejam bem vindos à segunda atividade de Férias do PET Estatística:  Análise Exploratória de Dados com o R! O principal intuito desse material é fazer uma comparação entre as linguagens Python e R para a análise de dados. Para isso, recorremos à mesma base de dados utilizada na Atividade de Férias com Python  (Vale muito a pena conferir, caso ainda não tenha visto) e replicamos o tratamento do dataset e a análise de dados, mas dessa vez, usando a linguagem R. 

Abaixo apresentamos o código que desenvolvemos. No decorrer da atividade, alguns objetivos foram definidos para nos guiar no estudo,  além de um conjunto de perguntas e respostas.


Não deixe de conferir a seção faça você mesmo no final da página, onde disponibilizamos diversos materiais para seus estudos.

Faça você mesmo:

Base de Dados

A base de dados é uma forma de catalogar e armazenar informações específicas, de forma organizada e inter-relacionada com foco em permitir e facilitar a recuperação da informação. 

Este conjunto de informações tem diversos usos, no contexto da análise exploratória de dados estes serão os dados a serem analisados e sumarizados. 

A primeira etapa para iniciar a análise e dados, são os dados. É possível utilizar dados coletados por si mesmo ou utilizar uma base de dados pré-existente, neste caso podemos utilizar algumas plataformas interessantes que tem como objetivo disponibilizar bases de dados para usos diversos, no exemplo acima utilizamos a SF Salaries, uma base de dados que contem informações de pagamento de salários na cidade de São Francisco dos anos 2011 a 2014.  Disponível em: https://www.kaggle.com/kaggle/sf-salaries.

É necessário realizar a limpeza e tratamento da base de dados, neste caso foram deletadas diversas linhas por não possuírem dados verossímeis, além da transformação do tipo de informação contida nas colunas, mudando por exemplo os tipos das variáveis e  criando colunas com novas variáveis, além de ser necessário adequar as diferentes variáveis no modelo de análise a ser utilizado. 


No modelo disponibilizado acima é possível observar quais processos realizamos e aplicar os mesmos conceitos na sua própria base de dados! 

Recomendamos as seguintes plataformas de dados:

O PET Estatística UFC não possuí quaisquer vínculos com os sites aqui mencionados.

Análise Exploratória de Dados (AED)

A análise exploratória de dados consiste na investigação das principais características de um grupo de dados, utilizando técnicas que incluem ferramentas de visualização e  geralmente são a primeira análise a ser aplicada em um conjunto de dados,  auxiliando a identificar as melhores técnicas estatísticas a se utilizar em estágios mais avançados da análise. A AED ajuda a visualizar e desenvolver os métodos mais adequados a serem utilizados no conjunto de dados analisado, além de auxiliar a detectar erros óbvios, padrões e desvios presentes nos dados analisados. 

Para essa atividade, utilizamos majoritariamente o tidyverse, uma coleção de pacotes do R criadas para ciência de dados. Os pacotes que mais usamos foram



Para entender mais sobre esses e outros pacotes da coleção, recomendamos esse livro-curso sobre Ciência de Dados no R, que trata com mais profundidade sobre o tidyverse:

https://livro.curso-r.com/index.html


O PET Estatística UFC não possuí quaisquer vínculos com os sites aqui mencionados.