Data Science / Machine Learning

The Most Complete List of Best AI Cheat Sheets

Melhores livros gratuitos de Python, Ciência de Dados e Machine Learning

Um tutorial completo para aprender Data Science com Python do zero

Pandas

Numpy

Google Colab

Workflow típico para resolução de problemas

  • Definição do problema
  • Carregamento do dataset
  • Análise e visualização dos dados
  • Preparação dos dados
    • Limpeza dos dados
    • Transformação dos dados
  • Geração e treinamento dos modelos
  • Avaliação dos modelos
  • Apresentar os resultados (tabelas, gráficos)

Formatação números decimais no Pandas - Como evitar exibição de número em notação científica

pd.options.display.float_format = '{:.4f}'.format


Carregamento de arquivos muito grandes através do Pandas - Opção 1: chunks + dtype

É possível dividir o carregamento de arquivos grandes em pedaços (chunks) da seguinte forma:

nomes_features = ['sensor_id', 'datetime', 'lane', 'max_speed', 'speed', 'size', 'vehicle_type', 'plate_hash']

tipos_features={'sensor_id':object, 'datetime':object, 'lane':int, 'max_speed':int, 'speed':float, 'size':float, 'vehicle_type':int, 'plate_hash':object}

df = pd.read_csv('dados.csv', chunksize=500000, header=None, names=nomes_features, dtype=tipos_features)

for chunk in df:

df_parcial = pd.DataFrame(chunk)


Onde chunksize é o número de linhas carregadas a cada interação.

Também é sugerido que você ao carregar já diga de antemão quais são os tipos das features através do parâmetro dtype.

Isso evita que o Pandas perca tempo tentando adivinhar o tipo de cada feature de forma automática.

Carregamento de arquivos muito grandes através do Pandas - Opção 2: Dask

Carregamento de arquivos muito grandes através do Pandas - Opção 3: Pandas on Ray

Processando Big Data no Scikit-Learn

Links interessantes

Jupyter Notebook for Beginners: A Tutorial

Kaggle Hands-On Data Science Education