Data Science / Machine Learning

The Most Complete List of Best AI Cheat Sheets

https://becominghuman.ai/cheat-sheets-for-ai-neural-networks-machine-learning-deep-learning-big-data-678c51b4b463

Melhores livros gratuitos de Python, Ciência de Dados e Machine Learning

https://www.dataquest.io/blog/free-books-learn-data-science/

Um tutorial completo para aprender Data Science com Python do zero

Projeto Ciência de Dados na Prática

Pandas

Numpy

Entendendo a biblioteca NumPy

Google Colab

Exemplo de integração entre Google Colab e Google Drive

Workflow típico para resolução de problemas

Definição do problema
Carregamento do dataset
Análise e visualização dos dados
Preparação dos dados
- Limpeza dos dados
- Transformação dos dados
Geração e treinamento dos modelos
Avaliação dos modelos
Apresentar os resultados (tabelas, gráficos)

Formatação números decimais no Pandas - Como evitar exibição de número em notação científica

pd.options.display.float_format = '{:.4f}'.format

Carregamento de arquivos muito grandes através do Pandas - Opção 1: chunks + dtype

É possível dividir o carregamento de arquivos grandes em pedaços (chunks) da seguinte forma:

nomes_features = ['sensor_id', 'datetime', 'lane', 'max_speed', 'speed', 'size', 'vehicle_type', 'plate_hash']

tipos_features={'sensor_id':object, 'datetime':object, 'lane':int, 'max_speed':int, 'speed':float, 'size':float, 'vehicle_type':int, 'plate_hash':object}

df = pd.read_csv('dados.csv', chunksize=500000, header=None, names=nomes_features, dtype=tipos_features)

for chunk in df:

df_parcial = pd.DataFrame(chunk)

Onde chunksize é o número de linhas carregadas a cada interação.

Também é sugerido que você ao carregar já diga de antemão quais são os tipos das features através do parâmetro dtype.

Isso evita que o Pandas perca tempo tentando adivinhar o tipo de cada feature de forma automática.

Carregamento de arquivos muito grandes através do Pandas - Opção 2: Dask

conda install dask
Why every Data Scientist should use Dask?
https://github.com/dask/dask/
https://dask.org/

Carregamento de arquivos muito grandes através do Pandas - Opção 3: Pandas on Ray

Pandas on Ray - Torne o Pandas mais rápido e escalável trocando apenas uma linha de seu código...
- https://rise.cs.berkeley.edu/blog/pandas-on-ray/
- https://github.com/ray-project/ray

Processando Big Data no Scikit-Learn

Use chunks + dtype no Pandas para carregar os dados aos poucos (em parcelas)
Use aprendizagem incremental à medida que parcelas dos dados são carregadas: Incremental Learning (Online Learning) através de Mini-Batch de instâncias

Links interessantes

Jupyter Notebook for Beginners: A Tutorial

Kaggle Hands-On Data Science Education