Data Science / Machine Learning
The Most Complete List of Best AI Cheat Sheets
Melhores livros gratuitos de Python, Ciência de Dados e Machine Learning
Um tutorial completo para aprender Data Science com Python do zero
- https://www.vooo.pro/insights/um-tutorial-completo-para-aprender-data-science-com-python-do-zero/
- Versão original em inglês: https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/
- Introdução, Livros, Vídeos, Materiais Didáticos
- Jupyter Notebooks
- Numpy
- Ciência de Dados na Prática - Canal do YouTube
Pandas
- Quick dive into Pandas for Data Science
- Dataquest - Tutoriais Pandas
- Referência Rápida (Quick Ref)
- Excelentes dicas sobre o Pandas
Numpy
Google Colab
Workflow típico para resolução de problemas
- Definição do problema
- Carregamento do dataset
- Análise e visualização dos dados
- Preparação dos dados
- Limpeza dos dados
- Transformação dos dados
- Geração e treinamento dos modelos
- Avaliação dos modelos
- Apresentar os resultados (tabelas, gráficos)
Formatação números decimais no Pandas - Como evitar exibição de número em notação científica
pd.options.display.float_format = '{:.4f}'.format
Carregamento de arquivos muito grandes através do Pandas - Opção 1: chunks + dtype
É possível dividir o carregamento de arquivos grandes em pedaços (chunks) da seguinte forma:
nomes_features = ['sensor_id', 'datetime', 'lane', 'max_speed', 'speed', 'size', 'vehicle_type', 'plate_hash']
tipos_features={'sensor_id':object, 'datetime':object, 'lane':int, 'max_speed':int, 'speed':float, 'size':float, 'vehicle_type':int, 'plate_hash':object}
df = pd.read_csv('dados.csv', chunksize=500000, header=None, names=nomes_features, dtype=tipos_features)
for chunk in df:
df_parcial = pd.DataFrame(chunk)
Onde chunksize é o número de linhas carregadas a cada interação.
Também é sugerido que você ao carregar já diga de antemão quais são os tipos das features através do parâmetro dtype.
Isso evita que o Pandas perca tempo tentando adivinhar o tipo de cada feature de forma automática.
Carregamento de arquivos muito grandes através do Pandas - Opção 2: Dask
- conda install dask
- Why every Data Scientist should use Dask?
- https://github.com/dask/dask/
- https://dask.org/
Carregamento de arquivos muito grandes através do Pandas - Opção 3: Pandas on Ray
- Pandas on Ray - Torne o Pandas mais rápido e escalável trocando apenas uma linha de seu código...
Processando Big Data no Scikit-Learn
- Use chunks + dtype no Pandas para carregar os dados aos poucos (em parcelas)
- Use aprendizagem incremental à medida que parcelas dos dados são carregadas: Incremental Learning (Online Learning) através de Mini-Batch de instâncias