Environnement VSCode
Les slides de l'Atelier Données Tabulaires : AtelierDonneesTabulaires.pdf
Formats de données : bibliothèque HDF5
Remove strings in a csv table : site
La méthode groupby
Modélisation : identifier un problème de ML
Analyse exploratoire de données
Découverte de la librairie Pandas with a online tutorial. Données : data.csv ou données biologiques
Merger des datasets : ici
Librairie Polars
La librairie seaborn avec un exemple d'utilisation sur Kaggle. Dataset : tips.csv
Introduction à la librairie Seaborn : IntroductionSeaborn.ipynb
Exemple d'analyse exploratoire des données Facebook Live Sellers in Thailand du UCI ML repository : EDA.pdf. Notebook : EDA.ipynb. Dataset : Live.csv
Apprentissage non supervisé
Les méthodes implémentées sur scikit-learn
Un tutorial qui compare les différentes methodes. Plus de détails sur : K-means, Hierarchical Clustering et DBSCAN
La question de l'évaluation en apprentissage non supervisé.
Clustering sur les données Facebook Live Sellers in Thailand du UCI ML repository : Clustering.pdf. Notebook : Clustering.ipynb
Apprentissage supervisé
Arbres de décision et méthodes d'ensembles : Random Forest et Boosting
Visualiser les arbres de décision
Exemple de classification avec Logistic Regression et méthodes d'ensemble : classification-titanic.ipynb. Datasets : train.csv et test.csv
La question de l'évaluation en régression et en classification. Identifier les situations d'underfitting/overfitting
Des exemples : Prediction.pdf et le notebook Prediction.ipynb
Evaluer : train/test split et cross validation
Un exemple : analyse de survie
Aller plus loin
McElfresh, Duncan, et al. When do neural nets outperform boosted trees on tabular data?. Advances in Neural Information Processing Systems 36 (2024). pdf
Kim, Myung Jun, Léo Grinsztajn, and Gaël Varoquaux. CARTE: pretraining and transfer for tabular learning. arXiv preprint arXiv:2402.16785 (2024). pdf
Travail sur jeu de données
S'attaquer au challenge du jeu de données Diabetes Health Indicators Dataset
Définir des mesures d'associations pour données catégorielles
S'attaquer au challenge du jeu de données UsedCarsPricePrediction