One hot encoding et label encoding
Site web explicatif pour le one hot encoding
Site web explicatif pour le label encoding
Regression Linéaire et extensions
Cours RegressionLineaire.pdf
Un site web sur la Regression linéaire
Un autre site qui fait une régression linéaire sur le CaliforniaHousingDataset
Arbres de décisions et méthodes d'ensembles (Random Forest et GBT)
Cours ArbresDecisions.pdf
Arbres de décision et méthodes d'ensembles : Random Forest et Boosting
Visualiser les arbres de décision
Exemple de classification avec Logistic Regression et méthodes d'ensemble : classification-titanic.ipynb. Datasets : train.csv et test.csv
La question de l'évaluation en régression et en classification. Identifier les situations d'underfitting/overfitting
Des exemples : Prediction.pdf et le notebook Prediction.ipynb
Evaluer : train/test split et cross validation
AutoML with auto-sklearn
Un exemple : analyse de survie
Forecasting
La librairie sktime
AutoML
Exemples de librairies AutoML
Aller plus loin
McElfresh, Duncan, et al. When do neural nets outperform boosted trees on tabular data?. Advances in Neural Information Processing Systems 36 (2024). pdf
Kim, Myung Jun, Léo Grinsztajn, and Gaël Varoquaux. CARTE: pretraining and transfer for tabular learning. arXiv preprint arXiv:2402.16785 (2024). pdf
Travail sur jeu de données
S'attaquer au challenge du jeu de données Diabetes Health Indicators Dataset
Définir des mesures d'associations pour données catégorielles
S'attaquer au challenge du jeu de données UsedCarsPricePrediction