Python est le langage de programmation du moment, celui qui propose le plus d'emplois à la clef. Il est complètement polyvalent, rapide, et se prête au traitement des données et aux représentations graphiques.
Attention : si vous êtes pythonien, utilisez python ! Mais si vous voulez vous mettre uniquement à l'analyse de données, sans programmer des exécutables ou partager les calculs entre serveurs, en tant que scientifique, R est beaucoup plus simple ! Il vous faudra trois fois moins de lignes de codes pour arriver à un même résultat (cf. mon site à l'utilisation de R)
0- Installer python : suivre ce lien
Il est normalement possible de passer ensuite au point 1) pour installer des modules à partir de la commande Windows, mais si cela ne fonctionne pas : il faudra envisager alors de taper la commande py à la place de python. En cas de problème, vérifier que les répertoires où se situe python et python/Script sont enregistrés dans PATH (¨Paramètres systèmes avancés/Variables d'environnement)
1- Installer les modules. Après avoir installé python, ouvrir la console Windows et taper le code suivant pour installer tous les modules les plus pertinents pour l'analyse de données et le dataviz :
python -m pip install --user numpy sklearn scipy matplotlib ipython jupyter pandas sympy nose math easygui seaborn stats statistics maths mpl_toolkits dtreeviz statsmodels wordcloud squarify networkx gensim community python-louvain plotly
Remarque : si un module installé pose problème à l'importation, il faut le désinstaller et le réinstaller : exemple avec numpy :
pip uninstall numpy
pip install numpy
Code à copier-coller pour installer des modules :
pip install -U scikit-learn
Si une mise à jour de pip est nécessaire :
python -m pip install --upgrade pip
2- Installer puis utiliser IdleX (en cliquant sur idlex.py). IdleX permet d'avoir un IDE, une console pour programmer simplement : console à droite, script à gauche (ou l'inverse) PUIS F9 pour exécuter une ou plusieurs lignes. Code à taper dans la console.
python -m pip install idlex
Remarque : 2 autres raccourcis utile : ctrl+L pour nettoyer la console et ctrl+C pour casser une boucle qui refuse de s'interrompre.
En cas de difficultés : comment forcer l'installation ou la réparation d'un module défaillant :
pip install --upgrade setuptools
pip3 install matplotlib
pip uninstall matplotlib --force-uninstall
pip install --upgrade matplotlib --force-reinstall
pip install -r requirements.txt --ignore-installed
python -m venv matplotlib # Créer un environnement virtuel en dernier recours...
Problème d'installation pour scikit-learn (sklearn) ou autre.
Si une erreur type "No such file or directory" apparaît. Il faut aller dans le registre (regedit à chercher dans la barre windows), suivre ce chemin : HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystem, modifier le fichier LongPathEnabled d'un clique droit pour le mettre à 1.
Anaconda est pratique pour mettre en forme un script couplé à des commentaires, à du traitement de texte comme RmarkDown sous R. Pour installer, aller télécharger Anaconda et l'installer.
A titre personnel, je l'utilise pour exécuter jupyter avec la version python de mon choix depuis son exécuteur de commande.
Cette page récapitule comment prendre en main python, en particulier comment ouvrir ou créer des objets et les filtrer selon plusieurs critères.
Réaliser un traitement de données et visualiser ses résultats sous R, c'est aussi possible ! C'est plus simple mais plus lent.