Données manquantes sous python
Identification des données manquantes
# Contrôler la présence de nan (ne marche pas si présence de None)
x = [2,3,4,np.nan,6] # Donnée non-numérique : np.nan - None et NA non autorisé au format numpy
retour = [np.isnan(valeur) for valeur in x]
print( retour )
# Contrôler la présence de NA et NaN
x = [2,3,4,None,np.nan,6,NA] # Donnée non-numérique : np.nan ou None ou NA
from pandas import *
print( isnull(x) )
# Contrôler la présence d'au moins une valeur nulle
print( any(isnull(x)) )
# Contrôler la présence d'une liste entièrement constitué de manquantes
print( all(isnull(x)) )
# Effacer toutes les valeurs manquantes
df.dropna() # S'applique aux objets pandas : suivre le lien ci-dessous
Attention. Le nettoyage des données manquantes se fait sans réindexation de la data.frame, cela peut faire planter de nombreuses fonctions (ex : biplot) et nécessite une réindexation :
df = df.reset_index(drop=True)