Données manquantes sous python

Identification des données manquantes

# Contrôler la présence de nan (ne marche pas si présence de None)

x = [2,3,4,np.nan,6] # Donnée non-numérique : np.nan - None et NA non autorisé au format numpy

retour = [np.isnan(valeur) for valeur in x]

print( retour )


# Contrôler la présence de NA et NaN

x = [2,3,4,None,np.nan,6,NA] # Donnée non-numérique : np.nan ou None ou NA

from pandas import *

print( isnull(x) )


# Contrôler la présence d'au moins une valeur nulle

print( any(isnull(x)) )


# Contrôler la présence d'une liste entièrement constitué de manquantes

print( all(isnull(x)) )


# Effacer toutes les valeurs manquantes

df.dropna() # S'applique aux objets pandas : suivre le lien ci-dessous

Attention. Le nettoyage des données manquantes se fait sans réindexation de la data.frame, cela peut faire planter de nombreuses fonctions (ex : biplot) et nécessite une réindexation :

df = df.reset_index(drop=True)

Nettoyage et identification des données manquantes sous pandas : suivre ce lien interne.