25 avril 2024 - Rencontre administration centrale et services déconcentrés : comment mieux intégrer les données au service des politiques publiques ?

S'inscrire
Glossaire

Nettoyage des données (Data cleaning)

Le nettoyage des données (ou data cleaning) est le processus de détection et de correction des données incorrectes, incomplètes, en double, inutiles ou invalides dans un jeu de données.

Qu’est-ce que le nettoyage des données ?

Le nettoyage des données consiste à détecter et à corriger les données incorrectes, incomplètes, en double, inutiles ou erronées dans un jeu de données. Cette étape intervient lors de la préparation des données et se distingue de l’enrichissement des données, qui vise à donner plus de contexte, par exemple en ajoutant des informations géographiques.

Le nettoyage des données peut être effectué manuellement, en mettant à jour et en corrigeant les champs, ou en utilisant des outils de nettoyage des données qui automatisent le processus

Dans certains cas, le nettoyage des données se réfère uniquement à la suppression (plutôt qu’à la détection) de données en double, mauvaises, inutiles ou anciennes dans les ensembles de données.

Pourquoi le nettoyage des données est-il important ?

Le “Data cleaning” est fondamental pour garantir une haute qualité des données, afin que les informations soient exactes, cohérentes et puissent être utilisées en toute confiance dans toute l’organisation et au-delà. Sans un nettoyage des données efficace, les décisions commerciales peuvent reposer sur des valeurs inexactes.

Quels sont les avantages du data cleaning ?

Pour que les données soient au cœur des opérations commerciales et de la transparence dans les organisations, il est essentiel de s’assurer qu’elles sont exactes et exploitables. Le nettoyage des données apporte donc 5 bénéfices spécifiques :

  • Une meilleure prise de décision, plus rapide et mieux informée. Si les données ne sont pas nettoyées, il peut se produire des erreurs qui impactent l’exactitude de la prise de décision. C’est souvent le cas lorsque les données sont utilisées avec des algorithmes d’IA, sans surveillance humaine.
  • Plus de confiance et d’assurance grâce à des données de haute qualité. Les employés et les citoyens doivent être sûrs que les données auxquelles ils accèdent sont exactes, sinon ils ne les utiliseront tout simplement pas.
  • Un gain de temps qui permet d’économiser du temps et des ressources car le temps dédié à la correction d’erreur est considérablement réduit
  • Une plus grande productivité car les employés peuvent se concentrer sur la prise de décision, plutôt que de rechercher des erreurs dans leurs ensembles de données.
  • Des coûts de données réduits grâce à la suppression des doublons et des enregistrements inexacts, ce qui réduit les besoins en stockage et conduit à des temps de traitement plus rapides pour les ensembles de données.

Comment obtenir des données de qualité ?

La qualité des données peut être mesurée à l’aide des caractéristiques suivantes :

  • Précision : les données représentent-elles correctement ce qu’elles mesurent ?
  • Cohérence : les données sont-elles cohérentes dans les différents datasets présents dans l’organisation ?
  • Validité : les données respectent-elles les paramètres ou les règles définis ? (format, sources, etc).
  • Complétude : y a-t-il des lacunes dans les données et cela peut-il être corrigé avec des données provenant d’autres sources ?
  • Uniformité : les données ont-elles été collectées et représentées en utilisant les mêmes unités et échelles ? Par exemple, les mesures sont-elles en pouces et en pieds ou en mètres et en centimètres ?

Quels types d’erreurs le nettoyage des données corrige-t-il ?

Voici des exemples d’erreurs courantes qui peuvent être découvertes et corrigées dans le cadre du processus de nettoyage des données :

  • Données manquantes ou invalides – détecter les lacunes dans les champs ou les données au mauvais format (comme une valeur numérique dans un champ de texte).
  • Fautes de frappe – fautes d’orthographe ou autres erreurs typographiques
  • Incohérences – des champs communs (tels que des adresses ou des noms) qui sont formatés ou décrits différemment entre les différents datasets.
  • Doublons – plusieurs enregistrements relatifs à la même chose (comme un client). Cela se produit souvent lorsque différents jeux de données sont fusionnés.
  • Données non pertinentes – les données dont l’organisation n’a pas besoin. Par exemple, une municipalité peut importer un dataset à l’échelle de l’État, mais ne souhaite utiliser que les données qui la concernent.

Comment fonctionne le processus de nettoyage des données ?

Bien que le processus de nettoyage des données varie en fonction de l’organisation, des outils utilisés et des données elles-mêmes, il couvre normalement ces 5 étapes :

1. Audit des données pour inspecter les données et identifier les anomalies et les problèmes, qui sont ensuite traités dans l’ordre ci-dessous

2. La suppression des données/enregistrements en double ou non pertinents

3. Correction des erreurs structurelles, telles que les incohérences entre les champs

4. Traitement des éléments de données manquants, par exemple en comparant avec d’autres sources de données

5. Vérification pour s’assurer que toutes les erreurs ont été supprimées et que les données répondent aux normes internes de qualité

En fonction de la taille et de la complexité des ensembles de données, le processus de nettoyage des données utilisera une combinaison d’outils automatisés, de supervision et de saisie manuelles et humaines.

Ebook : Démocratiser l'accès et les usages de la donnée

En savoir plus
Gestion des métadonnées : gagnez en efficacité avec les templates sur mesure d’Opendatasoft Produit
Gestion des métadonnées : gagnez en efficacité avec les templates sur mesure d’Opendatasoft

Apprenez-en plus sur les modèles de métadonnées mis à disposition par Opendatasoft pour améliorer la qualité et la conformité de vos données et augmenter votre efficacité et vous permettre de gagner du temps au quotidien.

Qu’est-ce qu’une Smart City ? Introduction à la ville intelligente Tendances
Qu’est-ce qu’une Smart City ? Introduction à la ville intelligente

Les villes et municipalités du monde entier se transforment en villes intelligentes, ou Smart Cities, améliorant l'environnement urbain pour les citoyens, les visiteurs et les organisations. Apprenez-en plus sur ce concept et découvrez toutes les bonnes pratiques pour construire une Smart City.

Portails data internes ou espaces de données : les bénéfices pour les collectivités territoriales Accès aux données
Portails data internes ou espaces de données : les bénéfices pour les collectivités territoriales

Les agents opérant au service des villes et des municipalités doivent bénéficier d’un accès facilité et sécurisé à des données fiables afin d’être plus efficaces dans leurs missions quotidiennes et de prendre de meilleures décisions pour améliorer la vie des résidents et créer de nouveaux services innovants. Découvrez comment les portails internes ou espaces de données répondent à ces objectifs.

Gestion des métadonnées : gagnez en efficacité avec les templates sur mesure d’Opendatasoft Produit
Gestion des métadonnées : gagnez en efficacité avec les templates sur mesure d’Opendatasoft

Apprenez-en plus sur les modèles de métadonnées mis à disposition par Opendatasoft pour améliorer la qualité et la conformité de vos données et augmenter votre efficacité et vous permettre de gagner du temps au quotidien.

Qu’est-ce qu’une Smart City ? Introduction à la ville intelligente Tendances
Qu’est-ce qu’une Smart City ? Introduction à la ville intelligente

Les villes et municipalités du monde entier se transforment en villes intelligentes, ou Smart Cities, améliorant l'environnement urbain pour les citoyens, les visiteurs et les organisations. Apprenez-en plus sur ce concept et découvrez toutes les bonnes pratiques pour construire une Smart City.

Portails data internes ou espaces de données : les bénéfices pour les collectivités territoriales Accès aux données
Portails data internes ou espaces de données : les bénéfices pour les collectivités territoriales

Les agents opérant au service des villes et des municipalités doivent bénéficier d’un accès facilité et sécurisé à des données fiables afin d’être plus efficaces dans leurs missions quotidiennes et de prendre de meilleures décisions pour améliorer la vie des résidents et créer de nouveaux services innovants. Découvrez comment les portails internes ou espaces de données répondent à ces objectifs.

Commencez à créer vos expériences data
Demander une démo