Référentiels géographiques : la qualité des données est une affaire d’étapes

Fonctionnalités Geodata Tech stories

21 décembre 2020

Lecture : 9 minutes

Pauline

par

Pauline

Les clients d'Opendatasoft peuvent désormais s'appuyer sur un pack de référentiels géographiques fiables et structurés pour enrichir leurs propres données. Découvrez le travail entrepris pour harmoniser ces jeux de données de référence.

Si vous avez l’habitude de vous promener sur data.opendatasoft.com, notre Data Network, vous savez à quel point le catalogue de jeux de données est vaste et fourni. Il n’est pas rare de s’y perdre comme on se perdrait dans les allées d’une librairie, à la recherche de cet ouvrage de référence sur les sorcières dont on a beaucoup entendu parler et qu’on aimerait offrir à son petit-frère pour Noël.

Sur le Data Network, point de libraire en forme olympique, prête à faire le tour du magasin et des stocks souterrains pour vous aider à débusquer la perle rare. Non, chez Opendatasoft nous avons bien mieux : une équipe Data en forme géographique, qui a usé de son art pour fournir à nos clients et aux visiteurs du Data Network des données géographiques de référence, fiables et trouvables en deux temps trois mouvements.

Comment ? A l’aide de cette formule magique, georef-nomdupays (en anglais), à copier-coller directement dans le moteur de recherche de data.opendatasoft.com, complétée par les filtres Référentiels Géographiques et Geographical referentials pour le thème et Public pour le nom du portail.

Gif Geo Ref France

Ce projet d’harmonisation et de mise en qualité des référentiels géographiques est la première brique d’un projet plus global porté par les chasseuses de données d’Opendatasoft : proposer des packs de référentiels de données multi-thématiques et à jour, reposant sur une structure unifiée et reproductibles pour les différents pays. Plongeons ensemble dans les coulisses de ce projet structurant pour le Data Network et tous les portails de données réalisés avec la plateforme Opendatasoft.

Pourquoi démarrer le voyage par les référentiels géographiques ?

La géographie, star populaire et éternelle

En 2019, notre équipe a réalisé un audit interne du Data Network, et remarqué que les jeux de données dotés d’une dimension géographique - des points géolocalisés ou des contours visibles sur une carte par exemple - étaient les plus réutilisés. Le mot réutilisation s’applique ici au nombre de téléchargements comptabilisés pour le jeu de données, et/ou l’ajout de ce jeu de données dans le catalogue d’un autre portail grâce à la fonctionnalité de fédération. Il couvre aussi les nombreux traitements géographiques effectués à l’intérieur même de la plateforme par les utilisateurs.

Certaines données géographiques sont par ailleurs très utilisées par nos clients - administrations, collectivités et entreprises privées - pour compléter leurs propres données métiers avec des informations spatiales et statistiques. C’est notamment le cas des limites administratives qui permettent de dessiner les contours des différents niveaux territoriaux d’un pays : les régions, les départements, les communes et leurs arrondissements, etc.

Cette popularité des jeux de données géographiques dans les usages est un premier critère pour expliquer la priorisation des données spatiales par notre équipe, mais il n’est pas le seul. Le fonctionnement même de la plateforme Opendatasoft dépend de la qualité et de la fraîcheur des référentiels géographiques.

Les géo-référentiels : la mécanique du coeur de la plateforme

Trois services internes à la plateforme sont en effet concernés :

👉 La jointure géographique

Ce processeur permet de récupérer les formes géographiques correspondant aux divisions administratives d’un pays, à l’aide d’une clé de jointure officielle, compatible avec les données produites par les ministères et d’autres organisations : un code région ou un code commune par exemple.

Gif Geo Ref Jointures

👉 La récupération des divisions administratives d’un pays

Certains jeux de données sont parfois dépourvus de champs correspondant à des échelons territoriaux (communes, départements, régions, etc.), alors même qu’ils contiennent des coordonnées géographiques. Dans ce cas, le processeur est capable de récupérer le nom et la forme des divisions administratives manquantes, à partir des coordonnées.

👉 La navigation géographique

Cette fonctionnalité permet d’explorer un catalogue en filtrant les jeux de données par territoire. Lorsqu’un portail de données couvre plusieurs niveaux territoriaux, il est alors possible de monter ou descendre d’un niveau territorial à l’autre.

Pour que ce type de navigation soit pertinent, la couverture géographique associée à chaque jeu de données doit reposer sur un pack de divisions administratives de référence, qui prend en compte le découpage et les spécificités du pays : les intercommunalités en France par exemple. Il en va de même pour le fonctionnement des deux processeurs cités un peu plus haut.

Comment l’équipe ODS s’y est-elle prise pour mettre à jour les géo référentiels ?

Au fil des années et des ajouts consécutifs de données géographiques au Data Network, la pile de géo référentiels s’est considérablement agrandie jusqu’à devenir un peu trop chargée pour en garantir la parfaite pertinence. Il y a peu, on comptait pour la France plus de 80 jeux de données relatifs aux limites administratives par exemple.

Les personnes en quête de données géographiques réutilisables et de qualité - et parmi elles nos clients - se sont alors retrouvées face à un challenge : comment démêler le fiable du moins fiable dans ce vaste catalogue aux sources et dates de mise à jour multiples, et aux noms de jeux de données parfois discordants ?

Ce challenge de la qualité, de la fraîcheur et de la réutilisabilité, notre équipe Data a décidé de le relever en se fixant les objectifs suivants :


  • Structurer les différentes couches des pays avec la même stratégie.
  • Pour chaque niveau, consolider deux jeux de données - un jeu de données millésimé et un autre pour l’année la plus récente du jeu de données millésimé - à partir de plusieurs sources officielles. Par exemple, le jeu de données sur les communes françaises a été constitué grâce à la consolidation de données provenant de l’INSEE, de l’IGN et de Natural Earth.
  • Unifier le nom des référentiels pour qu’ils puissent être identifiés correctement peu importe l’endroit, que ce soit sur le Data Network ou dans l’interface des processeurs Opendatasoft concernés.
  • À l’intérieur de chaque niveau, unifier le nom des attributs et des champs pour qu’il n’existe pas de disparités de forme ou d’orthographe d’une division administrative à l’autre. Que l’on se trouve dans le référentiel sur les Cantons ou celui sur les départements et collectivités d’Outre-Mer en France, les identifiants des codes commune ou des codes département sont renseignés de manière identique : com_code et dep_code. Vous pouvez vérifier les correspondances dans l’onglet Informations > Modèle de données des deux jeux de données 🔎.
  • Maintenir ce pack de référentiels géographiques continuellement à jour pour assurer la fiabilité des informations qu’il contient.

Une stratégie : l’automatisation

Avec ces objectifs à l’esprit, notre équipe a fait le choix de mettre en place une usine de traitement de données (data pipeline) visant à stocker et préparer les données de référence avant leur publication. Répondant au doux nom de Dataseed 🌱, cette usine de traitement prend la forme d’une plateforme, laquelle permet d’automatiser un cycle d’opérations particulièrement fastidieuses et chronophages quand elles sont effectuées à la main sur un volume de données amené à s’étoffer.

Dataseed rend aujourd’hui possible l’automatisation des opérations suivantes :

  • La récupération des différentes données sources
  • L’orchestration des traitements apportés aux données sources
  • La vérification de la qualité des données : cette étape permet par exemple de s’assurer de la cohérence entre les différents niveaux territoriaux et les différentes sources de données, et de simplifier les formes géographiques pour une meilleure performance).
  • La création de référentiels consolidés à partir des données sources traitées et vérifiées
  • La livraison des référentiels vers les lieux d’exposition et de réutilisation

À leur sortie de la plateforme interne nommée Dataseed, les jeux de données de référence ne nécessitent plus aucune modification ou nettoyage à la volée. Toutes ces opérations ont été automatisées en amont pour que les référentiels de données chargés sur la plateforme Opendatasoft et sur le Data Network soient prêts à l'emploi.

Dans cette vidéo 👇 Audrey revient plus en détail sur la démarche de mise à jour des référentiels géographiques et le challenge technique qu’une telle initiative représente pour les équipes Opendatasoft.

Comment utiliser les référentiels géographiques ?

Plusieurs usages sont possibles :

👉 Télécharger un référentiel sur le Data Network ou l’utiliser dans un service externe grâce à l'interface de programmation applicative mise à disposition dans l’onglet API du jeu de données.

👉 Exposer le référentiel dans votre catalogue, filtré par exemple sur les communes de la région qui vous concerne, grâce à la fonctionnalité de fédération. Cette fonctionnalité consiste à aller chercher le jeu de données dans le catalogue du Data Network, directement depuis l’interface d’administration de votre portail Opendatasoft. Nul besoin de le télécharger pour le réimporter ensuite à la main dans votre propre catalogue. Ainsi, quand le jeu de données fédéré est mis à jour, votre catalogue en profite, sans rien faire.

👉 Enrichir un jeu de données existant de votre portail avec un référentiel grâce aux processeurs décrits plus haut (jointure géographique et divisions administratives). Pour en apprendre plus sur les jointures, vous pouvez suivre ce cours sur ODS Academy.

Gif Merlin Books

Et la suite ?

Plus de pays

À ce jour, les producteurs et réutilisateurs de données en Allemagne, au Canada, en France et au Mexique peuvent bénéficier de référentiels géographiques à jour. D’autres pays et notamment l’Australie, la Belgique et les Etats-Unis viendront compléter cette liste dans les mois à venir.

Plus de thématiques

Dans la continuité des référentiels géographiques, l’équipe Data planche d’ores-et-déjà sur la création de packs de référentiels pour d’autres thématiques pertinentes pour les métiers de nos clients. Au programme, des données de référence sur la démographie, le logement ou encore l’emploi.

Un accès simplifié aux référentiels

Les référentiels sont aujourd’hui découvrables dans le Data Network grâce à la recherche textuelle georef-nomdupays, à laquelle il faut ajouter un filtre sur le nom du portail (Public) et un autre sur le thème (Référentiels géographiques et Geographical Referentials). Cette méthode a fait ses preuves mais elle implique d’en connaître la marche à suivre. Pour une découvrabilité plus directe et immédiate, les géo référentiels seront prochainement ajoutés sur la page Référentiels du Data Network.

Cet objectif de visibilisation s’inscrit dans le cadre de la démarche de refonte du Data Network, dont la phase d’exploration à démarré au dernier trimestre de l’année 2020. Toute l’équipe Opendatasoft est sur le pont pour mettre sur pied et faire vivre un réseau qui puisse faire une place plus grande à l’usage concret des données ainsi qu’à la communauté de data enthousiastes qui les produit, les améliore, les partage et les utilise au quotidien.

D'autres articles écrits par cette plume

Catégories

Fonctionnalités Geodata Tech stories

Abonnez-vous
à notre newsletter