Collecte, enrichissement, réutilisation … tirez profit de la valeur de vos données

Evénements Data tips

21 mai 2021

Lecture : 6 min

Dans cet article, vous retrouverez nos bonnes pratiques partagées sur les sujets de collecte, valorisation et enrichissement des données.

Nous avons eu le plaisir d’intervenir lors d’un webinar organisé par Quantmetry dans le cadre du “Journal Club” qui propose à des experts de présenter leurs savoir-faire sur des sujets liés aux nouvelles technologies. 

Lors de la préparation de cette prise de parole, nous avons demandé aux équipes de Quantmetry ce qui leur semblait intéressant de présenter à leur public, souvent composé d’experts ou de consultants en data analyse. Ils nous ont répondu que la force de notre plateforme Opendatasoft était notre capacité à donner de la valeur aux données via les data visualisations automatiques et les API qui favorisent leurs réutilisations. 

C’est donc tout naturellement que nous leur avons proposé d’axer le webinar sur ce sujet. 

Dans cet article, vous retrouverez les bonnes pratiques partagées par Philippe Vaillant - Customer Success Team Leader for Public Sector - et Nicolas Lourié - Account Executive - chez Opendatasoft sur les sujets de collecte, valorisation et enrichissement des données. 

Si vous préférez regarder la vidéo de leur intervention, vous pourrez y accéder par ICI

Rendre les données exploitables dès leur collecte 

Le premier sujet abordé a été la collecte des données. 

C’est une étape incontournable dans vos projets de partage de données, surtout quand on sait que 80% du travail d'un.e data scientist ou d'un.e analyste de données consiste à nettoyer et transformer ces données pour les rendre exploitables

Le premier conseil que nous a partagé Philippe est de “réfléchir au schéma de données” qui représente une étape “cruciale”. Cela sous entend de se poser la question : quel objet est décrit dans mon jeu de données ? La réponse aura un impact sur les informations qui devront figurer dans mon fichier (quelles colonnes). 

Pour arriver à savoir quelles données partager et comment, rien de plus simple ! Lisez notre guide sur les 10 points pour ouvrir ses données

Le deuxième conseil partagé par Philippe est de bien travailler sa donnée avant publication. Pour cela il faut rendre la donnée brute. Comme le résume Philippe :

“Une donnée de qualité, c'est une donnée avec un schéma de données clair, structuré et c'est une donnée qui n'est pas mise en forme.” 

Contrairement à ce que l’on pourrait penser, la donnée la plus facilement exploitable n’est pas celle qui aura été la plus travaillée, dans un fichier excel compliqué composé de calculs ou mis en forme.  

Qu’est ce que cela signifie ? Il faut que la donnée soit “sèche, aride” pour être interopérable selon les mots de notre expert. 

Plus elle sera simple, plus elle sera facile à utiliser. En plus d’un contenu simple, les libellés des colonnes doivent être clairs et précis. Et au sein des colonnes, il faut que le contenu soit aussi d’une seule typologie : des dates, une chaîne de caractères, un chiffre mais pas de mélange de chiffres + caractères par exemple. 

Pour plus de bonnes pratiques sur la manière de rendre des données brutes, parcourez cet article de Datactivist sur le formatage des données

Bien entendu, le format de saisie et d’import est aussi essentiel. Philippe précise qu’il est important que vous choisissiez un format interopérable. Pour une table simple, il faut donc préférer un CSV à un XLS. Le CSV est un format ouvert, non propriétaire. Notons qu'une fois qu'un jeu de données est publié sur la plateforme Opendatasoft, parfois à partir simplement de capteurs IOT, les données sont restituées sous formes d'API, et exportables dans de nombreux formats (CSV, JSON, XML, etc.). L'interopérabilité est donc décuplée une fois que la donnée est sur la plateforme.

giphy

Si vous n'êtes pas encore au point sur les API, cet article pourra vous éclairer.

Dernier conseil concernant la collecte des données ! Il est possible que différents acteurs fournissent la donnée. C'était le cas dans les exemples présentés lors de notre webinar de mars sur les données agricoles. En effet, pour la plateforme Frais et Local, les données provenaient de différentes plateformes en lien avec les producteurs locaux. 

Si ce cas de figure se présente, l’astuce est de définir et de partager un schéma de données simple et que chacun des acteurs devra remplir. Cela assurera que l’ensemble des données nécessaires à votre jeu de données soient bien collectées via l’ensemble des fournisseurs de données. 

Philippe conseille aussi de “prévoir des propriétés facultatives dans le cas où certains acteurs sont plus en capacité d'avoir une donnée plus détaillée que d’autres acteurs, mais il faut absolument éviter les schémas différents d'un acteur à l'autre.”

Enrichissez vos données et vos portails de données grâce à l'open data 

Nous parlions un peu plus haut des schémas de données et de la définition de l’objectif du jeu de données pour savoir quelles informations seraient nécessaires. 

Parfois, les informations dont nous pourrions avoir besoin ne sont pas en notre possession. Que ce soient des données produites par d’autres parties prenantes ou par des institutions plus globales (données géographiques par exemple), il est toujours possible de les agréger et de les intégrer dans un jeu de données. 

Pour cela, Philippe conseille dès la création du jeu de données - dans une logique d’interopérabilité -, de “réfléchir à des colonnes pivot, qui vont permettre l'enrichissement à partir d'autres référentiels. Ces colonnes pivot peuvent être des codes Insee, des codes métiers, etc.”

Si vous vous demandez où trouver des données propres et utilisables pour enrichir vos données, explorez notre réseau de données ouvertes, le data network. Il propose plus de 22 000 jeux de données en open data, interopérables et facilement réutilisables.

Et si vous voulez en savoir plus sur la création du data network, n'hésitez pas à lire cet article

Capture d’écran 2021-05-10 à 14.30.18

Outre le grand nombre de jeux de données, de nombreux paramètres rendent le data network d'Opendatasoft unique. 

Vous y trouverez par exemple, les bases nationales améliorées. Philippe nous explique que la base Sirène a été améliorée grâce à des données de géolocalisation, l’ajout de libellés des codes d’activités, des noms de départements et de régions auxquelles appartiennent les établissements. La démarche va plus loin que le seul regroupement de jeux de données en un seul et même endroit, et permet à tout le monde d’enrichir ses données en intégrant des données de la base Sirène. 

De même, vous pouvez facilement ajouter des données de géolocalisation à vos jeux de données grâce à la Base d’Adresse Nationale. 

Autre exemple cité par Philippe : celui des jeux de données disponibles en open data mais qui ne sont pas disponibles dans des formats interopérables, ce qui les rend difficilement manipulables. Pour pallier cela, ces jeux de données sont rendus réutilisables. C’est le cas de la base Sit@del - la base de logements - disponible uniquement sur le logiciel Beyond 20/20, et qui sur le Data Network est réutilisable en CSV, en XLS, en JSON, etc. 

En plus de tous ces jeux de données améliorés ou rendus accessibles, Philippe ajoute que sur le réseau de données ouvertes, vous pourrez également trouver des jeux de données de clients d’Opendatasoft, lorsque ceux-ci “peuvent apporter de l'intelligence aux autres organisations”. Il nous cite par exemple : “la base des équipements sportifs, les projets environnementaux, les données de la culture, etc. Le référentiel des codes postaux est ainsi utilisé par de très nombreux clients et provient directement du portail Datanova de La Poste.”

L’ensemble de ces données sont accessibles et facilement réutilisables en fonction de vos besoins. Pour illustrer avec un dernier exemple concret, Philippe ajoute que le data network publie depuis récemment des jeux de données sur la crise sanitaire.

En effet, durant la crise sanitaire, Opendatasoft a recensé et proposé en open data les bases de données covid, vaccins, hospitalisations, etc. Et permet même aux collectivités de créer leur propre dashboard à leur échelle pour partager les données à leurs citoyens. 

Que les territoires disposent ou non de données, ils avaient la possibilité d’utiliser les données publiques de leur région disponibles sur le data network pour créer leur propre tableau de bord et mieux informer leur communauté. 

Pour en savoir plus, c’est ici

La réutilisation des données, moteur de l'innovation 

La réutilisation des données est à la fois un outil témoignant d’une plus grande transparence de l’organisation et de sa modernisation, et un facteur de développement, assurant une croissance économique et une innovation technologique censées profiter aux citoyens. 

Pour arriver à favoriser les réutilisations (et en même temps l’innovation), il faut se rendre compte que les réutilisateurs ne sont pas un public homogène. 

Pour les publics comme les services communication, les journalistes, le grand public ou les services métiers, ce qui les intéressent ce sont souvent les éditeurs de cartes, les graphiques …. Le but pour ces réutilisateurs est de leur fournir des outils simples, sans code, pour que ces non experts data puissent trouver des réponses à leurs questions et puissent comprendre, vérifier et réutiliser les datavisualisations sur leur propres sites ou applications. 

Citons le cas de l’association Handipressante qui a développé en lien avec la ville de Quiberon une application permettant d’avoir les données sur les toilettes publiques accessibles aux personnes à mobilité réduite. Vous trouverez plus d’informations sur cette initiative ICI

Face à un public aux usages plus avancés comme les entreprises, les data scientists, les chercheurs ou les développeurs, Opendatasoft propose des APIs, sous différents standards et formats, avec les consoles API associées.  Pour les acteurs de la datavisualisation, Philippe nous précise que des SDK (Software Development Kits) sont en cours de création, lesquels qui visent à faciliter la création de data visualisations. 

giphy-1

Ces éléments ont permis le développement d’applications et de services qui sont mis en avant sur certains portails. C’est ce qu'expliquait Gabriel Dos Santos de Bordeaux Métropole durant notre webinar du mois de janvier "comment utiliser la donnée pour mieux gérer son territoire". 

Sur le portail Open Data de Bordeaux Métropole, vous trouverez une page entièrement dédiée aux réutilisations : elle est accessible ici.

Ces réutilisations ont permis de créer de nouveaux services. Gabriel citait par exemple deux applications qui ont vu le jour sur le territoire bordelais grâce à la donnée. 

👉 Citymapper qui permet de trouver le meilleur itinéraire sur tous les modes de déplacement en un clin d'œil.

👉Cocoparks qui permet de trouver une place de stationnement rapidement en réduisant le temps de circulation donc d’occupation de la voirie et des émissions à effet de serre.

Un autre usage intéressant est celui de Qucit qui a développé un produit appelé Qucit Bike pour Cycleo, l’opérateur du vélo en libre service sur Bordeaux Métropole. Grâce à la donnée libérée sur les capacités en temps réel des stations de vélo, le service permet à Cycleo d’améliorer l’efficacité des tournées de rééquilibrages des stations (saturées versus vides). 

Pour en savoir plus sur l’open data au sein de Bordeaux Métropole, lisez cet article ou regardez le replay de notre webinar. 

Philippe conclut en nous conseillant de nous rendre sur ODS Academy et de réaliser un des parcours dédié aux réutilisateurs de données

Pour en savoir plus et découvrir toujours plus d’histoires clients ou de portails, n’hésitez pas à nous contacter

Contactez-nous !

D'autres articles écrits par cette plume

Catégories

Evénements Data tips
White paper
Ut ante sit amet luctus,
fermentum ante.
Download White Paper
white--paper

Abonnez-vous
à notre newsletter