Opendatasoft x Odoxa : Observatoire 2023 de la démocratisation des données dans les organisations en France

En savoir plus
Glossaire

Jeu de données (dataset)

Un jeu de données, ou dataset, regroupe plusieurs données ayant un lien cohérent entre elles. Il se présente sous forme de tableau permettant d’analyser chaque donnée qui le compose.

Qu’est-ce qu’un jeu de données ?

Un jeu de données, ou dataset, regroupe plusieurs données ayant un lien cohérent entre elles. Il se présente sous forme de tableau permettant d’analyser chaque donnée qui le compose.

Chaque données peut être composée de texte, de chiffres, de coordonnées géographiques ou encore d’éléments multimédia (par exemple une image ou une vidéo).

Par exemple, un jeu de données créé par un acteur du retail comprendra des colonnes représentant des variables telles que les types de vêtements, les coloris et les niveaux de stock. Les lignes représentent les valeurs de chaque article.

Type

Coloris

Niveau de stock

Chemise 

Bleu

4

Chaussettes Noir

8

Chapeau

Vert

2

 

Pour décrire les données d’un ensemble de données, une hiérarchie qui va du plus petit au plus grand est appliquée :

  • Point de données : c’est le plus petit élément. « Chemise », « Noir » ou « 2 » sont tous des points de données dans le tableau ci-dessus.
  • Objet de données : il s’agit d’une collection de points de données groupés, apparentés entre eux et qui vont ensemble. Par exemple, « Chemise bleue avec 4 exemplaires en stock » est un objet de données.
  • Jeu de données : ce sont toutes les données du tableau.

Chaque point de données de l’ensemble de données peut être consulté individuellement et tous les points de données partagent le même thème. Dans l’exemple ci-dessus, tous les points de données désignent le stock de vêtements.

Différents ensembles de données peuvent être apparentés, leurs relations étant décrites à l’aide de schémas de données. Dans notre exemple, un deuxième jeu de données pourrait inclure la date et le prix de vente de l’un des vêtements du premier ensemble de données. Le schéma de données explique la relation entre les deux ensembles de données.

Comment réutiliser un dataset ?

Les jeux de données ont vocation à être partagés, que ce soit en interne ou vers l’externe. Il doivent donc être accompagnés d’une série d’éléments et d’outils permettant leur réutilisation.

Les métadonnées

Il s’agit de toutes les informations relatives au dataset : licence, date de création/modification, producteur, modèle de donnée utilisé, etc. Ces informations permettent de rassurer le réutilisateur sur la fiabilité du jeu de données. Certains secteurs d’activité nécessitent l’utilisation de métadonnées spécifiques pour répondre aux besoins d’interopérabilité.

Les data visualisation

Sous sa forme brute, un dataset peut être difficile à analyser. C’est pourquoi la plupart des jeux de données qui sont partagés par les organisations sont accompagnés de data visualisation, ou du moins d’outils permettant d’en créer. On peut ainsi avoir une des vues simples comme des cartes ou graphiques, ou des formats plus avancés tels que des dashboards ou data stories.

Les APIs

Indispensables pour récupérer des grands ensembles de données en temps réel, les APIs sont généralement fournies par les producteurs des datasets. Une fois connectées, elles permettent de récupérer des informations toujours à jour.

Comment sont utilisés les jeux de données ?

La création de datasets est essentielle pour créer de la valeur à partir des données. Par conséquent, le nombre et la taille des ensembles de données qu’une organisation a collectés et mis à disposition en interne et en externe donne une mesure de l’avancement de sa stratégie de partage des données.

Les ensembles de données peuvent être utilisés de nombreuses façons.

Pour un usage interne

  • Par des spécialistes des données : les jeux de données peuvent être stockés dans des data lake, puis analysés et interrogés avec des outils de business intelligence.
  • En libre-service : ils peuvent être mis à la disposition de tous les collaborateurs de l’organisation par le biais d’un catalogue de données, ce qui permet de les utiliser pour améliorer le processus décisionnel et l’efficacité opérationnelle.
  • Pour entraîner une IA : l’entraînement des algorithmes de machine learning nécessite l’accès à de très grands volumes de données, provenant d’un ou plusieurs datasets.

Pour un usage externe

  • Via des portails open data : pour communiquer en toute transparence sur diverses thématiques, de nombreuses organisations ouvrent des portails open data avec plusieurs datasets à disposition.
  • Pour des hackathons : la publication de datasets spécifiques et l’autorisation de les utiliser pour des hackathons ou des concours ouvre la porte à une innovation au sein de tout un écosystème.

Pour créer de nouveaux services

  • Avec un écosystème spécifique : les datasets peuvent être partagés en externe avec des partenaires afin d’enrichir la connaissance de toutes les parties prenantes. La Marketplace Exchange de Schneider Electric partage 195 ensembles de données liés à l’énergie avec 540 utilisateurs de 200 entreprises, ce qui lui permet d’offrir plus de valeur à ses partenaires et de lancer de nouveaux services de données.

Demandez une démo de la solution Opendatasoft et créez les meilleures expériences data

En savoir plus

Data Lake, data warehouse : quelle solution de stockage choisir pour valoriser vos données ? Transformation numérique
Data Lake, data warehouse : quelle solution de stockage choisir pou...

Découvrez dans cet article les différents types de solutions de stockage de données disponibles (Data Lake ou Data Warehouse), leurs inconvénients et avantages pour votre organisation.

Open data maturity report : quelle est la maturité des pays européens ? Tendances
Open data maturity report : quelle est la maturité des pays europée...

Découvrez ce qui ressort du rapport 2022 sur la maturité des pays européens en matière d’open data publié en décembre dernier par la Commission européenne.

6 prévisions pour une meilleure gestion des données en 2023 Tendances
6 prévisions pour une meilleure gestion des données en 2023

Quelles sont les tendances clés à connaître dans le monde de la data en 2023 ? Découvrez dans cet article de blog les prévisions de différents experts, notamment Forrester, Gartner et McKinsey.

Data Lake, data warehouse : quelle solution de stockage choisir pour valoriser vos données ? Transformation numérique
Data Lake, data warehouse : quelle solution de stockage choisir pou...

Découvrez dans cet article les différents types de solutions de stockage de données disponibles (Data Lake ou Data Warehouse), leurs inconvénients et avantages pour votre organisation.

Open data maturity report : quelle est la maturité des pays européens ? Tendances
Open data maturity report : quelle est la maturité des pays europée...

Découvrez ce qui ressort du rapport 2022 sur la maturité des pays européens en matière d’open data publié en décembre dernier par la Commission européenne.

6 prévisions pour une meilleure gestion des données en 2023 Tendances
6 prévisions pour une meilleure gestion des données en 2023

Quelles sont les tendances clés à connaître dans le monde de la data en 2023 ? Découvrez dans cet article de blog les prévisions de différents experts, notamment Forrester, Gartner et McKinsey.

Commencez à créer vos expériences data

Demander une démo