Language

[Replay] Data Product Marketplace : Build ou Buy ?

Visionner le replay

Qu'est-ce qu'un data catalog ? - Guide pratique

1.Qu’est-ce qu’un data catalog ?

Définir un data catalog

Un data catalog, ou catalogue de données, fournit un inventaire de toutes les données d’une organisation, y compris leur emplacement de stockage et leurs formats. Il identifie, organise et décrit ces actifs de données à l’aide de métadonnées complètes. Cela permet aux organisations d’avoir une vue d’ensemble complète de l’ensemble de leur patrimoine data.

Un data catalog permet aux experts techniques et aux spécialistes de la donnée d’identifier, en temps réel, l’ensemble des données dont dispose une organisation. Cela les aide à repérer et à se concentrer sur les données pertinentes, favorisant ainsi leur réutilisation et améliorant leur gestion. Le data cataloging est donc une composante essentielle de la gestion des données.

À l’image d’un index dans un livre ou d’un catalogue dans une bibliothèque, il permet à un lecteur de savoir où un terme spécifique est mentionné ou où se trouve un livre, grâce à une recherche ou une navigation. Il est important de comprendre qu’un data catalog traditionnel ne stocke pas les données et n’y donne pas directement accès : il indique simplement à l’utilisateur où les trouver, via la recherche, des filtres ou des thématiques.

Les data catalogs ont été initialement déployés dans le cadre d’initiatives de gouvernance et de conformité des données, permettant aux organisations de visualiser précisément le contenu de leur patrimoine data, de s’assurer qu’il est bien géré, stocké de manière sécurisée et sans duplication. Une fois cet inventaire en place, de nombreuses organisations ont élargi ses fonctionnalités pour aider les utilisateurs à se connecter plus facilement aux données.

2.Pourquoi utiliser un data catalog ?

Aujourd’hui, chaque organisation génère et collecte des volumes de données en constante augmentation, provenant de sources très diverses : applications d’entreprise comme les ERP et les CRM, sites web, plateformes publicitaires, capteurs de l’Internet des Objets (IoT), entrepôts de données, données de partenaires ou de clients. Ces données sont généralement réparties dans toute l’entreprise, souvent générées au sein de départements ou d’unités métier spécifiques. Elles peuvent prendre la forme de jeux de données bruts ou d’actifs de données tels que des data products ou des visualisations. Résultat : il n’existe généralement pas de vue unifiée et cohérente de l’ensemble du paysage data.

Cela pose trois défis majeurs :

  • Conformité. Il est impossible de garantir que les données sont stockées et protégées conformément aux réglementations (comme le RGPD ou le CCPA) si l’organisation ne sait pas où elles se trouvent ou qui y a accès. Par exemple, des données clients peuvent être stockées sur un serveur local dans une agence sans aucune gestion de la sécurité ou des accès, si l’équipe IT centrale n’en a pas connaissance.
  • Duplication. Des données similaires, voire identiques, peuvent être stockées à différents endroits de l’entreprise. Cela consomme de l’espace de stockage inutilement, réduit l’efficacité et complique la protection des données. Plus important encore, cela signifie qu’il n’existe pas de version unique et fiable de la vérité : différentes équipes peuvent s’appuyer sur des versions divergentes d’un même actif, créant confusion et incohérence. Les utilisateurs ne feront tout simplement pas confiance aux données – et donc ne les utiliseront pas.
  • Accès. Les données sont enfermées dans des silos, dans des outils ou applications spécialisés, et sont invisibles ou inaccessibles aux autres utilisateurs métier. Elles ne peuvent pas être facilement trouvées ou utilisées, ce qui freine la consommation et la démocratisation des données. Si un utilisateur ignore l’existence d’un actif data, il ne pourra pas s’en servir.

Le data catalog est conçu pour répondre à ces défis, en fournissant un inventaire centralisé de toutes les données. Les utilisateurs peuvent naviguer ou effectuer des recherches pour trouver les informations pertinentes, ainsi qu’examiner les métadonnées de jeux de données ou d’autres actifs. Ils peuvent voir qui possède les données et où elles sont stockées. Les data catalogs visent à rendre la gestion des données fluide et efficace, en donnant aux équipes techniques une liste complète et à jour de l’ensemble de leur patrimoine data.

Cependant, les data catalogs ne donnent pas accès directement aux données sous-jacentes. Une fois les données identifiées, l’utilisateur doit faire une demande au propriétaire ou au producteur pour y accéder. Le data cataloging constitue donc la première étape du partage de données et de la valorisation de celles-ci. À lui seul, il ne permet pas de généraliser la consommation des données à l’échelle de l’entreprise.

 

3.Quelles fonctionnalités un data catalog doit-il avoir ??

Pour répondre aux besoins des équipes data, un data catalog efficace doit proposer cinq capacités clés :

  1. Être exhaustif, en couvrant l’ensemble des données de l’organisation. Un data catalog incomplet, qui omet certains actifs, ne sert pas les équipes data.
  2. Être fiable. En plus d’être complet, il doit fournir des informations détaillées sur les données qu’il contient (comme leur origine, leur propriétaire, leur fréquence de mise à jour) pour que les utilisateurs aient confiance dans le contenu et la qualité des actifs.
  3. Être mis à jour en continu pour intégrer les nouveaux actifs de données créés dans l’entreprise.
  4. Être facilement consultable, afin que les données pertinentes puissent être rapidement retrouvées. Cela repose principalement sur des métadonnées précises, respectant des standards communs.
  5. Être accessible aux humains comme à l’intelligence artificielle. Les AI data catalogs aident les organisations à identifier et sélectionner les données pertinentes pour entraîner des agents et modèles IA, en maximisant précision et valeur.

Pour offrir ces capacités, un data catalog doit donc inclure les fonctionnalités suivantes :

Métadonnées complètes

Ces « données sur les données » doivent décrire le contenu d’un jeu de données, afin de simplifier la compréhension et l’organisation de l’information. Il est essentiel que ces métadonnées soient exhaustives et complètes, pour fournir tout le contexte nécessaire autour d’un jeu de données et en faciliter la recherche.

Les métadonnées techniques, métier et opérationnelles doivent inclure des informations telles que : le format, l’origine, la date de création, le propriétaire, ainsi que les éventuelles transformations appliquées. Elles doivent suivre un schéma de métadonnées standardisé, qu’il soit développé en interne ou basé sur un standard externe (comme Dublin Core), afin d’assurer la cohérence en interne et avec les partenaires externes.

Le data catalog doit appliquer des contrôles de qualité sur les métadonnées pour garantir qu’elles soient complètes, correctement étiquetées et exactes

Fonctionnalité de recherche puissante

Étant donné le grand nombre d’actifs de données inventoriés dans le data catalog, il doit être facile pour les utilisateurs de trouver ceux qu’ils recherchent. Le data catalog doit permettre une recherche simple et efficace par mots-clés, thématiques ou termes métiers, ainsi que l’application de filtres (par exemple : propriétaire des données, format ou date de mise à jour) pour affiner les résultats.

Il doit également offrir la possibilité de naviguer dans les données, en particulier par thème, afin de visualiser l’ensemble des données liées à un sujet ou un domaine spécifique.

4.Qui utilise un data catalog ?

Les data catalogs traditionnels sont des outils techniques, utilisés par des experts tels que les data stewards, les équipes de gouvernance des données et les data engineers. Leur utilisation nécessite une formation et une connaissance des concepts liés aux données afin de pouvoir trouver et gérer l’information dans le data catalog. De plus, leur interface est souvent technique, basique, peu intuitive et difficile à utiliser.

Cela rend la navigation compliquée pour les non-spécialistes, comme les utilisateurs métiers, les empêchant d’utiliser le data catalog de manière autonome et en toute confiance.

En résumé, ces outils sont tout simplement trop complexes pour les équipes métiers, ce qui freine leur adoption à grande échelle. Cela est d’autant plus vrai que le data catalog ne donne pas d’accès direct aux données, ce qui limite l’intérêt perçu par les utilisateurs non techniques.

5.Quels sont les avantages d’un data catalog ?

En fournissant une vue complète de toutes les données de l’organisation, un data catalog facilite la compréhension et la gestion de l’ensemble du patrimoine data. Comprendre les données que possède l’organisation est la première étape pour pouvoir les exploiter efficacement.

Un data catalog complet apporte donc de nombreux bénéfices aux organisations :

  • Il soutient une gouvernance solide grâce à un catalogue centralisé de toutes les données, renforçant le contrôle, la sécurité et réduisant les risques
  • Il facilite la conformité réglementaire en fournissant une vision complète du paysage data
  • Il aide à identifier les duplications, améliorant ainsi l’efficacité opérationnelle
  • Il brise les silos entre équipes et départements, permettant un partage transparent des données dans toute l’organisation
  • Il crée un langage commun autour des données et de leur description, favorisant une plus grande cohérence
  • Il rend les données plus accessibles à tous les niveaux de l’organisation, amorçant la démocratisation des données
  • Il renforce la confiance dans les données en les rendant plus faciles à découvrir et à comprendre
  • Il fait gagner du temps aux collaborateurs, en particulier aux experts data, en simplifiant l’accès aux informations
  • Il standardise les données, en les présentant selon des termes et formats cohérents, compréhensibles par tous
  • Il soutient une meilleure prise de décision, par les humains comme par l’IA, en donnant accès à des données pertinentes issues de toute l’entreprise
  • Il offre une meilleure visibilité sur les flux de données et leur usage grâce à la traçabilité (data lineage)
  • Il permet l’automatisation de la découverte de données, du profiling et de l’enrichissement des métadonnées, faisant gagner du temps et garantissant la qualité via les outils de data cataloging

Données et business glossaries

Les différents départements et solutions techniques décrivent les données et leurs attributs de manière différente. Ces définitions et descriptions doivent être normalisées à l’échelle de l’organisation afin d’éviter toute confusion lors de la recherche ou de l’accès aux données.

Sur le plan technique, un glossaire de données (data glossary) définit les termes clés utilisés pour décrire les data assets, afin d’assurer leur cohérence – par exemple, en précisant ce que signifie réellement le terme « données en temps réel ».

Du côté métier, les termes et concepts doivent également être alignés et standardisés pour garantir cohérence et compréhension. Le business glossary (glossaire métier) est constitué des définitions des principaux termes métiers utilisés par les différentes équipes pour décrire les données. Il agit comme une source centralisée de connaissance sur les définitions utilisées dans l’organisation.

Par exemple, sans ce glossaire, différents départements pourraient avoir des définitions divergentes du terme « client » : pour certains, il s’agit de l’organisation cliente dans son ensemble, tandis que pour d’autres, cela peut désigner un contact spécifique ou un département donné.

Les data glossaries doivent être créés en collaboration avec tous les propriétaires de données dans l’entreprise, afin d’obtenir leur adhésion et leur validation dans le cadre de la création du data catalog. De la même manière, le business glossary doit être co-construit avec les utilisateurs métiers, en définissant les termes et concepts métier utilisés dans l’organisation.

Les business glossaries ont une portée plus large que le data catalog : ils aident à briser les silos entre départements et à établir une vision cohérente du fonctionnement de l’entreprise dans son ensemble.

Data dictionnary

Le data dictionary du data catalog fournit des informations techniques détaillées sur les data assets. Contrairement au data glossary, qui définit les termes utilisés pour décrire les données, le data dictionary se concentre sur la description et la documentation des éléments techniques.

Cela peut inclure la liste des éléments de données (noms, définitions, finalité) et de leurs propriétés, les données de référence, la source des données, l’emplacement de stockage, ainsi que la manière dont les éléments de données sont liés entre eux.

Data lineage

Les données ne sont pas statiques : elles circulent au sein de l’organisation, subissent des transformations et peuvent être enrichies ou combinées avec d’autres data assets au cours de leur cycle de vie. Cela signifie que, en plus d’indiquer l’origine des données, le data catalog doit être capable de cartographier leur parcours et de montrer comment elles ont évolué ou ont été déplacées dans le temps.

Les outils de data lineage intégrés aux data catalogs offrent ainsi une visualisation claire du cycle de vie des actifs de données grâce à un traçage précis. Ils permettent notamment d’identifier et de réduire les duplications, mais aussi de suivre les relations entre les data assets.

Par exemple, si un actif de données spécifique est utilisé dans une application métier, il est crucial de le repérer en cas d’indisponibilité, de retrait ou de modification de ses attributs. Cela facilite la traçabilité des erreurs et permet de tenir les utilisateurs informés de la disponibilité et de l’usage des données.

Outils de validation et d’automatisation

Le data catalog doit être constamment mis à jour lorsque de nouveaux data assets sont créés au sein de l’entreprise. Lorsque ces nouvelles données sont ajoutées au data catalog, ou que des entrées existantes sont mises à jour, il est essentiel qu’elles respectent les normes définies dans les outils du data catalog, tels que le data dictionary et le data glossary.

Cependant, très souvent, les formats et sources de données sont hétérogènes, provenant de différentes applications métier, bases de données et solutions de stockage. Le data catalog doit harmoniser les données pour les rendre utilisables, en s’appuyant sur la compréhension et la documentation de leur contenu, structure et qualité.

Une grande partie de ce travail peut être automatisée : les outils de data catalog peuvent rechercher et découvrir de nouveaux actifs de données, puis automatiquement en profiler et documenter le contenu, la structure et la qualité lors de leur intégration. Dans ce cadre, le data catalog doit générer et récolter les métadonnées pertinentes, réduisant ainsi la charge des administrateurs, notamment lors de la création initiale du catalogue.

Connecteurs pour intégrer toutes les données

Les données provenant de différentes sources suivent leurs propres formats et spécifications. Les connecteurs intégrés dans un data catalog facilitent la découverte et l’ajout de nouveaux data assets en se connectant automatiquement à de multiples sources au sein de l’organisation, telles que des bases de données, des fichiers internes, des sources externes ou des capteurs Internet des Objets (IoT), en collectant leurs métadonnées en temps réel.

Ils contribuent ainsi à la création d’un référentiel centralisé et complet du patrimoine de données de l’entreprise.

Consommation de données

Alors que les data catalogs ont initialement été conçus comme des solutions pour simplement inventorier les données, leur rôle a évolué pour favoriser une consommation accrue des données au sein de l’entreprise. Cela implique que les entrées du catalogue doivent fournir davantage de détails afin de renforcer la confiance des utilisateurs finaux, notamment les équipes métiers, et de leur permettre de télécharger facilement les données pour encourager leur réutilisation.

La connexion des data catalogs à des outils tels que les data product marketplaces facilite cette consommation en permettant aux utilisateurs de visualiser ou de télécharger les données, par exemple via des API ou dans des formats de fichiers courants. Par ailleurs, ces marketplaces contribuent à la gouvernance des données en contrôlant et en gérant les accès, en particulier aux données sensibles.

6.Quelles sont les limites d’un data catalog ?

Alors que les organisations cherchent à accroître le partage et la consommation des données auprès des utilisateurs métiers non techniques, elles atteignent les limites de ce qu’un data catalog traditionnel peut offrir.

En effet, un data catalog a été conçu pour un usage et un public spécifiques : créer un inventaire des données d’une organisation par un groupe d’utilisateurs techniques. En tant qu’outil technique, le data catalog améliore la gestion des données, la conformité et la gouvernance, mais il n’a pas été pensé pour faciliter le partage des données. Par exemple :

  • Il fournit une liste des données disponibles, mais pas les données elles-mêmes – les utilisateurs doivent contacter les propriétaires des données pour y accéder réellement.
  • Il ne propose pas d’interface intuitive et fluide pour les utilisateurs non techniques, ce qui rend son utilisation difficile pour les équipes métiers.
  • Il ne permet pas aux utilisateurs métiers d’utiliser les données de manière autonome – sa conception technique les amène souvent à dépendre d’experts pour obtenir de l’aide.
  • Il décrit uniquement les données via des métadonnées, sans forcément utiliser les termes compris par les utilisateurs métiers.

Essentiellement, un data catalog seul ne suffit pas pour supporter la consommation des données à grande échelle : en tant qu’outil technique, il inventorie les données mais ne les rend pas facilement accessibles aux utilisateurs non techniques. Il permet la conformité, mais pas la consommation.

 

7.Pourquoi combiner un data catalog avec un data product marketplace ?

Les data product marketplaces partagent de nombreuses similarités avec les data catalogs. Ils fournissent un espace unique et centralisé pour partager les données, garantissant cohérence, exhaustivité et une version unique de la vérité. Tous types de data assets peuvent être recherchés et découverts via un data product marketplace, tout comme dans un data catalog.

La différence majeure réside dans le fait que les data product marketplaces visent à accroître l’utilisation opérationnelle des données par les équipes métiers via l’auto-service. Pour ce faire, ils proposent une sorte de vitrine e-commerce pour les data catalogs, rendant facile et fluide la découverte et la consommation des données par tous les utilisateurs, sans nécessiter de compétences techniques ou d’assistance.

Ils intègrent des fonctionnalités telles que la recherche sémantique alimentée par l’IA, des recommandations personnalisées, et permettent une collaboration directe entre consommateurs et producteurs de données, tout en fournissant une documentation complète sur les données. Cela renforce la confiance et l’autonomie des utilisateurs.

Les capacités de gestion d’accès granulaires contrôlent les accès aux données selon les rôles et les demandes, soutenant ainsi les objectifs de gouvernance.

Data catalog vs data product marketplace

Voici la traduction en français :


Tout cela signifie qu’avant de lancer un data product marketplace et de rendre les données accessibles à tous, les organisations doivent créer un catalogue complet de l’ensemble de leurs data assets. Une catalogage des données cohérent nécessite que les actifs soient documentés de manière exhaustive, y compris leurs définitions, via un glossaire métier, afin d’assurer une cohérence à travers toute l’organisation. Une stratégie de gouvernance efficace doit soit combiner ces deux outils, soit choisir celui qui répond le mieux aux besoins spécifiques de l’organisation.

Cela signifie que les organisations ont deux options pour leur data catalog lors de la mise en place d’un data product marketplace :

 

Utiliser le data product marketplace comme data catalog

Les data product marketplaces incluent et intègrent les fonctionnalités essentielles des solutions de data catalog, telles qu’un glossaire métier, la connectivité aux actifs de données, la gestion des métadonnées et la traçabilité des données (data lineage). Si une organisation n’a pas encore déployé de data catalog, les capacités offertes par un data product marketplace lui permettront d’inventorier et de cataloguer les données pour soutenir une consommation accrue des données tout en assurant la conformité.

Intégrer un data catalog existant avec le data product marketplace

Pour les organisations ayant déjà investi dans un data catalog et en étant satisfaites, l’option la plus simple est de l’intégrer directement avec le data product marketplace. Les utilisateurs techniques peuvent continuer à utiliser le data catalog, tandis que les utilisateurs métiers bénéficient d’une expérience intuitive et en libre-service grâce au data product marketplace.

Cette approche présente aussi l’avantage d’augmenter le retour sur investissement (ROI) du déploiement initial du data catalog. Les data catalogs peuvent être longs et coûteux à mettre en place, et leur impact n’est pas toujours pleinement perçu par les équipes métiers. Les compléter par un data marketplace transforme leur valeur en donnant un accès direct aux données inventoriées à l’ensemble des utilisateurs métiers. Les marketplaces mettent l’information directement entre les mains des équipes métiers, qui peuvent ainsi créer une valeur concrète pour l’organisation.

8.Data catalog : Créer une vue complète de toutes vos données

Les data catalogs sont des éléments essentiels de la gestion des données. Ils offrent une vue complète et exhaustive de l’ensemble des données d’une organisation, quel que soit leur lieu de stockage et leur mode de création. En appliquant des métadonnées descriptives, ils garantissent que ces données peuvent être comprises et catégorisées, assurant la conformité et permettant aux équipes techniques d’améliorer l’efficacité, réduire les doublons et initier la démocratisation des données.

Combiner un data catalog avec un data product marketplace accélère ensuite la création de valeur en permettant une consommation des données à grande échelle, via une expérience intuitive et en libre-service accessible à tous les utilisateurs.

La data product marketplace démystifiée

Guide pratique dédié aux leaders data pour générer de la valeur au service des métiers

Télécharger l'ebook