Glossaire

Data mesh

Le Data mesh est une approche décentralisée et fédérée de la gestion des données qui permet le partage et la démocratisation des données dans toute l'organisation.

Qu’est-ce que le Data mesh ?

Le concept de Data mesh désigne une architecture de données d’entreprise basée sur une approche distribuée et décentralisée de la gestion et du partage des données.

Il est conçu pour accroître l’utilisation des données dans l’ensemble de l’organisation, permettant aux entreprises de s’axer sur les données en accélérant la mise à l’échelle, le partage et la création de services data. Le Data mesh soutient donc des stratégies visant à assurer la démocratisation des données.

Le concept a été initialement proposé par Zhamak Dehghani du cabinet de conseil Thoughtworks en 2019, et a depuis été développé et adopté par plusieurs organisations.

Contrairement aux architectures de données précédentes, le Data mesh se focalise sur l’organisation elle-même, plutôt que sur la technologie. Il cherche à décentraliser les responsabilités liées aux données en les imputant à ceux qui en sont les plus proches. Une gouvernance commune est bien sûr conservée à l’échelon de toute l’entreprise et sur des normes de métadonnées pour garantir l’interopérabilité. L’architecture est mise en œuvre par une infrastructure de données partagée en libre-service.

Il s’agit essentiellement d’un modèle fédéré, un peu comme les États-Unis d’Amérique, avec un gouvernement central partiel, le pouvoir et la responsabilité étant néanmoins détenus par ceux qui sont les plus proches des citoyens : les États.

Quels sont les principes du Data mesh ?

Contrairement aux data warehouse ou data lakehouse, le Data mesh n’est pas un outil ou une technologie spécifique. Il s’agit plutôt d’un ensemble de principes qui définissent la manière dont les entreprises gouvernent, travaillent et partagent les données au sein de l’organisation.

Il repose sur quatre principes clés :

Propriété des données : plutôt qu’une équipe centrale, les données appartiennent à ceux qui en sont les plus proches, comme ceux qui les créent. Les responsables sont chargés de s’assurer que les données sont disponibles, fiables, sécurisées, interopérables et compréhensibles par tous.
Les données en tant que produit : pour être partageables, les données sont pensées sous formes de produit et permettent donc de résoudre les problèmes.
Plateforme de données libre-service : les données doivent être accessibles à tous via le libre-service, afin qu’elles puissent être consultées facilement sans nécessiter de support supplémentaire.
Gouvernance informatique fédérée : les normes de gouvernance des données et de métadonnées sont convenues et gérées de manière centralisée pour garantir l’interopérabilité, la cohérence et la sécurité.

Quels sont les avantages du Data mesh ?

Les organisations veulent pouvoir partager des données en interne pour améliorer la prise de décision, accroître la transparence et stimuler l’innovation. C’est ce que permet le Data mesh grâce à :

Un accès plus rapide à des produits de données compréhensibles par l’ensemble de l’entreprise
Un développement plus simple et plus rapide des services data grâce à des équipes indépendantes et responsables de leurs propres données
Une plus grande réutilisabilité avec des équipes qui partagent des processus et apprennent les unes des autres, obtenant des résultats plus rapides avec moins de ressources.
Un langage et un vocabulaire communs autour des données qui sont partagés par l’ensemble de l’entreprise, garantissant une cohérence et une compréhension commune.
Une gouvernance centralisée qui garantit des normes communes en matière de sécurité et de métadonnées, ce qui signifie que les besoins de conformité réglementaire sont satisfaits.
Une plus grande flexibilité en matière d’outils car les équipes peuvent utiliser l’outil le mieux adapté à leurs besoins, ce qui leur donne de l’indépendance et augmente leur adhésion au programme.
Des équipes responsabilisées et considérées comme des experts du domaine, leur expertise étant valorisée, stimulant davantage l’engagement et maximisant l’utilisation des ressources.

En quoi le Data mesh diffère-t-il des autres méthodologies de gestion des données ?

Il existe deux principales différences entre le Data mesh et les autres méthodologies de gestion des données :

Les données ne sont pas centralisées (comme dans un data lake). Les propriétaires des données sont répartis dans toute l’organisation, soutenus par une gouvernance centralisée.
Le Data mesh n’est pas une technologie spécifique puisque tous les outils existants sont compatibles avec le maillage de données. Cela signifie que les entreprises peuvent commencer par leur stratégie et leurs objectifs, puis déployer les bons outils pour répondre à leurs besoins. Cela évite le risque que des projets échouent, prennent trop de temps à être mis en œuvre ou ne produisent pas suffisamment de résultats.

Comment adopter le Data mesh ?

Contrairement aux projets de données traditionnels, le Data mesh repose moins sur la technologie et davantage sur la mise en œuvre d’une approche axée sur les données dans toute l’organisation. Cela peut conduire à trois défis principaux :

Construire une culture des données commune en éliminant les silos et en procédant à une gestion approfondie du changement dans l’ensemble de l’organisation. Cela demande un investissement en temps et en ressources.
Instaurer des règles communes concernant la gouvernance des données dans tous les départements. Cela nécessite un engagement et une adhésion de toutes les équipes.
Adopter une approche stratégique qui identifie les problèmes à résoudre en premier, plutôt que de simplement adopter une technologie.

Blog

Qu’est-ce qu’un output port ?

Dans un monde de plus en plus décentralisé et orienté vers l’architecture modulaire des données, les concepts de data mesh et de data products transforment en profondeur notre manière de produire, gouverner et consommer la donnée. Au cœur de cette transformation, un terme technique émerge discrètement mais joue un rôle structurant : l’outport.

Blog

Opendatasoft booste l’enrichissement de données, même avec les référentiels les plus volumineux

Enrichir ses données est une étape clé pour produire des analyses pertinentes et génératrices de valeur. Mais dès qu’il s’agit de manipuler des référentiels massifs comme la base de données SIRENE des entreprises françaises ou la BAN, les limites techniques deviennent souvent un obstacle.

Blog

Démocratiser la donnée : les fondamentaux pour booster l’adoption

C’est autour d’un paradoxe que Datalogy, Coface et Opendatasoft se sont réunis : plus les entreprises investissent dans la donnée, plus cette donnée semble leur échapper. Multiplication des outils, complexité technique, silos persistants… L’obsession du contrôle a produit l’effet inverse : elle freine l’usage.

Commencez à créer vos expériences data

Demander une démo