Language

[Événement] Rendez-vous stand E43 pour lancer et concrétiser vos projets de data marketplaces !

Prenez RDV

Data virtualisation : partagez vos données sur votre marketplace en toute sécurité, sans les déplacer

TendancesAccès aux données

La data virtualisation est un mécanisme qui transforme la façon dont les organisations partagent et exploitent leurs données. Elle permet d’explorer et d’exploiter des données provenant de sources externes de manière sécurisée, sans avoir besoin de les dupliquer.

Coralie Lohéac, Lead Product Manager chez Opendatasoft, nous explique dans cet article comment les possibilités de virtualisation de données au sein d’une data marketplace ouvrent de nouvelles perspectives pour le partage de données et la création de valeur au sein des organisations.

Bonjour Coralie. En quelques mots, comment définirais-tu la data virtualisation et le rôle qu’elle joue dans une data marketplace ?

Coralie : La data virtualisation consiste à rendre accessibles et explorables, au sein d’une data marketplace, des données qui restent stockées dans leur système d’origine, sans avoir à les dupliquer ni à les déplacer. Elle garantit aux administrateurs d’une data marketplace la sécurité et l’authenticité des données, tout en permettant aux utilisateurs métiers — souvent moins techniques ou peu familiers avec des outils tels que les datalakes ou les datawarehouses — de les explorer facilement grâce à une interface intuitive conçue pour eux.

Qu’est-ce qui vous a amenés à développer ce nouveau mécanisme de partage de données dans la plateforme ?

Coralie : Beaucoup de nos clients hésitaient à importer certaines données sur leur data marketplace, notamment lorsqu’elles provenaient d’autres services qui souhaitaient en garder le contrôle et le statut de source unique de vérité, car cela impliquait de les dupliquer. La data virtualisation supprime cette contrainte en laissant les données à leur emplacement d’origine tout en les rendant accessibles via la marketplace. Elle assure fiabilité, cohérence et sécurité, tout en facilitant leur exploitation par tous.

Faut-il virtualiser toutes ses données dans une data marketplace ?

Coralie : Pas forcément. La plupart de nos clients optent pour un modèle hybride sur leur data marketplace, combinant données virtualisées, données dupliquées (préparées pour être plus intelligibles grâce aux processeurs de la plateforme) ou métadonnées uniquement. Notre objectif consiste à leur offrir toutes les options possibles pour exposer un maximum de données. Ensuite, c’est à eux de décider ce qui convient le mieux en fonction de leur patrimoine de données, qu’ils connaissent mieux que personne.

Dans quel cas la virtualisation de données peut-elle présenter un avantage ?

Coralie : La virtualisation de données dans une data marketplace permet d’élargir le patrimoine de données accessible aux utilisateurs métiers. En effet, certaines données ne peuvent pas être déplacées, la virtualisation permet quand même de les exposer tout en garantissant les points suivants :

  • Sécurité et fiabilité : les données restent à leur source, sous le contrôle des équipes qui les gèrent. Elles conservent leur fraîcheur, leur authenticité et leur statut de source unique de vérité. C’est l’avantage le plus plébiscité par nos clients avec cette innovation !
  • Meilleure découverte des données : grâce à des fonctionnalités basées sur l’IA comme notre moteur de recherche sémantique multilingue ou les recommandations de données similaires, les utilisateurs ne passent pas à côté de données pertinentes pour leurs besoins.
  • Audience élargie : les données deviennent accessibles à tous les profils via des outils de consommation de données adaptés comme la génération automatique de data visualisations pour les métiers, ou les requêtes via une console API pour les plus experts.
  • Pilotage des usages : le partage de données virtualisées au sein d’une data marketplace permet de suivre qui consulte les données, quelles requêtes sont effectuées et comment elles sont utilisées, permettant de comprendre l’usage et de justifier l’impact des données.
  • Impact environnemental réduit : en évitant le double stockage, la data virtualisation permet de réduire l’empreinte carbone, un avantage clé pour les organisations engagées dans une démarche RSE et soumises à des exigences de conformité.

Sur quels critères repose le choix de virtualiser ses données ?

Coralie : Le choix de virtualiser ses données repose sur plusieurs critères clés, comme :

  • Le volume des données : plus les jeux de données sont volumineux, plus la virtualisation est intéressante pour réduire les coûts liés au double stockage.
  • La sensibilité des données : certaines données appartiennent à des équipes spécifiques qui souhaitent en garder la propriété et garantir leur authenticité. La virtualisation permet alors de conserver cette source unique de vérité tout en les partageant à un plus grand nombre d’utilisateurs sur la data marketplace.

Une meilleure découvrabilité des données virtualisées sur une data marketplace peut-t-elle alourdir la facture ?

Coralie : C’est un point important à souligner, car les data lakes et data warehouses facturent souvent à l’usage ou via des quotas. Une augmentation de l’accès et de la découverte des données virtualisées via la marketplace peut donc mécaniquement entraîner une hausse des coûts. Pour anticiper cet effet, nous avons intégré des outils de pilotage comme des quotas paramétrables afin de permettre à nos clients de contrôler précisément la consommation de données virtualisées. Fait intéressant, que nous avons découvert lors de nos échanges avec les clients : les quotas achetés à l’avance sont souvent sous-utilisés. En rendant les données plus visibles dans la marketplace, la virtualisation permet d’en tirer pleinement parti et de maximiser leur valeur.

Peux-tu nous donner un exemple concret de l’intérêt de la data virtualisation dans une marketplace ?

Coralie : Bien sûr. Par exemple, chez Opendatasoft, nous avons virtualisé les données d’usage et d’adoption de notre plateforme dans notre propre data marketplace interne (données issues de notre datalake). Avant, ces données brutes étaient accessibles uniquement à nos équipes data, car elles étaient les seules à maîtriser l’outil ou à disposer de licences. Aujourd’hui, ces données sont devenues accessibles en temps réel et en libre-service à nos Product Managers (l’équivalent de nos métiers), sans qu’ils aient besoin de passer par nos équipes data. Un gain de temps considérable pour toutes nos équipes.

À quelles évolutions peut-on s’attendre prochainement ? Plus de connecteurs, plus d’innovations fondées sur l’IA… ?

Coralie : Sur le plan de la connectivité, Opendatasoft sait déjà virtualiser les données issues des principaux data lakes et data warehouses du marché, comme Snowflake, Databricks, Azure ou Denodo. Notre priorité est désormais de renforcer l’apport de l’IA agentique dans une data data marketplace, avec le lancement récent de notre serveur MCP. Cette avancée ouvre de nouvelles perspectives d’usage et de création de valeur pour nos clients, et constitue une étape clé dans l’évolution de notre plateforme — toujours animée par la même mission : rendre les données accessibles et utiles à tous.

Partager cet article :
Articles sur le même thème :
TendancesAccès aux données
À propos de l’auteur

Toujours à l’affut des dernières évolutions de la solution Opendatasoft, Pauline Plancke, Product Marketing Manager, explore, décrypte et valorise ces nouveautés.

Plus d'articles
En savoir plus
Accélérez vos projets IA grâce à des données partageables et optimisées pour les modèles et agents IA
Blog
Accélérez vos projets IA grâce à des données partageables et optimisées pour les modèles et agents IA
IA agentique : comment Opendatasoft connecte les modèles IA aux données opérationnelles  pour booster la performance des collaborateurs
Blog
IA agentique : comment Opendatasoft connecte les modèles IA aux données opérationnelles pour booster la performance des collaborateurs
Tendances data 2025 par Gartner : focus sur les données en self-service
Blog
Tendances data 2025 par Gartner : focus sur les données en self-service