25 avril 2024 - Rencontre administration centrale et services déconcentrés : comment mieux intégrer les données au service des politiques publiques ?

S'inscrire
Glossaire

Extract, Transform, Load (ETL)

Extract, Transform, Load (ETL) - extraction, transformation, chargement en français - constituent le processus d'intégration des données utilisé pour combiner des données provenant de sources multiples dans un référentiel unique et centralisé.

Que signifie ETL ?

Extract, Transform, Load (ETL) – extraction, transformation, chargement en français – représentent le processus d’intégration de données en trois étapes utilisé pour combiner des données structurées et non structurées provenant de sources multiples dans un référentiel unique et centralisé, tel qu’un data warehouse, un data mart ou un data lake. Les trois étapes sont les suivantes :

  • Extract (extraction) : les données brutes sont consultées et déplacées de leur système source vers une zone de transit
  • Transform (transformation) : dans la zone de transit, des règles commerciales sont appliquées pour nettoyer, transformer et organiser les données afin d’en assurer la qualité et la cohérence.
  • Load (chargement) : les données sont ensuite ajoutées au référentiel.

Réalisé à l’aide d’outils logiciels, le processus ETL peut être automatisé et se dérouler sur une base régulière, par le biais de mises à jour par lots ou en temps réel lorsque les données d’un système source changent. Ces pipelines ETL (ou pipelines de données) rassemblent des outils et des activités permettant d’automatiser l’intégration des données, augmentant ainsi l’efficacité et permettant de les reproduire, de les contrôler et de les améliorer.

ETL vs ELT

L’ETL est utilisé depuis les années 1970. Plus récemment, le processus ELT (extraction, chargement et transformation) a vu le jour. Comme son nom l’indique, il s’agit d’inverser l’ordre des deuxième et troisième étapes, en chargeant les données dans le référentiel cible, où elles sont ensuite transformées. Il n’est donc plus nécessaire de disposer d’une zone de transit et la flexibilité de l’analyse des données s’en trouve accrue. Cela signifie que ce système fonctionne correctement pour les gros volumes de données non structurées, telles que celles stockées dans les data lake.

Pour mener à bien l’étape de transformation, il faut que les bases de données centralisées disposent à la fois de capacités de mise en correspondance des données ainsi que des capacités de traitement conséquentes pour assurer rapidement et de manière efficace cette étape. C’est pour cette raison qu’il est préférable de le déployer dans le Cloud, qui fournit une puissance de calcul évolutive et adaptée à vos besoins.

Pourquoi l’ETL est-il important ?

Les données structurées et non structurées sont désormais produites par de multiples systèmes à l’intérieur et à l’extérieur de l’organisation, dans un grand nombre de formats différents. Pour créer de la valeur, ces données doivent être largement disponibles, notamment pour servir la business intelligence et permettre une meilleure prise de décision fondée sur les données. Elles doivent donc être centralisées et normalisées pour garantir l’accessibilité, la qualité et la gouvernance. Les processus ETL permet d’atteindre cet objectif, en les plaçant au cœur du processus :

  • Analyse des données et établissement de rapports efficaces et éclairés grâce à une vue consolidée de l’information
  • Garantie de la qualité et de la gouvernance des données en appliquant des normes cohérentes
  • Une version unique des données pour tous les membres d’un écosystème
  • Un contexte historique pour la business intelligence
  • Augmentation de l’efficacité en remplaçant les processus manuels

Quelles sont les étapes du processus ETL ?

Extract (extraction)

Lors de la phase d’extraction des données, les données brutes sont copiées ou exportées des sites sources vers une zone de transit. Les données peuvent être structurées ou non structurées et provenir de sources telles que des bases de données relationnelles, des plateformes de stockage de données, des systèmes de stockage en Cloud ou des applications d’entreprise (telles que les systèmes CRM ou ERP).

Transform (transformation)

Il s’agit de la partie la plus importante du processus ETL, car elle garantit la vérification des données brutes extraites et leur transformation dans la zone de transit afin de respecter les directives de l’entreprise en matière de normes, de qualité et d’accessibilité.

La transformation des données comprend normalement :

  • Nettoyage – suppression/résolution des incohérences et des valeurs manquantes
  • Normalisation – application de règles de gouvernance standard à l’ensemble de données
  • Déduplication – élimination des données redondantes ou dupliquées
  • Vérification – suppression des données inutilisables et signalisation des anomalies
  • Cryptage/protection des données – par exemple en rendant anonymes les données sensibles
  • Tri – organisation des données par type
  • Amélioration – enrichir les datasets avec des données supplémentaires (telles que des données de référence) afin d’en augmenter la valeur

Load (chargement)

Une fois les données transformées, elles sont chargées dans un référentiel centralisé, comme un data lake ou un data warehouse. Toutes les données peuvent être chargées en une seule fois (chargement complet) ou à intervalles programmés ou lorsqu’un enregistrement est modifié (chargement incrémentiel). En général, cette dernière étape a lieu en dehors des heures de pointe, lorsque l’activité sur les systèmes sources et le data warehouse est la plus faible.

Demandez une démo de la solution Opendatasoft et créez les meilleures expériences data

En savoir plus
Gestion des métadonnées : gagnez en efficacité avec les templates sur mesure d’Opendatasoft Produit
Gestion des métadonnées : gagnez en efficacité avec les templates sur mesure d’Opendatasoft

Apprenez-en plus sur les modèles de métadonnées mis à disposition par Opendatasoft pour améliorer la qualité et la conformité de vos données et augmenter votre efficacité et vous permettre de gagner du temps au quotidien.

Qu’est-ce qu’une Smart City ? Introduction à la ville intelligente Tendances
Qu’est-ce qu’une Smart City ? Introduction à la ville intelligente

Les villes et municipalités du monde entier se transforment en villes intelligentes, ou Smart Cities, améliorant l'environnement urbain pour les citoyens, les visiteurs et les organisations. Apprenez-en plus sur ce concept et découvrez toutes les bonnes pratiques pour construire une Smart City.

Portails data internes ou espaces de données : les bénéfices pour les collectivités territoriales Accès aux données
Portails data internes ou espaces de données : les bénéfices pour les collectivités territoriales

Les agents opérant au service des villes et des municipalités doivent bénéficier d’un accès facilité et sécurisé à des données fiables afin d’être plus efficaces dans leurs missions quotidiennes et de prendre de meilleures décisions pour améliorer la vie des résidents et créer de nouveaux services innovants. Découvrez comment les portails internes ou espaces de données répondent à ces objectifs.

Gestion des métadonnées : gagnez en efficacité avec les templates sur mesure d’Opendatasoft Produit
Gestion des métadonnées : gagnez en efficacité avec les templates sur mesure d’Opendatasoft

Apprenez-en plus sur les modèles de métadonnées mis à disposition par Opendatasoft pour améliorer la qualité et la conformité de vos données et augmenter votre efficacité et vous permettre de gagner du temps au quotidien.

Qu’est-ce qu’une Smart City ? Introduction à la ville intelligente Tendances
Qu’est-ce qu’une Smart City ? Introduction à la ville intelligente

Les villes et municipalités du monde entier se transforment en villes intelligentes, ou Smart Cities, améliorant l'environnement urbain pour les citoyens, les visiteurs et les organisations. Apprenez-en plus sur ce concept et découvrez toutes les bonnes pratiques pour construire une Smart City.

Portails data internes ou espaces de données : les bénéfices pour les collectivités territoriales Accès aux données
Portails data internes ou espaces de données : les bénéfices pour les collectivités territoriales

Les agents opérant au service des villes et des municipalités doivent bénéficier d’un accès facilité et sécurisé à des données fiables afin d’être plus efficaces dans leurs missions quotidiennes et de prendre de meilleures décisions pour améliorer la vie des résidents et créer de nouveaux services innovants. Découvrez comment les portails internes ou espaces de données répondent à ces objectifs.

Commencez à créer vos expériences data
Demander une démo