Cette activité a pour objectif de vous familiariser avec EasyMorph qui permet de créer des processus ETL. À l’issue de cette activité vous devriez être capable de spécifier et mettre en œuvre un processus d’extraction, de transformation et de livraison des données.

Introduction

Nous allons dans un premier temps passer en revue les ressources à votre disposition. Dans un premier temps vous allez découvrir deux formalismes :

  • Le schéma dimensionnel pour spécifier le schéma de données cible.
  • La logical datamap pour spécifier les transformations à effectuer entre données sources et le schéma de données cible.

Dans un second temps vous découvrirez les données et l’environnement à utiliser pour cette activité.

Schéma dimensionnel

Un schéma dimensionnel est une représentation logique de données décisionnelles. Ainsi, quel que soit l’outil de stockage choisi pour les données (un entrepôt de données OLAP, une solution in-memory, une base de données relationnelle, …) la modélisation dimensionnelle des données va permettre de les structurer (en mesures et axes d’analyse) tout en intégrant des mécanismes d’historisation.

Dans le cadre de ce TP nous allons exporter ces tables sous forme de fichiers csv. Pour autant, la méthodologie d’ETL présentée reste indispensable. En effet, bien que les technologies actuelles soient assez performantes pour importer toutes les données sources dans votre outil de tableau de bord vous reléguez alors la tâche de nettoyage, consolidation et structuration des données au concepteur des tableaux de bords. Et souvent, avec le développement des outils de Business Intelligence en “self-service” ce concepteur n’est qu’un utilisateur avancé n’ayant pas forcément conscience des problématiques liées à la consolidation des données.

Le schéma dimensionnel à réaliser est présenté sur la figure ci-dessous. Il explicite la structure en tables de faits et dimensions que vos processus ETL devront créer.

Schéma dimensionnel
Schéma dimensionnel de la base de données dimensionnelle des pesticides dans les eaux souterraines

Logical datamap

La logical datamap est un document de spécification qui doit exprimer de la manière la plus précise possible les transformations à appliquer aux données sources afin d’obtenir les données cibles présentes dans le schéma dimensionnel.

Au cours de ce TP, vous devrez vous référez à cette logical data map pour suivre les transformations que l’on vous demandera d’effectuer. Faites un clic-gauche sur l’image pour ouvrir la dernière version du document et gardez-le ouvert dans un de vos onglets.

Logical Datamap
Logical Datamap spécifiant la transformation des données (cliquez pour aggrandir)

Données

Téléchargement des données.

Mise en route

Installation de l’environnement

Si vous utilisez l’environnement VDI d’IMT Atlantique :

  • Lancez le logiciel EasyMorph

Si vous utilisez votre poste de travail personnel :

  • Téléchargez et installez le logiciel EasyMorph (Windows requis).
  • Lancez le logiciel EasyMorph

Présentation de l’environnement

Le logiciel EasyMorph va vous permettre de spécifier des processus ETL pour extraire des données de différentes sources, de les transformer et de les exporter dans un format cible. L’image ci-dessous montre comment l’interface est structurée :

  1. Un bandeau d’outils permettant notamment d’importer de nouvelles sources de données et d’exécuter le processus ETL
  2. Un espace de travail où chaque fenêtre représente une source de données
  3. La source de données actuellement sélectionnée
  4. Un extrait des données de la source selon l’étape de traitement
  5. Le processus de traitement avec l’enchainement des opérations à appliquer. La sélection d’une icône permet de changer le contenu de la visualisation (zone 4)
  6. Le processus de traitement en détails : la sélection d’une étape permet de la configurer, et le bouton en bas permet de rajouter une nouvelle étape
Vue générale de l'interface d'EasyMorph
Vue générale de l'interface d'Easymorph (cliquez pour aggrandir)

Création des processus ETL : dimensions et tables de faits

Afin de simplifier la découverte de la construction des processus ETL nous allons dans un premier temps construire uniquement la table de faits Prélèvements et les dimensions Station et Pesticide. Nous allons donc implémenter la version suivante simplifiée du schéma dimensionnel :

Schéma dimensionnel simplifié
Schéma dimensionnel simplifié de la base de données dimensionnelle des pesticides dans les eaux souterraines

Processus à implémenter

Attention ! Pour chacune des pages suivantes vous devez créer un nouveau projet EasyMorph :