Introduction
Nous allons dans un premier temps passer en revue les ressources à votre disposition. Dans un premier temps vous allez découvrir deux formalismes :
- Le schéma dimensionnel pour spécifier le schéma de données cible.
- La logical datamap pour spécifier les transformations à effectuer entre données sources et le schéma de données cible.
Dans un second temps vous découvrirez les données et l’environnement à utiliser pour cette activité.
Schéma dimensionnel
Un schéma dimensionnel est une représentation logique de données décisionnelles. Ainsi, quel que soit l’outil de stockage choisi pour les données (un entrepôt de données OLAP, une solution in-memory, une base de données relationnelle, …) la modélisation dimensionnelle des données va permettre de les structurer (en mesures et axes d’analyse) tout en intégrant des mécanismes d’historisation.
Dans le cadre de ce TP nous allons exporter ces tables sous forme de fichiers csv. Pour autant, la méthodologie d’ETL présentée reste indispensable. En effet, bien que les technologies actuelles soient assez performantes pour importer toutes les données sources dans votre outil de tableau de bord vous reléguez alors la tâche de nettoyage, consolidation et structuration des données au concepteur des tableaux de bords. Et souvent, avec le développement des outils de Business Intelligence en “self-service” ce concepteur n’est qu’un utilisateur avancé n’ayant pas forcément conscience des problématiques liées à la consolidation des données.
Le schéma dimensionnel à réaliser est présenté sur la figure ci-dessous. Il explicite la structure en tables de faits et dimensions que vos processus ETL devront créer.
Logical datamap
La logical datamap est un document de spécification qui doit exprimer de la manière la plus précise possible les transformations à appliquer aux données sources afin d’obtenir les données cibles présentes dans le schéma dimensionnel.
Au cours de ce TP, vous devrez vous référez à cette logical data map pour suivre les transformations que l’on vous demandera d’effectuer. Faites un clic-gauche sur l’image pour ouvrir la dernière version du document et gardez-le ouvert dans un de vos onglets.
Données
Téléchargement des données.
Mise en route
Installation de l’environnement
Si vous utilisez l’environnement VDI d’IMT Atlantique :
- Lancez le logiciel EasyMorph
Si vous utilisez votre poste de travail personnel :
- Téléchargez et installez le logiciel EasyMorph (Windows requis).
- Lancez le logiciel EasyMorph
Présentation de l’environnement
Le logiciel EasyMorph va vous permettre de spécifier des processus ETL pour extraire des données de différentes sources, de les transformer et de les exporter dans un format cible. L’image ci-dessous montre comment l’interface est structurée :
- Un bandeau d’outils permettant notamment d’importer de nouvelles sources de données et d’exécuter le processus ETL
- Un espace de travail où chaque fenêtre représente une source de données
- La source de données actuellement sélectionnée
- Un extrait des données de la source selon l’étape de traitement
- Le processus de traitement avec l’enchainement des opérations à appliquer. La sélection d’une icône permet de changer le contenu de la visualisation (zone 4)
- Le processus de traitement en détails : la sélection d’une étape permet de la configurer, et le bouton en bas permet de rajouter une nouvelle étape
Création des processus ETL : dimensions et tables de faits
Afin de simplifier la découverte de la construction des processus ETL nous allons dans un premier temps construire uniquement la table de faits Prélèvements
et les dimensions Station
et Pesticide
. Nous allons donc implémenter la version suivante simplifiée du schéma dimensionnel :
Processus à implémenter
Attention ! Pour chacune des pages suivantes vous devez créer un nouveau projet EasyMorph :