Les différentes étapes pour construire le processus ETL générant la dimension Station
Import des Données
La lecture de la logical datamap montre que nous allons utiliser les sources de données suivantes :
stations.csv
departments_regions_france_2016.csv
stations_sage.csv
qui est le résultat du traitement préalable du fichier de données géographiquessage_metropole-shp
stations_coord.csv
qui est le résultat du traitement préalable des coordonnées présentes dans le fichierstations
Qualité des données
La première étape est l’exploration des données pour en évaluer la qualité. Une analyse rapide nous permet d’identifier 2 problèmes :
- Les stations ayant une coordonnées à 0 dans le système de Lambert93 vont se retrouver en plein milieu de l’Atlantique. Il s’agit d’une erreur et nous allons supprimer ces stations (une approche plus judicieuse aurait été de retrouver les bonnes coordonnées).
- Selon la source de données les numéros de départements n’ont pas la même casse (2A et 2a) : nous allons convertir tout ces champs en champs textuels en majuscules.
Processus ETL
Commencez par créer un nouveau projet EasyMorph.
Traitement du fichier departement_regions_france_2016.csv
Commençons par corriger le format des numéros de départements dans le fichier departement_regions_france_2016.csv
. Nous allons appliquer le processus suivant en ajoutant de nouvelles actions :
- Importez le fichier
departement_regions_france_2016.csv
en le glissant-déposant dans la fenêtre principale ou avecAdd data > Import file > Import delimited text file
dans le bandeau d’outils. Assurez-vous que les paramètres d’import soient bien configurés, notamment l’encoding en UTF-8 (nécessaire ici) et le séparateur de champ (détails). - Convertissez le champ du numéro de département en champ textuel (détails).
- Transformez en lettre majuscules toutes les valeurs champ du numéro de département (détails).
Traitement du fichier stations.csv
Suivez les étapes suivantes pour générer la dimension dim_station
:
- Importez le fichier
stations.csv
en le glissant-déposant dans la fenêtre principale ou avecAdd data > Import file > Import delimited text file
dans le bandeau d’outils. Assurez-vous que les paramètres d’import soient bien configurés, notamment l’encoding en UTF-8 (nécessaire ici) et le séparateur de champ (détails). - Filtrez et supprimez les lignes pour lesquelles les coordonnées sont erronées, c’est à dire que le champ
X_FICT_L93
est à 0 (détails). - Récupérez les informations concernant les coordonnées des stations. Pour cela, faites une jointure gauche entre
stations.csv
etstations_coord.csv
surCD_STATION
. Nous utilisons une jointure gauche afin que toutes les stations destations.csv
soient conservées et associées à leur latitude et longitude ou à la valeur NULL si elle n’existe pas dansstations_coord.csv
. Dans le cas présent toutes les stations sont bien présentes (détails). - Pour résoudre le problème de qualité des données sur les numéros de département, convertissez le champ du numéro de département en champ textuel (détails).
- Récupérez les informations concernant les départements et régions associés à chacune des stations. Pour cela, faites une jointure gauche entre
stations.csv
etdepartments_regions_france_2016.csv
surNUM_DEP
/departmentCode
(détails). - Récupérez le SAGE associé à chacune des stations. Pour cela, faites une jointure gauche entre
stations.csv
etstations_sage.csv
surCD_STATION
(détails). - Ajoutez maintenant une clef artificielle auto-incrémentée à la table. Cette étape est indispensable pour nous isoler de la numérotation métier sur laquelle nous n’avons aucun contrôle (détails).
- Renommez les colonnes pour respecter la terminologie de la logical datamap (détails).
- Supprimez les colonnes qui ne sont pas documentées dans la logical datamap (détails).
- Réordonnez les colonnes selon le même ordre que la logical datamap. Pour cela allez dans la fenêtre active montrant un extrait des données et déplacez directement les colonnes.
- Exportez la dimension dans un fichier
dim_station.csv
(détails).
Exécution du processus
Dans le bandeau d’outils cliquez sur Run project
pour exécuter le processus ETL. Vérifiez que le fichier dim_stations.csv
a bien été généré.