Commencez par créer un nouveau projet EasyMorph.
Import des Données
La lecture de la logical datamap montre que nous allons utiliser les sources de données suivantes :
- tous les fichiers du type
ma_qp_fm_ttres_pesteso_XXXX.csv
où XXXX correspond à une année entre 2007 et 2012 dim_station.csv
dim_pesticide.csv
Qualité des données
La première étape est l’exploration des données pour en évaluer la qualité. Une analyse rapide nous permet de remarquer que la concentration moyenne en pesticides (variable MA_MOY
) est une chaîne de caractères représentant parfois un nombre en notation scientifique (par exemple 7,16667E-05
). Nous allons devoir convertir le type de cette variable en numérique et utiliser une notation décimale.
Processus ETL
Traitement des fichiers ma_qp_fm_ttres_pesteso_XXXX.csv
Suivez les étapes suivantes pour implémenter le processus ETL :
- Importez les fichiers
ma_qp_fm_ttres_pesteso_XXXX.csv
avecAdd data > Import multiple files > Import delimited text file
dans le bandeau d’outils. Cochez la caseInclude columns with file paths into results
(détails). Assurez-vous que les paramètres d’import soient bien configurés, notamment l’encoding en ANSI Codepage Windows-1252 (nécessaire ici) et le séparateur de champ (détails). - Créez un champ
année
et alimentez-le en parsant le nom du fichier correspondant en utilisant les fonctionsright
etkeepbefore
(détails). - Calculez la racine (variable
root
à créer) et la puissance (variablepower
à créer) à partir des valeurs de concentration en pesticides (variableMA_MOY
) (détails). - Convertissez en numérique le type des variables
root
etpower
(détails). - Affectez à la variable
concentration_moyenne
les valeurs de concentration en pesticides en utilisant une notation décimale (détails). - Créez la dimension dégénérée
respect_norme
dont les valeurs indiquent si laconcentration_moyenne
respecte laNORME_DCE
(détails). - Récupérez la clef identifiant les stations. Pour cela, faites une jointure gauche avec la dimension
Station
(détails). - Récupérez la clef identifiant les pesticides. Pour cela, faites une jointure gauche avec la dimension
Pesticide
(détails). - Supprimez les colonnes qui ne sont pas documentées dans la logical datamap (détails).
- Renommez les colonnes pour respecter la terminologie de la logical datamap (détails).
- Calculez les variables
concentration_moyenne_inf_norme
(détails) etconcentration_moyenne_sup_norme
(détails) indiquant la part de la concentration en pesticides qui est respectivement inférieure (supérieure) à la norme (détails). - Réordonnez les colonnes selon le même ordre que la logical datamap. Pour cela allez dans la fenêtre active montrant un extrait des données et déplacez directement les colonnes.
- Exportez la table de faits dans un fichier
facts_prelevements.csv
(détails).
Exécution du processus
Dans le bandeau d’outils cliquez sur Run project
pour exécuter le processus ETL. Vérifiez que le fichier facts_prelevements.csv
a bien été généré.