Les différentes étapes pour construire le processus ETL générant la table de faits Prélèvements

Commencez par créer un nouveau projet EasyMorph.

Import des Données

La lecture de la logical datamap montre que nous allons utiliser les sources de données suivantes :

  • tous les fichiers du type ma_qp_fm_ttres_pesteso_XXXX.csv où XXXX correspond à une année entre 2007 et 2012
  • dim_station.csv
  • dim_pesticide.csv
Logical Datamap
Logical Datamap spécifiant la transformation des données (cliquez pour aggrandir)

Qualité des données

La première étape est l’exploration des données pour en évaluer la qualité. Une analyse rapide nous permet de remarquer que la concentration moyenne en pesticides (variable MA_MOY) est une chaîne de caractères représentant parfois un nombre en notation scientifique (par exemple 7,16667E-05). Nous allons devoir convertir le type de cette variable en numérique et utiliser une notation décimale.

Processus ETL

Traitement des fichiers ma_qp_fm_ttres_pesteso_XXXX.csv

Suivez les étapes suivantes pour implémenter le processus ETL :

  1. Importez les fichiers ma_qp_fm_ttres_pesteso_XXXX.csv avec Add data > Import multiple files > Import delimited text file dans le bandeau d’outils. Cochez la case Include columns with file paths into results (détails). Assurez-vous que les paramètres d’import soient bien configurés, notamment l’encoding en ANSI Codepage Windows-1252 (nécessaire ici) et le séparateur de champ (détails).
  2. Créez un champ année et alimentez-le en parsant le nom du fichier correspondant en utilisant les fonctions right et keepbefore (détails).
  3. Calculez la racine (variable root à créer) et la puissance (variable power à créer) à partir des valeurs de concentration en pesticides (variable MA_MOY) (détails).
  4. Convertissez en numérique le type des variables root et power (détails).
  5. Affectez à la variable concentration_moyenne les valeurs de concentration en pesticides en utilisant une notation décimale (détails).
  6. Créez la dimension dégénérée respect_norme dont les valeurs indiquent si la concentration_moyenne respecte la NORME_DCE (détails).
  7. Récupérez la clef identifiant les stations. Pour cela, faites une jointure gauche avec la dimension Station (détails).
  8. Récupérez la clef identifiant les pesticides. Pour cela, faites une jointure gauche avec la dimension Pesticide (détails).
  9. Supprimez les colonnes qui ne sont pas documentées dans la logical datamap (détails).
  10. Renommez les colonnes pour respecter la terminologie de la logical datamap (détails).
  11. Calculez les variables concentration_moyenne_inf_norme (détails) et concentration_moyenne_sup_norme (détails) indiquant la part de la concentration en pesticides qui est respectivement inférieure (supérieure) à la norme (détails).
  12. Réordonnez les colonnes selon le même ordre que la logical datamap. Pour cela allez dans la fenêtre active montrant un extrait des données et déplacez directement les colonnes.
  13. Exportez la table de faits dans un fichier facts_prelevements.csv (détails).
Processus de construction de la table de faits `Prélèvements`
Processus de construction de la table de faits `Prélèvements`.

Exécution du processus

Dans le bandeau d’outils cliquez sur Run project pour exécuter le processus ETL. Vérifiez que le fichier facts_prelevements.csv a bien été généré.

Retour au processus ETL global