Au cours de cette séance, nous allons introduire les concepts de base de la modélisation dimensionnelle au cours de la découverte d'un tableau de bord réalisé avec Tableau.
Tableau data visualization software est fourni par le programme Tableau for Teaching.
Cette activité a deux objectifs différents :
- Vous faire manipuler un logiciel de conception de tableau de bord en utilisant un entrepôt de données comme source de données.
- Vous faire découvrir quelques notions de base en modélisation dimensionnelle afin de vous permettre de comprendre le modèle de données que vous avez utilisé.

Pré-requis

Si vous avez la chance de lire cette page avant la séance, je vous recommande cette vidéo. Sinon revenez-y plus tard et rendez-vous maintenant directement à la section suivante.

Si la vidéo ne s’affiche pas vous pouvez la visionner sur cette page ainsi que bon nombre d’autres vidéos utiles pour découvrir Tableau Online.

Contexte et données

Quelques éléments de contexte

Dans un futur lointain, la société Jita Business s’est épanouie en développant son activité commerciale au sein du système Jita qui se trouve au coeur de la galaxie. En marge des conflits existants, Jita Business achète en masse à bas coût à des producteurs qui ont un besoin rapide de liquidité, pour revendre au meilleur prix quelque temps plus tard et faire de confortables bénéfices.

Exploration manuelle des données sources

Nous allons, dans un premier temps, explorer les données sources.

Ouvrez le fichier WalletTransactions.csv avec un tableur (soit openoffice, soit office en vous connectant au serveur), puis essayez de répondre aux questions suivantes. La documentation de ce fichier se trouve dans la section données du projet Business.

  • Combien de transactions d’achats ont été effectuées le 16 septembre 2010 ?
  • Quel est le chiffre d’affaire du 16 septembre 2010 ?
  • Quel est le nombre de produits vendus le 16 septembre 2010 ?

Création d’un tableau de bord de suivi des ventes

Le PDG de Jita Business désire suivre les performances de l’entreprise en observant les ventes. Il a été choisi d’observer la somme cumulée du chiffre d’affaire au cours du mois ainsi que les tendances des ventes par catégorie et par semaine en terme de montant et nombre de transactions ainsi que quantité de produits vendus. Le résultat est illustré sur ci-dessous.

S’il y a un problème avec la version interactive vous pouvez aussi utiliser cette capture d’écran.

Pour réaliser ce tableau de bord, le travail de préparation et de modélisation de données a déjà été réalisé. Vous allez ainsi pouvoir vous connecter à un cube de données.

Cube
En informatique décisionnelle, on désigne par l’expression cube OLAP une représentation multi-dimensionnelle des données qui s’oppose à la représentation relationnelle, plus classique. Les dimensions du cube représentent les axes d’analyses permettant d’observer les valeurs contenus dans le cube. Un cube OLAP peut posséder plus de 3 dimensions, nous devrions donc parler en fait d’hypercubes.

Suivez maintenant les indications pour vous connecter.

Evolution du chiffre d’affaire au cours du mois

Nous allons commencer par créer une feuille pour chacun des graphiques avant de les rassembler dans un même tableau de bord.

Créez une feuille Evolution du CA où nous allons produire un graphique montrant la somme cumulée du chiffre d’affaire tout au long du mois afin de pouvoir comparer nos ventes d’un mois à l’autre. Pour cela, glissez-déposez les champs présents dans les mesures et dimensions sur la gauche de votre espace de travail vers les colonnes, lignes, filtres et repères sur la droite. A noter que pour le mois vous devez glisser-déposer la hiérarchie Année - Semestre - Trimestre - Mois dans les repères puis cliquer sur + jusqu’à obtenir le mois.

Jita Business - Evolution du chiffre d'affaire
Jita Business - Evolution du chiffre d'affaire.

Personnalisation de la mesure :

  • Dans Lignes faites un clic sur Amount et sélectionnez Calcul de table rapide puis Total cumulé. Notez que ce champ contient les valeurs de chacune des transactions.
  • Faites un clic-droit sur l’axe des ordonnées et choisissez Modifier l'axe : supprimez le titre. Faites de nouveau un clic-droit et choisissez Formater. Dans l’onglet Volet, rubrique Par défaut, modifiez le champ Nombres : choisissez une devise personnalisée, 0 décimale, les unités en millions et le suffixe isk.

Personnalisation des dimensions :

  • Comme nous voulons le chiffre d’affaire assurez-vous d’avoir choisi le bon filtre au niveau du champ Trans Type.
  • Si ce n’est pas fait, déposez le champ Mois sur Couleur ou encore cliquez sur l’icone devant Mois et choisir Couleur.
  • Faites un clic-droit sur l’étiquette du champs Jour du mois et sélectionnez Masquer les étiquette de champ pour les colonnes.

Personnalisation graphique :

  • Ouvrez les options concernant un des champs Mois (cliquez sur la flèche vers le bas à droite du champs qui apparaît lors du survol de votre souris) et sélectionnez Afficher le surligneur.
  • Cliquez sur le titre du graphique et nommez-le Somme cumulée du chiffre d’affaire par jour du mois.
  • Allez dans le menu Feuille de calcul puis Infobulle et copiez-collez le code suivant en appliquant à bon escient les polices Tableau bold, Tableau Semi-bold et Tableau Light. A noter que tous les champs nécessaires doivent être présents dans les repères ou les étagères pour que cela fonctionne.
    <Dim Date.Jour Du Mois> <Dim Date.Année -  Semestre -  Trimestre -  Mois -  Date.Mois>
    Chiffre d'affaire cumulé à ce jour : <Somme cumulé(e) de Transaction amount>
    ------------
    Montant journalier des ventes : <Transaction amount>
    Nombre journalier de transactions de vente : <Number of transactions>
    Nombre journalier de produits vendus : <Quantity of products>

Suivi des ventes

Créez une nouvelle feuille suivi des ventes pour produire un graphique donnant par semaine, et répartis par catégorie de produits, le montant des ventes, le nombre de transactions et le nombre de produits vendus.

Jita Business - Suivi des ventes
Jita Business - Suivi des ventes.

Création du tableau de bord

Pour finaliser le tableau de bord il ne reste plus qu’à créer une feuille pour les mesures associées au 24 septembre, date qui correspond à la veille dans notre contexte. Une fois tous les graphiques terminés, réunissez-les au sein d’un même tableau de bord. Attention il faut être patient et avoir pris le temps de réfléchir au flux de positionnent de vos graphiques en utilisant de manière appropriée les Composé de tuiles dont la disposition se voit dans l’onglet Disposition.

Si vous avez besoin d’aide pour peaufiner votre tableau de bord vous pouvez télécharger le classeur qui a servi à créer les graphiques de ce support :

Comprendre un modèle dimensionnel

La représentation sous forme de cube n’est pas utilisée pour spécifier une structure de données multi-dimensionelle car elle manque de lisibilité. On préfère utiliser des schémas dimensionnels à plat qui sont présentés sous forme de tables possédant des références entre elles. Avant d’aborder deux notions essentielles, le schéma en étoile et l’architecture en bus nous allons définir quelques quelques notions essentielles.

Fait, dimension, mesure et grain

Lorsque nous voulons suivre les performances d’un processus métier ou d’une activité nous utilisons des tableaux de bord possédant un ou plusieurs indicateurs. Un indicateur est une représentation graphique d’une ou plusieurs mesures, suivant un ou plusieurs axes d’analyse. Dans un modèle dimensionnel, ces mesures sont appelées des faits et les axes d’analyses qui permettent de définir le contexte sont appelés des dimensions.

Fait / Mesure
Un fait ou une mesure correspond à une valeur dans une ligne d’une table de faits.
Dimension
Une dimension est un axe d’analyse suivant lequel on peut considérer une mesure. Les dimensions permettent de naviguer dans les niveaux de granularités.
Grain
Le grain est ce qui permet de définir le niveau de détail des informations présentes dans une ligne d’une table de faits. Il est défini par un ensemble minimal de dimensions.

Le schéma en étoile et l’architecture en bus décisionnel

Une table de faits est reliée à des dimensions afin de construire un datamart ou marché d’information. Il existe deux approches pour relier faits et dimensions : le schéma en étoile ou le schéma en flocon.

Schéma en étoile
Un schéma est dit en étoile si une table de faits centrale contenant des mesures est reliée à des dimensions qui n’ont pas de liens entre elles. Nous sommes alors en présence d’un schéma non normalisé.

Un schéma en étoile introduit de la redondance de manière contrôlée au niveau de la table de faits afin d’améliorer les performances des requêtes complexes en évitant de nombreuses jointures entre les dimensions.

Schéma en flocon
Un schéma est dit en flocon lorsqu’une table de faits centrale est reliée à des dimensions qui sont elles-mêmes reliées à de nouvelles dimensions construites en normalisant les informations.

Un schéma en flocon évite d’introduire de la redondance en normalisant les dimensions. Etant donné que nous sommes dans un paradigme OLAP (sans notion de transaction) cette approche n’est utile que dans certains contextes précis. En dehors de ces situations, que vous découvrirez plus tard, on préféréra systématiquement les schémas en étoile.

L’approche défendue par Kimball lors de la conduite d’un projet décisionnel est une approche itérative, où chaque étape consiste à concevoir un datamart (défini par un schéma en étoile) répondant aux besoins d’un processus métier ou d’une activité de prise de décision. Cette approche nécessite la mise en place d’une architecture en bus décisionnel basée sur des dimensions et des faits conformes.

Dimensions conformes
Les dimensions conformes sont soit identiques à la dimension la plus granulaire et la plus détaillée, soit des sous-ensembles stricts de celle-ci, au sens mathématique.@Kimball2003

Les dimensions conformes utilisent les mêmes clés dimensionnelles, les mêmes noms de colonnes d’attributs, les mêmes définitions d’attributs et les mêmes valeurs d’attributs (ce qui garantit des intitulés d’états et des regroupements d’information cohérents). @Kimball2003

Faits conformes
Un fait est dit conforme, s’il existe à différents endroits en portant le même nom et que les définitions et modes de calculs sous-jacents sont les mêmes. @Kimball2003

Le principe d’architecture en bus décisionnel (soutenu par Kimball) précise qu’un ensemble de datamarts partagent plusieurs dimensions communes appelées dimensions conformes. Ainsi, lorsqu’un un datamart est déjà constitué en ajouter de nouveaux est plus simple car il suffit de créer une nouvelle table de faits et d’ajouter les dimensions manquantes, les dimensions conformes pouvant être réutilisées.

Annexe

Pour aller plus loin !

Je vous conseille de vous rendre sur la page de ressources proposées par Tableau pour trouver une vidéo qui correspond à votre besoin : elles sont nombreuses, profitez-en !

http://www.tableau.com/learn/

Accès au serveur distant

Les logiciels à utiliser sont installés sur le serveur srv-disi-b2-90.priv.enst-bretagne.fr. Vous devez donc, pour commencer, établir une connexion par bureau distant (RDP) sur ce serveur :

  • Sous Windows, vous devez allez dans Démarrer/Accessoires/Connexion bureau à distance
  • Sous Linux, vous devez aller dans Applications/Internet/Visionneur de bureau distant Remmina

Accès au logiciel Tableau

Lancer le logiciel Tableau 10.0 à partir du menu Démarrer. A noter que pour la durée de ce cours une clef vous est offerte par Tableau Software pour usage sur votre PC personnel, demandez-là à votre enseignant.

Suivez les instructions de la figure ci-dessous pour vous connecter à l’entrepôt de données en établissant une connexion au server Microsoft Analysis Services.

Connexion aux sources de données dans Tableau Software.
Connexion aux sources de données dans Tableau Software.

Choisissez ensuite la base de données Jita_Business et le cube Transactions, puis accédez à la première feuille de calculs.