Pour savoir où on va, il faut savoir d'où l'on vient

Vous avez
une question ?
Un projet ?

Contactez nous !
 

Contactez-nous

Vous avez une question ? un projet ? 
Vous souhaitez plus d'informations sur un produit ? sur notre offre ? 
Contactez-nous, on vous répond sous 4H.

retour

L’analyse multidimensionnelle ou OLAP

L’analyse multidimensionnelle ou OLAP

L’analyse multidimensionnelle est l’un des modes d’analyse les plus courants dans le décisionnel.
Essayons d’en donner les grands principes.
On dispose de jeux d’informations élémentaires, généralement en grands volumes, chaque ligne d’information étant un évènement caractérisée par :

  • Un identifiant unique
  • Des attributs qualifiant l’information
  • Des grandeurs portant une information quantitative

Pour être concrets, prenons l’exemple suivant, très classique, même s’il est très simplifié.
Considérons l’entité élémentaire qui est la ligne de facture. C’est souvent une entité clé dans une entreprise, l’information la plus fine dont on dispose par rapport aux processus de vente.
La ligne de facture appartient à une facture et porte sur la vente d’un produit, dans une quantité donnée, pour un prix donné à un client donné.
Elle porte en elle différents attributs : une indication de produit, une quantité, un prix unitaire, un prix total.
Au travers de la facture à laquelle la ligne appartient, on dispose d’autres informations : une référence de client, une date (année,
mois, jour).
Sur le client lui-même, on possède d’autres informations : pays, région, type de client, secteur de métier, etc.… Par ailleurs, le client est peut-être affecté à un collaborateur du commerce.
Nous nous arrêterons ici pour cet exemple, mais l’on voit bien que l’on peut pousser très loin cette collecte d’information gravitant
autour de l’entité la plus élémentaire qu’est la ligne de facture.

L’analyse multidimensionnelle ou OLAP

Une première étape est donc la réunion de toutes les informations nécessaires à nos analyses. Ici, les informations sont par exemple :

  • Date (année, mois, jour)
  • Produit
  • Famille de produits
  • Client
  • Pays du client
  • Commercial
  • Quantité
  • CA

Les premières informations constituent les axes d’analyse potentiels, les deux dernières constituent les grandeurs.
Dans l’analyse multidimensionnelle, la modélisation relationnelle de départ n’est pas la plus pertinente, ni la plus efficace. On préfère généralement dénormaliser la base, c’est à dire travailler sur une table unique dans laquelle ont été rassemblées toutes les informations utiles.

Dans notre cas, on obtient :

Date

Produit

Segment

Famille

Client

Pays

Ccal

Quantité

CA

31/03/2007

12030991

Tondeuse

Jardinage

Castorama

France

Lepaul

50

50 000

31/03/2007

14030952

Perceuse

Outillage

Castorama

France

Lepaul

120

11 000

30/04/2007

12030993

Tondeuse

Jardinage

LeroyMerlin

Italie

Legrand

250

230 000

Etc.…

               

On remarque bien sûr qu’il y a énormément de redondance dans ce tableau, mais finalement il est plus utile ici de gérer de l’information redondante mais simple, et l’on ne s’occupe pas des problèmes de cohérence et d’intégrité qui sont du domaine des systèmes d’information.
L’étape suivante consiste à faire un premier niveau d’agrégation, c’est à dire à réunir certaines lignes.Dans notre cas, on peut faire par exemple l’hypothèse que les données ne seront pas utilisées au niveau de la référence produit, mais uniquement par segment. Dans ce cas, on réunira toutes les lignes identiques pour la clé (date, segment, famille, client, pays, commercial), et l’on cumulera les grandeurs quantité et CA.

La dernière étape est celle de l’analyse multidimensionnelle proprement dite, qui consiste à sélectionner des axes d’analyse.
Parmi ces axes, on peut distinguer

  • Des axes à valeurs discrètes, ou discontinues, c’est à dire qui portent un nombre fini de valeurs, par exemple un code postal, un segment CSP.
  • Des axes à valeurs continues, typiquement une date, un prix.
  • On peut les ramener à un nombre discret de valeurs en définissant des tranches : tranches de prix, tranches d’âges.

On distingue également :

  • Des grandeurs cumulables, par exemple un montant, un nombre d’items.
  • Des grandeurs non cumulables, par exemple l’âge ou la date.

Les grandeurs cumulables sont celles qu’il est pertinent d’agréger, c’est à dire dont on peut calculer la somme, (ou la moyenne, ou d’autres fonctions mathématiques), pour un sous-ensemble de lignes, par exemple pour chaque thématique.

L’analyse-multidimensionnel_2

L’analyse multidimensionnelle consiste donc à :

  • Définir les axes d’analyse que l’on utilisera, et l’ordre dans lesquels on les utilise. Par exemple : par région, puis par année, puis par vendeur, puis par gamme de produits. On n’utilisera pas toujours tous les axes possibles.
  • Définir la ou les grandeurs qui sont étudiées, et éventuellement la fonction qu’on applique à ces grandeurs.

Chaque hiérarchisation des axes d’analyse correspond à une question que l’on se pose.
Par exemple une analyse par année, par vendeur vise à représenter l’évolution du chiffre d’affaires, puis à comparer les vendeurs chaque année écoulée. Une analyse par vendeur, par année vise avant tout à comparer les vendeurs (…).