Data Warehouse, Entrepôt de données

Par   Partagez : Envoyer le lien de cet article par e-mail   

Qu'est-ce qu'un Data Warehouse ?

Définition du Data Warehouse

Le Data Warehouse, ou entrepôt de données, est une base de données dédiée au stockage de l'ensemble des données utilisées dans le cadre de la prise de décision et de l'analyse décisionnelle. Le Data Warehouse est exclusivement réservé à cet usage. Il est alimenté en données depuis les bases de production grâce notamment aux outils d'ETL Extract Transform Load.

Les 4 caractéristiques du Data Warehouse

Le Data Warehouse n'est pas une simple copie des données de production. Le data warehouse est organisé et structuré.
Père du concept, Bill Immon dans son livre "Building the Data Warehouse" (John Wiley and Son 1996) le décrit ainsi :
"Subject oriented, integrated, nonvolatile, time variant collection of data in support of management decisions.
Data Warehouse
  1. Orienté sujet

    Au coeur du Data warehouse, les données sont organisées par thème. Les données propres à un thème, les ventes par exemple, seront rapatriées des différentes bases OLTP de production et regroupées.
  2. Intégré

    Les données proviennent de sources hétérogènes utilisant chacune un type de format. Elles sont intégrées avant d'être proposées à utilisation
  3. Non volatile

    Les données ne disparaissent pas et ne changent pas au fil des traitements, au fil du temps (Read-Only).
  4. Historisé

    Les données non volatiles sont aussi horodatées. On peut ainsi visualiser l'évolution dans le temps d'une valeur donnée.
    Le degré de détail de l'archivage est bien entendu relatif à la nature des données. Toutes les données ne méritent pas d'être archivées.

Data Warehouse Open Source

L'Infocentre, l'ancêtre des bases de données décisionnelles

L’infocentre était un SGBDR présentant une copie de travail d’une partie de la base de production, mise à jour périodiquement. L’infocentre était une première solution pour soulager le système de production des requêtes complexes du décideur. Il permettait en effet de transférer les données de base de type non relationnel dans un univers plus propice à l’interrogation impromptue.

Avec l’accroissement des besoins en matière de décision, que ce soit en termes de quantité de données collectées ou en nombre d’utilisateurs potentiels, l’infocentre se révéla bien insuffisant. Le DW l’a rapidement remplacé.

Un projet de Management

Pour Bill Inmon, père "putatif" du Data Warehouse, La finalité n'est pas de fédérer l'ensemble des données de production. Le datamart n'est pas non plus un entrepôt de taille réduite qui attend patiemment de grandir... la finalité est tout autre. Un data Warehouse est un instrument d'assistance au management. Perdez de vue cette finalité et votre projet sera en bien mauvaise voie... Á méditer.

Toutes les entreprises ne passeront pas au Big Data...

Cela dit big data ou pas, c'est bien le soin avec lequel on a structuré la base qui assure de la qualité des informations décisionnelles que l'on pourra en extraire. S'extasier devant la capacité de stockage des bases en pleine croissance exponentielle est devenu un vrai poncif. Cela dit, les chiffres sont de plus en plus impressionnants.

Considérons une base typique comme Microsoft Azure SQL qui propose une capacité maximale de 240 Teraoctets (1012). Si on considère qu'un livre texte de 300 pages occupent environ 900.000 octets (300*3.000). On pourrait donc stocker sur cette base l'équivalent de : 200 Téraoctets/900000, environ 200 millions d'ouvrages... Soit bien plus que les 14 millions de livres de la BNF (1). C'est un exemple à ne pas prendre à la lettre, il s'agit juste de donner une idée concrète de ces dimensions tout en sachant que les bases les plus importantes utilisent le pétaoctet (1015) comme unité de mesure.

Il est bien évident qu'en situation de décision, il ne s'agit pas de chercher à accéder à une telle masse de données. Chaque décideur désire l'accès uniquement à celles qui l'intéresse bien entendu.
En fait c'est bien par cette affirmation qu'il faudrait commencer tous les projets décisionnels et ne pas se laisser influencer par le gigantisme des bases actuelles en espérant que le décideur se débrouille tout seul ! Mission impossible !
C'est bien par la question de la structure de la base qu'il faut commencer, lui donner du sens pour en extraire des enseignements pertinents.

De toutes façons, toutes les entreprises ne sont pas prêtes à passer au Big data (voir ici le dossier big data). Le Big Data exige un investissement comséquent, non seulement dans la technologie mais aussi dans la compétence. Sans un spécialiste de l'analyse et des managers bien sensibilisés donc bien formés, la technologie a elle seule ne sert pas à grand chose...

Revenons à la question du Data Warehouse plus classique :

  • 1 A quelles informations veut-on pouvoir accéder ?
  • 2 Quelles données faut-il alors mettre dans le DW ?
  • 3 Comment doit-on les organiser ?
Ensuite, la capacité de stockage intervient dans un second temps et chacun verra cette question en fonction des réponses ci-dessus. A noter une question subsidiaire d'importance avant de dimensionner définitivement le système : Et demain ? On évolue comment ?

Facteurs d'utilité et de performance du système

La qualité de l'intégration des données au sein du Data Warehouse est désormais reconnue comme le principal facteur conditionnant la réussite du système décisionnel.
C'est dire si cet aspect du projet Business Intelligence mérite un soin particulier.
Il ne faudrait pas pour autant que ce point, quoique essentiel, mobilise la totalité des efforts de conception. L'ensemble du projet est complexe. Il serait ainsi peu judicieux de ne pas consacrer autant d'attention à l'épineuse question de l'organisation des bases décisionnelles.

L'hypothétique information...

Ce second aspect influence directement la facilité d'accès à une information précise.
En effet, l'utilisateur en situation ne dispose jamais du temps et de l'énergie nécessaires pour fouiller dans les bases en quête d'une hypothétique information. L'accessibilité en un temps raisonnable à l'information traduit en fait le degré d'utilité (et aussi d'utilisation) du système décisionnel.
Pour faire simple, plus les informations seront faciles d'accès, plus l'instrument sera utilisé et par conséquent, plus il sera appelé à se développer. Eternelle règle de l'utilité et de l'utilisation des systèmes informatiques
Bref, il s‘agit là ni plus ni moins du facteur définissant la performance globale du système d'aide à la décision.

Ressources web


(1) Pour les puristes, un ouvrage complet au format pdf illustrations comprises, type ebook occupe une taille de 3Mo. Une capacité de 200To permet peu ou prou de stocker 66 Millions de livres complets.

Livre recommandé

Une mise à jour majeure de l'ouvrage de référence du projet Data Warehouse. Ralph Kimball, Margy Ross sont des experts très largement reconnus. L'approche pratique et très terrain dont ils sont coutumiers, se retrouve à chacun des chapitres de cet ouvrage particulièrement complet. (Langue anglaise)

The Data Warehouse Lifecycle Toolkit The Data Warehouse Lifecycle Toolkit
R. Kimball, M. Ross, W. Thornthwaite, J. Mundy, B. Becker
John Wiley & Sons Ltd   Seconde édition révisée
672 pages
Prix : 35 Euros
Dispo chez :
www.amazon.fr



Partagez cet article...

Envoyer le lien de cet article par e-mail   
(total partages cumulés > 85)

Commentaires lecteurs...

Pour commenter en tant qu'Anonyme, cliquez sur "Commencez la discussion" Puis sur "Nom", tout en bas apparaît alors une case à cocher : "Je préfère publier en tant qu'invité"

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Google+    Twitter    Facebook

Excel ® est une marque déposée de Microsoft Corp ®
Gimsi ® est une marque déposée de Alain Fernandez



Copyright : Alain FERNANDEZ ©1998-2017 Tous droits réservés Mentions légales


Performance, Management & Décision
»» Tous les articles Piloter.org »»