Collecte des données : ETL Extract Transform load

Par   Partagez : Envoyer le lien de cet article par e-mail   

Les outils de collecte des données

nettoyage des données

Collecte des données décisionnelles

Lors des premiers projets décisionnels, cette phase de collecte et de préparation des données était généralement sous-estimée.

C'est peut-être là une des principales explications des échecs de réalisations et des très nombreux dépassements de budget. Retenons que cette phase de collecte et de préparation préalable représente à peu près les 3/4 du projet.

Les outils d'ETL - Extract, Transform, Load - ont en charge cette fonction essentielle du système global décisionnel. Il s'agit en effet de gérer toutes les étapes de la collecte et de la préparation des données.

ETL Extract Transform Load, Extraire Transformer Charger

Les systèmes de gestion des données de l'entreprise sont hétérogènes autant sur le plan technique que sur le plan logique. Les données à collecter sont en effet stockées dans des systèmes de natures différentes, sous des formats différents, selon des structures différentes. Selon l'"histoire" du SI, les systèmes de stockage proviennent d'éditeurs différents. D'autre part, la micro informatique a fait des ravages notamment dans les services financiers et commerciaux. Il faudra alors chercher l'info essentielle dans des bases types Access ® des classeurs Excel ®...

ETL schéma de principe
Schéma de principe ETL

Enfin les données sont aussi hétérogènes sur le plan logique. Pour rapprocher des données, encore faut-il bien comprendre ce que chacune signifie. Le manque de cohérence des données de référence de l'entreprise est un mal connu. Il est d'autant plus fort lors des opérations de concentration, d'absorption et de fusion d'autres acteurs du marché. Le projet de Gestion des données de référence, MDM Master Data Management tente de remédier à cet handicap chronique.

Extract Extraire

Accéder à la majorité des systèmes de stockage de données (SGBD, ERP, fichiers à plat...) afin de récupérer les données identifiées et sélectionnées. Prendre en compte les questions de synchronisation et de périodicité des rafraîchissements.

Transform Transformer

Toutes les données ne sont pas utilisables telles quelles. Elle méritent d'être vérifiées, reformatées, nettoyées afin d'éliminer les valeurs aberrantes et les doublons et consolidées.

Load Charger

Insérer les données dans le Data Warehouse ou le Data Mart.

Elles sont ensuite disponibles pour les différents outils d'analyse et de présentation que sont le Data Mining, l'analyse multimensionnelle OLAP, les analyses géographiques, les requêteurs et autres reportings et bien sûr les tableaux de bord.

Recommandations

Pour transformer les données en valeur, il est nécessaire d'investir dans la technologie mais ce n'est pas suffisant. Collecter des données tout azimuts sans une logique préalable, une stratégie spécifique peut s'avérer plus risqué que profitable.

Les problèmes de "silos" et de cloisonnement, les délicates questions de nettoyage et de consolidation, le manque de compétence pour évaluer l'importance de données rebuteront les plus tenaces.
Définir le "pourquoi", pour quels besoins d'analyse, avant le "Comment" permettra de répondre aux questions essentielles comme : Quelle données collecter ? Quelles données archiver ? Quelles données rapprocher ? Quelles données sécuriser ?
Les questions de sécurité et de confidentialité des données, puis de traçabilité, seront posées au plus tôt du lancement du projet.

Et le Big Data ?

Le Big Data est dans une toute autre logique que le traditionnel Data Warehouse. Il s'agit en effet de stocker de très grandes quantités de données et de gérer et d'analyser des flux massifs d'informations en continu. L'ETL est trop complexe et surtout trop coûteux et trop lent pour répondre aux besoins du Big data sans le dénaturer.

Il faut alors adopter le principe qu'à partir du moment où l'on travaille sur de très large quantité de données, on peut s'autoriser une marge d'erreur qui ne sera pas significative pour les résultats des analyses.

Evidemment, on ne confondra pas les données massives du Big Data avec les données de référence dont la qualité est primordiale. Une erreur minime sur le comptage des clics d'une page produit dans une boutique en ligne n'aura pas les mêmes conséquences qu'une erreur de facturation.

Des solutions plus rapides et mieux adaptées à la technologie Big Data Hadoop sont alors indispensables. Les solutions de type "ELT" par exemple, stockent directement les données brutes et les préparent uniquement au moment de l'analyse, d'où l'inversion entre les lettres "L" pour Load et "T" pour Transform.

Quelques fournisseurs

  • IBM ® Information Server, InfoSphere ® DataStage ®
  • SAS Data Integration Studio
  • Oracle Warehouse Builder (OWB)
  • Sap BusinessObjects Data Integration

Principaux produits Open Source

Livre de référence

Un guide pratique pour aborder la phase essentielle du projet data warehouse. La phase ETL est aussi la plus difficile et la plus consommatrice de temps, elle requiert toutes les énergies disponibles. (Livre en anglais)

The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data The Data Warehouse ETL Toolkit
Ralph Kimball, Joe Caserta
Wiley
528 pages
Prix : 24 Euros
Dispo :
www.amazon.fr & Format Kindle


Partagez cet article...

Envoyer le lien de cet article par e-mail   
(total partages cumulés > 45)

Commentaires lecteurs...

Pour commenter en tant qu'Anonyme, cliquez sur "Commencez la discussion" Puis sur "Nom", tout en bas apparaît alors une case à cocher : "Je préfère publier en tant qu'invité"

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Google+    Twitter    Facebook

Excel ® est une marque déposée de Microsoft Corp ®
Gimsi ® est une marque déposée de Alain Fernandez



Copyright : Alain FERNANDEZ ©1998-2017 Tous droits réservés Mentions légales


»» Toutes les fiches Piloter.org »»
Management de l'entreprise
  Suivez-nous :   Google+   twitter+  Facebook  Linkedin    e-mail