Chaine youtube Piloter.org   Piloter.org sur facebook   Profil  Linkedin   Actualités Twitter
Plus de 800 fiches pratiques pour les managers, sans pub et sans traceurs…
Le Portail du Manager Innovant
Chaine youtube Piloter.org Je suis aussi  sur facebook  Je suis aussi sur  Linkedin  Actualités Twitter
×
★ Tous les articles classés ★

ETL Extract Transform Load, la collecte des données BI

Quels que soient le type et l'ampleur du projet décisionnel envisagé, la phase de collecte des données sera la phase essentielle. Il ne suffit pas de se reposer sur les outils technologiques de type ETL Extract Transform Load (ou ELT) pour accomplir cette lourde tâche. Pour constituer une base décisionnelle digne de ce nom, il faudra se pencher sérieusement sur le type, la valeur et la qualité des données collectées. D'expérience, les projets décisionnels, Datamart, Data Warehouse, Big Data, foirent justement parce que cette phase de collecte des données n'a pas été considérée à sa juste valeur. Investissement en perspective si vous souhaitez réussir le projet décisionnel !

ETL : Définition

nettoyage des données

Collecte des données décisionnelles

Lors des premiers projets décisionnels, cette phase de collecte et de préparation des données était généralement sous-estimée.

C'est peut-être là une des principales explications des échecs de réalisations et des très nombreux dépassements de budget. Retenons que cette phase de collecte et de préparation préalable représente à peu près les 3/4 du projet.

Les outils d'ETL - Extract, Transform, Load - ont en charge cette fonction essentielle du système global décisionnel. Il s'agit en effet de gérer toutes les étapes de la collecte et de la préparation des données.

ETL Extract Transform Load, Extraire Transformer Charger

Les systèmes de gestion des données de l'entreprise sont hétérogènes autant sur le plan technique que sur le plan logique. Les données à collecter sont en effet stockées dans des systèmes de natures différentes, sous des formats différents, selon des structures différentes. Selon l'"histoire" du SI, les systèmes de stockage proviennent d'éditeurs différents. D'autre part, la micro informatique a fait des ravages notamment dans les services financiers et commerciaux. Il faudra alors chercher l'info essentielle dans des bases types Access ® des classeurs Excel ®...

ETL schéma de principe
Schéma de principe ETL

Voir aussi

  • ODBC (sigle de Open Database Connectivity) ODBC
  • JDBC (Java Database Connectivity) JDBC
  • SOAP (originally Simple Object Access Protocol) SOAP

Cohérence des données

Enfin les données sont aussi hétérogènes sur le plan logique. Pour rapprocher des données, encore faut-il bien comprendre ce que chacune signifie. Le manque de cohérence des données de référence de l'entreprise est un mal connu. Il est d'autant plus fort lors des opérations de concentration, d'absorption et de fusion d'autres acteurs du marché. Le projet de Gestion des données de référence, MDM Master Data Management tente de remédier à cet handicap chronique.

ETL

Trois étapes : 1. Extraire 2. Transformer 3. Charger

Passons en revue les 3 étapes : Extraire, Transformer, Charger.
  • 1. Extraire (Extract)

    Accéder à la majorité des systèmes de stockage de données (SGBD, ERP, fichiers à plat...) afin de récupérer les données identifiées et sélectionnées. Prendre en compte les questions de synchronisation et de périodicité des rafraîchissements.

2. Transformer (Transform)

Toutes les données ne sont pas utilisables telles quelles. Elle méritent d'être vérifiées, reformatées, nettoyées afin d'éliminer les valeurs aberrantes, celles extérieures à la plage de vraisemblance et les doublons. Puis elles sont consolidées. Il s'agit aussi d'accorder un traitement particulier aux données manquantes. Comment consolider une information si quelques-unes des données la constituant ne sont pas collectées puisqu'elles sont inexistantes dans les bases ?

Les travaux de transformation tels que la standardisation des différents référentiels (unité, échelle) sont d'une ampleur nettement plus conséquente que ne pourrait le laisser supposer ce simple énoncé. Ensuite et seulement on peut procéder aux indispensables agrégations, c'est à dire la fusion de plusieurs données pour obtenir une seule information utilisable (moyenne, somme...).

  • 3. Charger (load)

    Insérer les données dans le Data Warehouse ou le Data Mart. Elles sont ensuite disponibles pour les différents outils d'analyse et de présentation que sont le Data Mining, l'analyse multimensionnelle OLAP, les analyses géographiques, les requêteurs et autres reportings et bien sûr les tableaux de bord.
  • Recommandations

    Pour transformer les données en valeur, il est nécessaire d'investir dans la technologie mais ce n'est pas suffisant. Collecter des données tout azimuts sans une logique préalable, une stratégie spécifique peut s'avérer plus risqué que profitable.

    Les problèmes de "silos" et de cloisonnement, les délicates questions de nettoyage et de consolidation, le manque de compétence pour évaluer l'importance de données rebuteront les plus tenaces.
    Définir le "pourquoi", pour quels besoins d'analyse, avant le "Comment" permettra de répondre aux questions essentielles comme : Quelle données collecter ? Quelles données archiver ? Quelles données rapprocher ? Quelles données sécuriser ?
    Les questions de sécurité et de confidentialité des données, puis de traçabilité, seront posées au plus tôt du lancement du projet.

    Et le Big Data ?

    Le Big Data est dans une toute autre logique que le traditionnel Data Warehouse. Il s'agit en effet de stocker de très grandes quantités de données et de gérer et d'analyser des flux massifs d'informations en continu. L'ETL est trop complexe et surtout trop coûteux et trop lent pour répondre aux besoins du Big data sans le dénaturer.

    Il faut alors adopter le principe qu'à partir du moment où l'on travaille sur de très large quantité de données, on peut s'autoriser une marge d'erreur qui ne sera pas significative pour les résultats des analyses.

    Dnas tous les cas, la possibilité d'exploiter des documents de multiples formats et non structurés est le point de basculement entre la business Intelligence que l'on a connu jusqu'à présent et celle que tout le monde attend. L'information n'est pas uniquement dans nos SGBD de production, bien rangée, dans l'attente d'être collectée.

    L'information est partout ailleurs, notamment au sein des documents non structurés. Ce constat est bien plus facile à écrire qu'à mettre en oeuvre. Il faudra encore un peu de temps avant d'extraire des documents non structurés un sens informatiquement utilisable. En attendant, on ne perdra pas son temps à s'intéresser aux bases de type nosql orientées documents.

    ans oublier les désormais incontournables réseaux sociaux dont il faudra extraire les informations relatives aux connexions et réseaux informels, à l'expression des émotions et plus généralement des documents non structurés.

    Evidemment, on ne confondra pas les données massives du Big Data avec les données de référence dont la qualité est primordiale. Une erreur minime sur le comptage des clics d'une page produit dans une boutique en ligne n'aura pas les mêmes conséquences qu'une erreur de facturation.

    Des solutions plus rapides et mieux adaptées à la technologie Big Data Hadoop sont alors indispensables. Les solutions de type "ELT" par exemple, stockent directement les données brutes et les préparent uniquement au moment de l'analyse, d'où l'inversion entre les lettres "L" pour Load et "T" pour Transform.

    Quelques fournisseurs

    Principaux produits Open Source

    Apache Kafka

    Kafka est une plate-forme Open-source visant à relier simplement les producteurs et les consommateurs de données. Jusque-là tout est simple. Pour la petite histoire, Kafka a d'abord été développé par Linkedin avant de rejoindre l'incubateur Apache. Pourquoi ce nom "Kafka" ? Tout simplement parce que Franz Kafka est l'auteur favori du créateur du progiciel (pour le moins il a un certain bon gout question littérature !). pou le dire vite, la plate-forme utilise un système de pipe-line temps-réel pour échanger des messages destinés à relier les producteurs et les consommateurs. Le produit présente l'immense avantage d'être adaptable et extensible à tous les types d'entreprises.

    • Pour en savoir un peu plus consultez le site Apache : kafka.apache.org

      Bus de terrain pour collecter toutes les informations

      Réseaux de terrainEn attendant le déploiement de l'internet des objets, étudions les réseaux de terrain pour collecter pratiquement toutes les informations .

      Les réseaux de communication constituent en effet l’épine dorsale de la société vers laquelle nous nous orientons indubitablement. La technologie des réseaux de communication rend accessible un plus vaste ensemble d’informations de l’entreprise.

      Les besoins de communication étant de plus en plus exigeants, cette technologie est en pleine évolution pour offrir une interconnexion plus globale des différents équipements et de meilleurs débits.

      Interconnexion plus globale de tous les équipements

      Pour éclairer notre étude, nous allons en survoler trois aspects :

      • Les réseaux et la collecte de données dans l’entreprise pour une meilleure connaissance de l’entreprise interne
      • les réseaux étendus et le dialogue avec les partenaires pour une entreprise communicante
      • l’informatique mobile pour une entreprise plus flexible

      La collecte de données dans l’entreprise

      Avec les capacités d’interconnexion des différents équipements informatiques, les décideurs ont une meilleure connaissance de l’entreprise en disposant d’une information précise en valeur et en temps. Par exemple, en interconnectant les caisses enregistreuses d’une chaîne de grand magasin avec l’informatique d’entreprise, un responsable produit peut connaître en temps réel les ventes d’une référence. Les stocks et réapprovisionnements peuvent ainsi être également gérés en temps réel.

      Interconnexion des réseaux

      Dans le cadre d’une entreprise industrielle, l’interconnexion des réseaux locaux et industriels apporte un grand nombre d’avantages au niveau de la précision et de la qualité de l’information. De nombreuses données vont ainsi être échangées avec le monde de la production.

      On définira 3 types de liaisons :

      • Les liens inter-équipements industriels assurent l’échange d’informations entre ces équipements.
      • Les liens équipements de terrain et monde informatique assurent les échanges entre les fonctions de gestion et le monde industriel.
        La tendance est la généralisation du standard de fait TCP/IP et l’intégration d’un serveur Web au niveau de l’équipement industriel, que ce soit un contrôleur ou une machine-outil. Cette connexion directe au réseau global simplifie la définition en termes d’échanges de données et résout l’éternel problème de la télémaintenance/télésurveillance.
      • Le troisième type de liaison concerne les bus de terrain, reliant entre eux les divers capteurs ou petits équipements (Fipbus, Profibus...).
        À l’origine, les réseaux de terrain répondaient à un enjeu purement économique, en permettant de diminuer les coûts de câblage et de re-câblage (flexibilité). L’intégration de capteurs « intelligents » permet de faciliter les opérations de maintenance en rapatriant des informations d’état de fonctionnement (étalonnage...).

      Horizontalité de l’entreprise

      L’interconnexion des réseaux est le fondamental de l’horizontalité de l’entreprise. La communication globale en temps réel garantit une plus grande finesse de gestion. La flexibilité et l’optimisation des ressources peuvent être poussées au maximum. Citons par exemple la gestion des stocks et des commandes en temps réel, ordonnancement au plus juste ou encore, gestion de qualité en temps réel (contrôle et traçabilité), gestion de maintenance complète...

      Un décideur mieux informé

      Après ce descriptif, nous comprenons comment le décideur de l’entreprise peut (et doit) disposer d’une vision globale de son outil de travail. L’horizontalité de l’entreprise, avec une informatique fédérée, assure une mise à plat des données.

      On pourra mettre ainsi sur le même plan les données de coûts, en mettant à profit par exemple la méthode ABC (Activities Based Costing) ou TDABC (Time Driven ABC), les données de production (état et qualité...), les données clients (commandes, délais), les données techniques (plan, procédures). Le décideur pourra ainsi, « sans limites », construire un tableau de bord adapté à ses propres besoins.

      Les réseaux étendus et le dialogue avec les partenaires

      Au premier chapitre, nous avons abordé le thème des « nouvelles frontières de l’entreprise » en appuyant notamment sur les liens étroits tissés par les sociétés avec leurs partenaires.
      Ces liens s’appuient bien sûr sur la technologie des réseaux.
      Ces nouvelles façons de travailler poussent à diminuer les lourdeurs administratives.
      En effet, avec les concepts du Juste À Temps et du zéro stock, la gestion des documents administratifs du style commandes, factures... sur support papier gêne la flexibilité des structures. L’EDI (Échange de Documents Informatisés) et la dématérialisation garantissent une plus grande flexibilité et une plus grande rapidité sans pour autant nuire à la sécurité. Avec la mise en place des normes de types ebXML,l’EDI devient accessible à tous. Le coût n’est plus un handicap. Il n’est plus nécessaire de disposer d’un accès (coûteux) à un réseau spécialisé.

      L’interconnexion des systèmes d’information permet aussi de répondre positivement à la question : peut-on réellement décentraliser lorsque l’on délocalise ?

      En effet, avec les réseaux de communication, l’accès à l’information, indépendamment de sa situation, devient matériellement possible. Cet aspect est encore renforcé aujourd’hui avec l’extension d’Internet.

      Les systèmes d’information peuvent à court terme communiquer avec une sécurité suffisante entre eux sans se préoccuper de leurs localisations physiques. Les entreprises tissent un réseau interentreprises virtuel par-dessus le réseau Internet en utilisant des techniques de cryptage des informations.

      Autonomie des acteurs de l'entreprise

      L’informatique contribue fortement à l’autonomie des acteurs de l’entreprise. Un commercial en déplacement peut consulter en interactif les derniers tarifs, l’état des stocks et la disponibilité d’un produit, puis passer une commande en se connectant simplement à l’informatique de l’entreprise.
      Avec la capacité accrue des mémoires de masse des ordinateurs personnels, l’utilisateur peut disposer en local d’une partie répliquée de la base de données du système d’information de l’entreprise.
      Techniquement, un maximum d’informations de l’entreprise et de son environnement est disponible, quelles que soient la topographie géographique et l’architecture du système d’information.

      L’auteur

      Alain FernandezAlain Fernandez est un spécialiste de la mesure de la performance, de l’aide à la décision et de la conception de tableaux de bord de pilotage. Au fil de ces vingt dernières années, il a conduit de nombreux projets de réalisation de système décisionnel en France et à l'International. Il est l'auteur de plusieurs livres publiés aux Éditions Eyrolles consacrés à ce thème, vendus à plusieurs dizaines de milliers d'exemplaires et régulièrement réédités.

      Ressources Web Ressources web

      • Qualité des données décisionnelles
        L'importance de la qualité des données collectées n'est plus à démontrer. Avec la croissance exponentielle du nombre de données générées, collectées, stockées, analysées et échangées, cette question est toujours plus sensible. S'il est en effet désormais techniquement possible de stocker et de traiter d'incommensurables masses de données, il serait plutôt dommageable de se risquer à prendre des décisions en se fiant à des données erronées. Et pourtant... GIGO Garbage In, Garbage Out dit-on. Autrement dit. si l'on rentre dans le système des données loin d'être nickel il ne faudra pas être surpris du résultat obtenu.
      • Gouvernance des données de l'entreprise
        L'importance de la gouvernance des données n'est plus à démontrer. Pour transformer les données en informations puis en connaissances, il est nécessaire d'investir dans la technologie. Les techniques, méthodes et outils d'ETL, Extract Transform Load remplissent cette fonction.Mais la technologie n'est pas suffisante pour régler la question. Collecter des données tous azimuts, sans une logique préalable, sans définir une stratégie spécifique peut s'avérer nettement moins profitable que prévu.
      • La Gestion des Données de Référence (MDM)
        Toutes les données de l'entreprise ne sont pas équivalentes en importance loin s'en faut. Il serait un peu absurde de traiter de la même manière un vague clic sur le produit d'une boutique en ligne et une donnée comptable capitale. La gestion des données de référence de l'entreprise est justement la réponse pour un management de la qualité des données bien spécifique. Voyons tout cela.

      Voir aussi...À ce sujet, voir aussi

      Livres de référence

      Cet ouvrage consacré au projet décisionnel dans sa totalité place justement l'accent sur la question de la collecte et l'importance de bien connaitre les données collectées. Ce n'est pas toujours aussi simple, notamment dans le cas de filiales ou de fusion d'entreprises où les habitudes sont différentes. Et même parfois les responsables locaux ne sont guère motivés pour communiquer les données et fournir les explications nécessaires. Ce livre développe une approche de terrain pour une collecte efficace dans le cadre de l'aide à la prise de décision.

      Nouveaux tableaux de bordLes nouveaux tableaux de bord des managers
      Le projet Business Intelligence en totalité
      Alain Fernandez  
      Éditions Eyrolles  6ème édition

      Disponible en librairie www.amazon.fr
      PDF & ePub    Kindle
      Voir ici la fiche technique, extraits, critiques...

      Un guide pratique pour aborder la phase essentielle du projet datawarehouse. La phase ETL est aussi la plus difficile et la plus consommatrice de temps, elle requiert toutes les énergies disponibles.

      The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data The Data Warehouse ETL Toolkit
      Ralph Kimball, Joe Caserta
      Wiley
      528 pages
      Prix : 24 Euros
      Dispo :
      www.amazon.fr & Format Kindle


      Livres à lire Piloter l'Entreprise Innovante...

      Avez-vous déjà essayé d'instaurer la prise de décision en équipe ? Sans précautions préalables, rapidement, le consensus le plus mou qui soit vient casser les plus pures ambitions. Mais connaissez-vous la méthode SOCRIDE centrée sur les questions incontournables de Confiance et de Reconnaissance ? Rien de plus facile ! Elle est expliquée, illustrée et détaillée dans ce livre :

      Tableaux de bord du manager innovant, le livreLes tableaux de bord du manager innovant
      Une démarche en 7 étapes pour faciliter la prise de décision en équipe

      Alain Fernandez
      Éditeur : Eyrolles
      Pages : 320 pages

      Fiche technique Consultez la fiche technique »»»

      Pour acheter ce livre :

      amazon.fr  Eyrolles.com  ="Fnac.com"

      Format ebook : PDF & ePub, Format Kindle

      Voir aussi...


      Les fiches du dossier: Qualité des données

      Partagez cet article...

      Envoyer le lien de cet article par e-mail    Twitter Facebook Linkedin Retour au début
      (total partages cumulés > 65)