!--include-->

Collecte des données : ETL Extract Transform load

13 octobre 2017  Par          Partagez

Les outils de collecte des données

nettoyage des données

Collecte des données décisionnelles

Lors des premiers projets décisionnels, cette phase de collecte et de préparation des données était généralement sous-estimée.

C'est peut-être là une des principales explications des échecs de réalisations et des très nombreux dépassements de budget. Retenons que cette phase de collecte et de préparation préalable représente à peu près les 3/4 du projet.

Les outils d'ETL - Extract, Transform, Load - ont en charge cette fonction essentielle du système global décisionnel. Il s'agit en effet de gérer toutes les étapes de la collecte et de la préparation des données.

ETL Extract Transform Load, Extraire Transformer Charger

Les systèmes de gestion des données de l'entreprise sont hétérogènes autant sur le plan technique que sur le plan logique. Les données à collecter sont en effet stockées dans des systèmes de natures différentes, sous des formats différents, selon des structures différentes. Selon l'"histoire" du SI, les systèmes de stockage proviennent d'éditeurs différents. D'autre part, la micro informatique a fait des ravages notamment dans les services financiers et commerciaux. Il faudra alors chercher l'info essentielle dans des bases types Access ® des classeurs Excel ®...

ETL schéma de principe
Schéma de principe ETL

Enfin les données sont aussi hétérogènes sur le plan logique. Pour rapprocher des données, encore faut-il bien comprendre ce que chacune signifie. Le manque de cohérence des données de référence de l'entreprise est un mal connu. Il est d'autant plus fort lors des opérations de concentration, d'absorption et de fusion d'autres acteurs du marché. Le projet de Gestion des données de référence, MDM Master Data Management tente de remédier à cet handicap chronique.

ETL

Extract Extraire

Accéder à la majorité des systèmes de stockage de données (SGBD, ERP, fichiers à plat...) afin de récupérer les données identifiées et sélectionnées. Prendre en compte les questions de synchronisation et de périodicité des rafraîchissements.

Transform Transformer

Toutes les données ne sont pas utilisables telles quelles. Elle méritent d'être vérifiées, reformatées, nettoyées afin d'éliminer les valeurs aberrantes, celles extérieures à la plage de vraisemblance et les doublons. Puis elles sont consolidées. Il s'agit aussi d'accorder un traitement particulier aux données manquantes. Comment consolider une information si quelques-unes des données la constituant ne sont pas collectées puisqu'elles sont inexistantes dans les bases ? Les travaux de transformation tels que la standardisation des différents référentiels (unité, échelle) sont d'une ampleur nettement plus conséquente que ne pourrait le laisser supposer ce simple énoncé. Ensuite et seulement on peut procéder aux indispensables agrégations, c'est à dire la fusion de plusieurs données pour obtenir une seule information utilisable (moyenne, somme...).

Load Charger

Insérer les données dans le Data Warehouse ou le Data Mart.

Elles sont ensuite disponibles pour les différents outils d'analyse et de présentation que sont le Data Mining, l'analyse multimensionnelle OLAP, les analyses géographiques, les requêteurs et autres reportings et bien sûr les tableaux de bord.

Recommandations

Pour transformer les données en valeur, il est nécessaire d'investir dans la technologie mais ce n'est pas suffisant. Collecter des données tout azimuts sans une logique préalable, une stratégie spécifique peut s'avérer plus risqué que profitable.

Les problèmes de "silos" et de cloisonnement, les délicates questions de nettoyage et de consolidation, le manque de compétence pour évaluer l'importance de données rebuteront les plus tenaces.
Définir le "pourquoi", pour quels besoins d'analyse, avant le "Comment" permettra de répondre aux questions essentielles comme : Quelle données collecter ? Quelles données archiver ? Quelles données rapprocher ? Quelles données sécuriser ?
Les questions de sécurité et de confidentialité des données, puis de traçabilité, seront posées au plus tôt du lancement du projet.

Et le Big Data ?

Le Big Data est dans une toute autre logique que le traditionnel Data Warehouse. Il s'agit en effet de stocker de très grandes quantités de données et de gérer et d'analyser des flux massifs d'informations en continu. L'ETL est trop complexe et surtout trop coûteux et trop lent pour répondre aux besoins du Big data sans le dénaturer.

Il faut alors adopter le principe qu'à partir du moment où l'on travaille sur de très large quantité de données, on peut s'autoriser une marge d'erreur qui ne sera pas significative pour les résultats des analyses.

Dnas tous les cas, la possibilité d'exploiter des documents de multiples formats et non structurés est le point de basculement entre la business Intelligence que l'on a connu jusqu'à présent et celle que tout le monde attend. L'information n'est pas uniquement dans nos SGBD de production, bien rangée, dans l'attente d'être collectée.

L'information est partout ailleurs, notamment au sein des documents non structurés. Ce constat est bien plus facile à écrire qu'à mettre en oeuvre. Il faudra encore un peu de temps avant d'extraire des documents non structurés un sens informatiquement utilisable. En attendant, on ne perdra pas son temps à s'intéresser aux bases de type nosql orientées documents.

ans oublier les désormais incontournables réseaux sociaux dont il faudra extraire les informations relatives aux connexions et réseaux informels, à l'expression des émotions et plus généralement des documents non structurés.

Evidemment, on ne confondra pas les données massives du Big Data avec les données de référence dont la qualité est primordiale. Une erreur minime sur le comptage des clics d'une page produit dans une boutique en ligne n'aura pas les mêmes conséquences qu'une erreur de facturation.

Des solutions plus rapides et mieux adaptées à la technologie Big Data Hadoop sont alors indispensables. Les solutions de type "ELT" par exemple, stockent directement les données brutes et les préparent uniquement au moment de l'analyse, d'où l'inversion entre les lettres "L" pour Load et "T" pour Transform.

Quelques fournisseurs

  • IBM ® Information Server, InfoSphere ® DataStage ®
  • SAS Data Integration Studio
  • Oracle Warehouse Builder (OWB)
  • Sap BusinessObjects Data Integration

Principaux produits Open Source

Bus de terrain pour collecter toutes les informations

Réseaux de terrainEn attendant le déploiement de l'internet des objets, étudions les réseaux de terrain pour collecter pratiquement toutes les informations .

Les réseaux de communication constituent en effet l’épine dorsale de la société vers laquelle nous nous orientons indubitablement. La technologie des réseaux de communication rend accessible un plus vaste ensemble d’informations de l’entreprise.

Les besoins de communication étant de plus en plus exigeants, cette technologie est en pleine évolution pour offrir une interconnexion plus globale des différents équipements et de meilleurs débits.

Interconnexion plus globale de tous les équipements

Pour éclairer notre étude, nous allons en survoler trois aspects :

  • Les réseaux et la collecte de données dans l’entreprise pour une meilleure connaissance de l’entreprise interne
  • les réseaux étendus et le dialogue avec les partenaires pour une entreprise communicante
  • l’informatique mobile pour une entreprise plus flexible

La collecte de données dans l’entreprise

Avec les capacités d’interconnexion des différents équipements informatiques, les décideurs ont une meilleure connaissance de l’entreprise en disposant d’une information précise en valeur et en temps. Par exemple, en interconnectant les caisses enregistreuses d’une chaîne de grand magasin avec l’informatique d’entreprise, un responsable produit peut connaître en temps réel les ventes d’une référence. Les stocks et réapprovisionnements peuvent ainsi être également gérés en temps réel.

Interconnexion des réseaux

Dans le cadre d’une entreprise industrielle, l’interconnexion des réseaux locaux et industriels apporte un grand nombre d’avantages au niveau de la précision et de la qualité de l’information. De nombreuses données vont ainsi être échangées avec le monde de la production.

On définira 3 types de liaisons :

  • Les liens inter-équipements industriels assurent l’échange d’informations entre ces équipements.
  • Les liens équipements de terrain et monde informatique assurent les échanges entre les fonctions de gestion et le monde industriel.
    La tendance est la généralisation du standard de fait TCP/IP et l’intégration d’un serveur Web au niveau de l’équipement industriel, que ce soit un contrôleur ou une machine-outil. Cette connexion directe au réseau global simplifie la définition en termes d’échanges de données et résout l’éternel problème de la télémaintenance/télésurveillance.
  • Le troisième type de liaison concerne les bus de terrain, reliant entre eux les divers capteurs ou petits équipements (Fipbus, Profibus...).
    À l’origine, les réseaux de terrain répondaient à un enjeu purement économique, en permettant de diminuer les coûts de câblage et de re-câblage (flexibilité). L’intégration de capteurs « intelligents » permet de faciliter les opérations de maintenance en rapatriant des informations d’état de fonctionnement (étalonnage...).

Horizontalité de l’entreprise

L’interconnexion des réseaux est le fondamental de l’horizontalité de l’entreprise. La communication globale en temps réel garantit une plus grande finesse de gestion. La flexibilité et l’optimisation des ressources peuvent être poussées au maximum. Citons par exemple la gestion des stocks et des commandes en temps réel, ordonnancement au plus juste ou encore, gestion de qualité en temps réel (contrôle et traçabilité), gestion de maintenance complète...

Un décideur mieux informé

Après ce descriptif, nous comprenons comment le décideur de l’entreprise peut (et doit) disposer d’une vision globale de son outil de travail. L’horizontalité de l’entreprise, avec une informatique fédérée, assure une mise à plat des données.

On pourra mettre ainsi sur le même plan les données de coûts, en mettant à profit par exemple la méthode ABC (Activities Based Costing) ou TDABC (Time Driven ABC), les données de production (état et qualité...), les données clients (commandes, délais), les données techniques (plan, procédures). Le décideur pourra ainsi, « sans limites », construire un tableau de bord adapté à ses propres besoins.

Les réseaux étendus et le dialogue avec les partenaires

Au premier chapitre, nous avons abordé le thème des « nouvelles frontières de l’entreprise » en appuyant notamment sur les liens étroits tissés par les sociétés avec leurs partenaires.
Ces liens s’appuient bien sûr sur la technologie des réseaux.
Ces nouvelles façons de travailler poussent à diminuer les lourdeurs administratives.
En effet, avec les concepts du Juste À Temps et du zéro stock, la gestion des documents administratifs du style commandes, factures... sur support papier gêne la flexibilité des structures. L’EDI (Échange de Documents Informatisés) et la dématérialisation garantissent une plus grande flexibilité et une plus grande rapidité sans pour autant nuire à la sécurité. Avec la mise en place des normes de types ebXML,l’EDI devient accessible à tous. Le coût n’est plus un handicap. Il n’est plus nécessaire de disposer d’un accès (coûteux) à un réseau spécialisé.

L’interconnexion des systèmes d’information permet aussi de répondre positivement à la question : peut-on réellement décentraliser lorsque l’on délocalise ?

En effet, avec les réseaux de communication, l’accès à l’information, indépendamment de sa situation, devient matériellement possible. Cet aspect est encore renforcé aujourd’hui avec l’extension d’Internet.

Les systèmes d’information peuvent à court terme communiquer avec une sécurité suffisante entre eux sans se préoccuper de leurs localisations physiques. Les entreprises tissent un réseau interentreprises virtuel par-dessus le réseau Internet en utilisant des techniques de cryptage des informations.

Autonomie des acteurs de l'entreprise

L’informatique contribue fortement à l’autonomie des acteurs de l’entreprise. Un commercial en déplacement peut consulter en interactif les derniers tarifs, l’état des stocks et la disponibilité d’un produit, puis passer une commande en se connectant simplement à l’informatique de l’entreprise.
Avec la capacité accrue des mémoires de masse des ordinateurs personnels, l’utilisateur peut disposer en local d’une partie répliquée de la base de données du système d’information de l’entreprise.
Techniquement, un maximum d’informations de l’entreprise et de son environnement est disponible, quelles que soient la topographie géographique et l’architecture du système d’information.


Livre de référence

Un guide pratique pour aborder la phase essentielle du projet datawarehouse. La phase ETL est aussi la plus difficile et la plus consommatrice de temps, elle requiert toutes les énergies disponibles.

The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data The Data Warehouse ETL Toolkit
Ralph Kimball, Joe Caserta
Wiley
528 pages
Prix : 24 Euros
Dispo :
www.amazon.fr & Format Kindle


Partagez cet article...

Envoyer le lien de cet article par e-mail   
(total partages cumulés > 85)

Si vous souhaitez partager votre point de vue sur cet article, utilisez désormais Twitter ou votre réseau social favori.

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Twitter    Facebook

Excel ® est une marque déposée de Microsoft Corp ®
Gimsi ® est une marque déposée de Alain Fernandez



Copyright : Alain FERNANDEZ ©1998-2018 Tous droits réservés Mentions légales


Le Portail du Manager Innovant
Le portail du Manager Efficace Piloter.org