Data Mining, explorer les données du Data Warehouse

23 mai 2018 Par    Partagez : Envoyer le lien de cet article par e-mail   
Data Mining illustration
Il ne suffit pas de stocker une multitude de données au sein d'une base spécialisée, Data Warehouse ou Big Data, encore faut-il les exploiter. C'est là le rôle du Data Mining qui, bien utilisé, saura tirer les enseignements contenus dans cette masse de données bien trop importante pour se contenter des seuls outils statistiques. Voyons, le principe, les méthodes utilisées, les outils et un cas concret mettant en évidence l'importance de la qualité des données.

Le Data Mining, qu'est-ce que c'est ?


The devil is in the details.

C'est un outil d'exploration des données décisionnelles

définition : Le Data Mining est en fait un terme générique englobant toute une famille d'outils facilitant l'exploration et l'analyse des données contenues au sein d'une base décisionnelle de type Data Warehouse ou DataMart. Les techniques mises en action lors de l'utilisation de cet instrument d'analyse et de prospection sont particulièrement efficaces pour extraire des informations significatives depuis de grandes quantités de données.

À quoi ça sert ?

Principe : En peu de mots, l'outil de prospection Data Mining est à même de trouver des structures originales et des corrélations informelles entre les données.
Il permet de mieux comprendre les liens entre des phénomènes en apparence distincts et d'anticiper des tendances encore peu discernables.

Comment on l'utilise ?

A contrario des méthodes classiques d'analyses statistiques, Cet instrument d'analyse est particulièrement adapté au traitement de grands volumes de données.
Avec l'augmentation de la capacité de stockage des supports informatiques, un maximum de renseignements seront captés, ordonnés et rangés au sein du Data Warehouse.

Comportement des acheteurs, caractéristiques des produits, historisation de la production, désormais plus rien n'échappe à la collecte.
Avec le Data Mining, ces "téra-nesque" bases de données sont exploitables.

Les techniques mises en oeuvre

Différentes techniques sont proposées. Elles sont à choisir en fonction de la nature des données et du type d'étude que l'on souhaite entreprendre
  • Les méthodes utilisant les techniques de classification et de segmentation
  • Les méthodes utilisant des principes d'arbres de décision assez proches des techniques de classification
  • Les méthodes fondées sur des principes et des règles d'associations ou d'analogies
  • Les méthodes exploitant les capacités d'apprentissage des réseaux de neurones
  • Et pour les études d'évolution de populations, les algorithmes génétiques
  • Algorithmes Naïve Bayes, séries chronologiques, régression linéaire...

Comment ça marche ?

Le principe : une démarche (simplifiée et didactique) en 5 temps majeurs. data mining
  1. Définition du problème

    Quel est le but de l'analyse, que recherche-t-on ? Quels sont les objectifs ? Comment traduire le problème en une question pouvant servir de sujet d'enquête pour cet outil d'analyse bien spécifique ? A ce sujet, se souvenir que l'on travaille à partir des données existantes, la question doit être ciblée selon les données disponibles.
  2. Collecte des données

    Une phase absolument essentielle. On n'analyse que des données utilisables, c'est à dire "propres" et consolidées. On n'hésitera pas à extraire de l'analyse les données de qualité douteuse. Bien souvent, les données méritent d'être retravaillées. S'assurer au final que la quantité de données soit suffisante pour éviter de fausser les résultats. Cette phase de collecte nécessite le plus grand soin. Voir en seconde partie de l'article un cas concret de projet Datamining où la qualité de la collecte laisse un peu à désirer...
  3. Construire le modèle d'analyse

    Ne pas hésiter à valider vos choix d'analyse sur plusieurs jeux d'essais en variant les échantillons. Une première évaluation peut nous conduire à reprendre les points 1 ou 2.
  4. Etude des résultats

    Il est temps d'exploiter les résultats. Pour affiner l'analyse on n'hésitera pas à reprendre les points 1, 2 ou 3 si les résultats s'avéraient insatisfaisants.
  5. Formalisation et diffusion

    Les résultats sont formalisés pour être diffuser.

    Ils ne seront utiles qu'une fois devenus une connaissance partagée. C'est bien là l'aboutissement de la démarche. C'est aussi là que réside la difficulté d'interprétation et de généralisation...

4 conseils complémentaires

  1. Accordez le soin nécessaire à la phase de collecte des données

    La collecte des données est une étape fondamentale. Elle est longue et coûteuse. Il est indispensable de disposer de la garantie de la fiabilité des données avant de lancer la moindre analyse.
  2. L'étude des résultats mérite toute votre attention

    Il ne faut pas hésiter à présenter différemment le problème et à tester d'autres techniques d'analyse avant de s'engager sur un résultat.
  3. Cet instrument n'est pas non plus un oracle absolu

    Une absence de réponse du système ne doit pas être systématiquement considérée comme une négation. Il faut quelquefois prendre la précaution d'aborder le problème sous un autre angle avant de s'engager.
  4. Se souvenir qu'identifier une corrélation ce n'est pas nécessairement découvrir une nouvelle causalité

Quelques produits types représentatifs

Principaux produits Open Source


La Collecte des données ou de l'importance des préliminaires...

Si vous voulez faire parler le data mining, commencez donc par nettoyer vos données....

Image d'un mineur pour symboliser le data miningLa phase la plus importante d'un projet se situe bien en amont du lancement proprement dit. On parle alors de l'avant-projet.
Cette caractéristique n'est pas propre aux projets technologiques. Lors de grands travaux de génie civil, le terrassement, la consolidation des sols, la préparation des fondations peuvent représenter une part importance du projet que ce soit en terme de coûts, de délais ou de compétences techniques à mobiliser.
La qualité de l'ouvrage dépendra directement du soin accordé à ces travaux préparatoires.

La phase la plus importante...

Dans le cadre d'un projet décisionnel, ce n'est pas la conception des interfaces utilisateurs mais bien les tâches de collecte, de nettoyage et de mise en forme des données qui constitueront le gros morceau, équivalent par analogie aux travaux de préparation des terrains du chantier de génie civil....

Cette phase préalable peut représenter plus des ¾ des coûts et des délais globaux du projet. Et les compétences techniques à mettre en place ne seront pas en reste. Cette phase essentielle était il y a encore peu bien rarement estimée à sa juste valeur. Sa mésestimation est pourtant une des principales causes des échecs des projets décisionnels.

Pourquoi ?

Les entreprises n'ont que rarement conscience de la lourdeur des travaux à entreprendre pour transformer des données de terrain en informations utilisables au sein du processus décisionnel. Les données collectées au coeur des systèmes de production, même lorsque ceux-ci sont pleinement opérationnels, ne peuvent être utilisés telles quelles à des fins décisionnelles. Les données, dites de production, sont trop souvent imprécises et incohérentes voire erronées.
D'autre part, l'analyse décisionnelle consiste essentiellement à rapprocher des données de sources différentes. Cette opération fondamentale n'est possible que lorsque les informations utilisent un même format et sont dans une logique similaire de gestion.

Il est simplement dommage qu'il faille trop souvent se casser le nez sur cette problématique fondamentale avant d'en saisir la portée.

Le datamining en pratique, une expérience de terrain

L'entreprise K, leader de son créneau, est sur un marché particulièrement complexe en terme de clientèle. K en effet propose une gamme de produits couvrant autant les besoins des particuliers que des grands comptes.

Jusqu'à ce jour, l'approche commerciale était particulièrement cloisonnée et seules les techniques de segmentation trouvaient grâce aux yeux de la direction.
Le nouveau responsable marketing a, à juste titre, souhaité moderniser les outils afin de « transversaliser » l'analyse et décloisonner un tant soit peu l'approche classique.
«Accédons à la connaissance "client", elle est déjà dans les tuyaux. ...»

Une rigoureuse démarche méthodologique

Il a donc entrepris la mise en place d'une solide infrastructure de type data Warehouse afin de collecter et de centraliser le maximum de données susceptibles de délivrer un enseignement...
Si la mise en place technique de l'infrastructure a été confiée à une entreprise spécialisée, l'alimentation de la base a, elle, profité des nombreuses demandes de stages étudiant qui ne manquent pas d'encombrer le bureau des responsables de RH.
C'est dire si la démarche a été morcelée.
Il était alors temps d'investir dans un outil de prospection performant de type data mining.

Bien que plus aisé d'utilisation que les classiques outils d'analyses statistiques, le data mining exige une rigoureuse démarche méthodologique si l'on souhaite en extraire un quelconque enseignement (définition du problème, délimitation des données de travail, choix de la méthode d'analyse...).

Il n'est pas superflu de se faire assister d'un consultant spécialiste de la question (celui qui m'a relaté cette anecdote que je publie avec son autorisation), histoire de domestiquer l'outil et d'exprimer correctement les préoccupations des demandeurs.

« Ah ! Ca y est !»
Quelle surprise, les résultats étaient particulièrement originaux !
Mais l'enthousiasme fut de courte durée.
Les résultats étaient surtout totalement incohérents.
« Y a quelque chose qui cloche... »
Il fallut alors dérouler de nouveau le fil et reprendre la procédure. Mêmes résultats. Tout aussi lamentables.
« C'est de la faute à qui ? »
Etait-ce l'outil ? Etait-ce le consultant ?

il n'y a pas à tortiller, c'est la faute du consultant !

C'est là où ce dernier se retrouve au pied du mur. Car bien sûr les soupçons d'incompétence commencent à peser lourdement sur ses épaules.
Vieux routier cependant, il ne perdit pas plus de temps et plongea la main au coeur même du système pour en extraire quelques données à fin d'analyse. Bien que la direction l'ait assuré de la qualité du travail de collecte, il savait d'expérience que les principaux problèmes venaient généralement de ce point précis.
A-t-il cependant à ce stade manqué de tact ? En tout cas lorsqu'il annonça que les données méritaient d'être « nettoyées » il découvrit jusqu'où pouvait se cacher la susceptibilité.

En fait non, le responsable ce sont les données, ou plutôt la collecte des données

« Nos données ne sont pas propres ? Il faudrait les nettoyer ? »
Il aurait mis en doute le soin corporel de ses interlocuteurs du style « A vue de nez il est 5 heures », que la réaction n'aurait pas été plus épidermique. Il faut dire aussi à leur décharge que l'investissement global commençait à être conséquent. Ils auraient enfin voulu disposer des enseignements promis.
nettoyer les données

Une fois la tension un peu retombée, le consultant a pu démontrer calmement la source des problèmes. Bon gré mal gré, ses interlocuteurs se sont finalement ralliés à son analyse et ont alors investi ce qu'il fallait en terme de temps et de moyens pour accéder à une gestion de qualité des données décisionnelles. Je vous passe les détails de cette longue reprise.

On recommence... Et ça marche !

Enfin ! Le système est opérationnel.
La procédure d'analyse a été relancée.
Et Bingo !
La boite magique a parlé !
Des résultats tout à fait plausibles tombent !
«Ca à l'air bon ce coup-ci »
Plausibles ? Oui.
A peu de choses près, ils correspondaient aux attentes et étaient en accord avec les suppositions. Ils confirmaient les hypothèses et infirmaient les contre hypothèses soumises.
D'aucuns se sont d'ailleurs interrogés à haute voix sur l'intérêt de l'investissement.
« Tout ça on le savait déjà...»
Ont-ils raison ?
Et d'après vous ?
Qu'en pensez vous ?
N'est-ce pas une information de choix que de voir se confirmer ses suppositions ?

Quitte à choisir, autant bâtir ses décisions sur des certitudes !

Une chose est certaine. On ne prend pas de décision à partir de suppositions. On bâtit difficilement une stratégie cohérente en se fondant sur des croyances et des « on-dirait que ».
Il est indispensable de diminuer le risque avant de s'engager sérieusement ; de s'éloigner du doute pour s'approcher de la certitude; de déplacer le curseur sur l'échelle des croyances depuis la vague impression jusqu'à "l'intime conviction". C'est aussi à cela que servent les outils d'aide à la décision dont le data mining fait parti.
Ensuite est-ce que l'investissement était rentable ? Question qui semblait être le corollaire de la précédente.
Pour cela il faut laisser passer un peu de temps puis tenter de confronter la rentabilité des décisions prises en s'appuyant sur l'outil avec l'investissement proprement dit. En général, on se contente d'une appréciation à l'estime.
Une autre façon de faire serait d'apprécier le manque à gagner de la non décision.

Data Mining et Big Data

Le thème de la qualité des données est aujourd'hui pleinement amplifié avec le phénomène Big Data. La qualité de la collecte sera toujours le parent pauvre du projet. Négliger la collecte des données et son contrôle qualité ce n'est rien de moins que de tracer une voie royale vers un échec assuré.

Le mot d'humeur...

Le Data mining ne dit pas l'essentiel...

On apprend beaucoup de choses à étudier des données nombreuses, fiables et de qualité. On perçoit mieux le comportement des utilisateurs et des clients. Mais si les données révèlent plus ou moins clairement CE QUE font les clients, elles ne diront jamais POURQUOI ils le font, pourquoi ils agissent ainsi. C'est pourtant là que se trouve la clé d'un projet d'innovation réussie.

Le mythe de l'information "magique"

Chercheur de trésorEst-ce- une "pépite" ou d'un "diamant" qu'il s'agit de dénicher un peu à la manière des "chercheurs de trésor" qui ratissent les plages l'été ? Equipés d'un détecteur de métaux dernier modèle, ils sont là, attentifs au moindre signal de leur poêle à frire, espérant découvrir soit une bague ou un vieux camé, unique souvenir d'un parent regretté, soit une broche relique d'un amour perdu. Ils devront se contenter d'une capsule de bière ou d'un quelconque morceau de métal sans intérêt. Mais ce n'est pas grave, ça ne marche pas à tous les coups, l'optimisme est là et ils continuent à ratisser méticuleusement la plage.
Encore aujourd'hui, bien des fournisseurs de solution décisionnelle tentent d'attirer les plus crédules avec les mêmes slogans illusoires que ceux utilisés par les vendeurs de détecteur de métaux : "Vos données valent de l'or. Apprenez à trouver la pépite qui s'y niche".

Alors faut-il s'équiper de poêle à frire pour trouver la fameuse pépite ?
La quête est aussi vaine que celle de notre prospecteur des temps modernes cité plus haut. Il n'y a pas de pépite.
L'information susceptible de déclencher la décision gagnante n'existe pas.
Il n'y a que des données dans les bases. Des données qu'il s'agit de collecter, de trier, de structurer, de synthétiser, de partager surtout, et là, si on si prend correctement, on fabrique quelque chose d'une valeur inestimable : la connaissance....

Piloter le projet BI

Etape par étape, ce livre vous permet de bâtir une solution de Business Intelligence centrée tableaux de bord de pilotage. C'est ainsi que la BI remplit pleinement sa fonction d'aide à la décision pour tous les managers de l'entreprise.

Nouveaux tableau de bordLes nouveaux tableaux de bord des managers
Le projet Business Intelligence clé en main

Alain Fernandez
Éditions Eyrolles
6ème édition revue et augmentée

Long Seller 40.000 exemplaires vendus
500 pages
Prix : 35 Euros

La fiche détaillée de ce livre

Dispo :

   
Disponible aussi au format ebook : PDF ou ePub

Autres ouvrages à lire

1. Un ouvrage assez pointu sur les techniques d'analyse quantitative des données, un livre pour les spécialistes du sujet.

Data MiningScience Mining
Fondamentaux et études de cas : Machine learning avec Python et R

de Eric Biernat, Michel Lutz  
294 pages
Editions Eyrolles
Dispo chez : www.amazon.fr

2. Un ouvrage en français assez intéressant pour bien saisir les techniques du datamining et les applications typiques comme le comportement des consommateurs, l'étude client ou la détection de fraudes pour ne citer que celles-ci

Data MiningExploration de données :
Méthodes et modèles du data mining

de Daniel-T Larose  
350 pages, 39 Euros
Editions Vuivert
Dispo chez : www.amazon.fr

3. Un livre assez complet sur les techniques de data mining et les applications au marketing et à la gestion de la relation client. L'ouvrage présente les principes techniques de data mining et les outils d'analyses connexes, l'auteur en étudie les forces et les faiblesses et en précise les applications à l'aide d'exemples concrets. (Livre en anglais)

Data Mining Techniques
For Marketing, Sales, and Customer Relationship Management

Michael J. Berry, Gordon S. Linoff
John Wiley & Sons Ltd   3ème édition 2011
888 pages
Prix : 30 Euros
Dispo chez :
www.amazon.fr & Format Kindle

4. Un livre est associé au développement du projet de data mining libre Weka. Facile d'accès et suffisamment documenté et explicite pour que le lecteur puisse se forger une solide connaissance de la question. Les exemples s'appuient sur le fameux outil gratuit de data mining open source Weka. (Livre en anglais)

Data MiningData Mining
Practical Machine Learning Tools And Techniques

de I.H. Witten, Eibe Frank
Morgan Kaufmann Publishers   4ème édition 2016
654 pages
Prix : 54 Euros
Dispo chez : www.amazon.fr & Format Kindle

Commentaires lecteurs...

Points de vue


Bonjour, Pourquoi, si le consultant est un spécialiste de la question, comme vous nous l'avez présenté, ne s'est-il pas rendu compte plus tôt de la médiocrité de la qualité des informations contenus dans le data warehouse? Je vous pose cette question, car nous avons vécu à peu près la même expérience. Et, curieusement, nous nous sommes posées cette question. Sergine
Ecrit par : Sergine

parce que c'était pas son boulot. Sa prestation ne portait pas sur cet aspect des choses. Voilà à mon avis Marc
Ecrit par : Marc

Je reviens avec une nouvelle question : Avez-vous idée de quelles sont les méthodes les plus appropriées pour bien délimiter les données en terme de bases-sources et bien sûr de données-sources au sein de ces bases ? J'ai d'autres questions à propos des techniques de consolidation de données de sources différentes mais on verra plus tard. En tout cas merci d'avance.
Ecrit par : Philippe Davout

Votre article met en évidence la nécessité de ne pas uniquement se focaliser sur la partie technique, et que l'accompagnement marketing des outils DM est très important. Cordialement, P. Pour aller plus loin : http://dataminer.unblog.fr
Ecrit par : Bizzari Pascal


Partagez cet article...

Envoyer le lien de cet article par e-mail   
(total partages cumulés > 85)

Si vous souhaitez partager votre point de vue sur cet article, utilisez désormais Twitter ou votre réseau social favori.

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Google+    Twitter    Facebook

Excel ® est une marque déposée de Microsoft Corp ®
Gimsi ® est une marque déposée de Alain Fernandez



Copyright : Alain FERNANDEZ ©1998-2018 Tous droits réservés Mentions légales


Le Portail du Manager Innovant
Le portail du Manager Efficace Piloter.org