Management de l'entreprise

Comment utiliser le data mining ?

Par Partagez : Envoyer le lien de cet article par e-mail   
.

Le datamining en pratique, une expérience de terrain

Si vous voulez faire parler le data mining, commencez donc par nettoyer vos données....

Image d'un mineur pour symboliser le data mining

Voyons un cas pratique.

A noter, je ne cite ni le nom ni le type de produit afin de respecter l'anonymat.
Cette légitime omission ne nuit en rien à la compréhension du texte.

L'entreprise K, leader de son créneau, est sur un marché particulièrement complexe en terme de clientèle. K en effet propose une gamme de produits couvrant autant les besoins des particuliers que des grands comptes. Jusqu'à ce jour, l'approche commerciale était particulièrement cloisonnée et seules les techniques de segmentation trouvaient grâce aux yeux de la direction.
Le nouveau responsable marketing a, à juste titre, souhaité moderniser les outils afin de « transversaliser » l'analyse et décloisonner un tant soit peu l'approche classique.
«Accédons à la connaissance "client", elle est déjà dans les tuyaux. ...»

Une rigoureuse démarche méthodologique

Il a donc entrepris la mise en place d'une solide infrastructure de type data Warehouse afin de collecter et de centraliser le maximum de données susceptibles de délivrer un enseignement...
Si la mise en place technique de l'infrastructure a été confiée à une entreprise spécialisée, l'alimentation de la base a, elle, profité des nombreuses demandes de stages étudiant qui ne manquent pas d'encombrer le bureau des responsables de RH.
C'est dire si la démarche a été morcelée.
Il était alors temps d'investir dans un outil de prospection performant de type data mining.
Bien que plus aisé d'utilisation que les classiques outils d'analyses statistiques, le data mining exige une rigoureuse démarche méthodologique si l'on souhaite en extraire un quelconque enseignement (définition du problème, délimitation des données de travail, choix de la méthode d'analyse...).
(J'en parle un peu ici : Le projet Business Intelligence )
Il n'est pas superflu de se faire assister d'un consultant spécialiste de la question, histoire de domestiquer l'outil et d'exprimer correctement les préoccupations des demandeurs.

Les premiers résultats,originaux ou incohérents ???

Après quelques essais, les premiers résultats sont tombés.
« Ah ! Ca y est !»

Quelle surprise, les résultats étaient particulièrement originaux !
Mais l'enthousiasme fut de courte durée.
Les résultats étaient surtout totalement incohérents.
« Y a quelque chose qui cloche... »
Il fallut alors dérouler de nouveau le fil et reprendre la procédure. Mêmes résultats. Tout aussi lamentables.
« C'est de la faute à qui ? »
Etait-ce l'outil ? Etait-ce le consultant ?

il n'y a pas à tortiller, c'est la faute du consultant !

C'est là où ce dernier se retrouve au pied du mur. Car bien sûr les soupçons d'incompétence commencent à peser lourdement sur ses épaules.
Vieux routier cependant, il ne perdit pas plus de temps et plongea la main au coeur même du système pour en extraire quelques données à fin d'analyse. Bien que la direction l'ait assuré de la qualité du travail de collecte, il savait d'expérience que les principaux problèmes venaient généralement de ce point précis.
A-t-il cependant à ce stade manqué de tact ? En tout cas lorsqu'il annonça que les données méritaient d'être « nettoyées » il découvrit jusqu'où pouvait se cacher la susceptibilité.

En fait non, le responsable ce sont les données, ou plutôt la collecte des données

« Nos données ne sont pas propres ? Il faudrait les nettoyer ? »
Il aurait mis en doute le soin corporel de ses interlocuteurs du style « A vue de nez il est 5 heures », que la réaction n'aurait pas été plus épidermique. Il faut dire aussi à leur décharge que l'investissement global commençait à être conséquent. Ils auraient enfin voulu disposer des enseignements promis.
nettoyer les donnéesUne fois la tension un peu retombée, mon collègue a pu démontrer calmement la source des problèmes. Bon gré mal gré, ses interlocuteurs se sont finalement ralliés à son analyse et ont alors investi ce qu'il fallait en terme de temps et de moyens pour accéder à une gestion de qualité des données décisionnelles. Je vous passe les détails de cette longue reprise.

On recommence... Et ça marche !

Enfin ! Le système est opérationnel.
La procédure d'analyse a été relancée.
Et Bingo !
La boite magique a parlé !
Des résultats tout à fait plausibles tombent !
«Ca à l'air bon ce coup-ci »
Plausibles ? Oui.
A peu de choses près, ils correspondaient aux attentes et étaient en accord avec les suppositions. Ils confirmaient les hypothèses et infirmaient les contre hypothèses soumises.
D'aucuns se sont d'ailleurs interrogés à haute voix sur l'intérêt de l'investissement.
« Tout ça on le savait déjà...»
Ont-ils raison ?
Et d'après vous ?
Qu'en pensez vous ?
N'est-ce pas une information de choix que de voir se confirmer ses suppositions ?

Quitte à choisir, autant bâtir ses décisions sur des certitudes !

Une chose est certaine. On ne prend pas de décision à partir de suppositions. On bâtit difficilement une stratégie cohérente en se fondant sur des croyances et des « on-dirait que ».
Il est indispensable de diminuer le risque avant de s'engager sérieusement ; de s'éloigner du doute pour s'approcher de la certitude; de déplacer le curseur sur l'échelle des croyances depuis la vague impression jusqu'à "l'intime conviction". C'est aussi à cela que servent les outils d'aide à la décision dont le data mining fait parti.
Ensuite est-ce que l'investissement était rentable ? Question qui semblait être le corollaire de la précédente.
Pour cela il faut laisser passer un peu de temps puis tenter de confronter la rentabilité des décisions prises en s'appuyant sur l'outil avec l'investissement proprement dit. En général, on se contente d'une appréciation à l'estime.
Une autre façon de faire serait d'apprécier le manque à gagner de la non décision.

Data Mining et Big Data

Le thème de la qualité des données est aujourd'hui pleinement amplifié avec le phénomène Big Data. La qualité de la collecte sera toujours le parent pauvre du projet. Négliger la collecte des données et son contrôle qualité ce n'est rien de moins que de tracer une voie royale vers un échec assuré.


Lecture recommandée

1. Un ouvrage assez pointu sur les techniques d'analyse quantitative des données, un livre pour les spécialistes du sujet.

Data MiningScience Mining
Fondamentaux et études de cas : Machine learning avec Python et R

de Eric Biernat, Michel Lutz  
294 pages
Editions Eyrolles
Dispo chez : www.amazon.fr

2. Un ouvrage en français assez intéressant pour bien saisir les techniques du datamining et les applications typiques comme le comportement des consommateurs, l'étude client ou la détection de fraudes pour ne citer que celles-ci

Data MiningExploration de données :
Méthodes et modèles du data mining

de Daniel-T Larose  
350 pages, 39 Euros
Editions Vuivert
Dispo chez : www.amazon.fr

Points de vue


Bonjour, Pourquoi, si le consultant est un spécialiste de la question, comme vous nous l'avez présenté, ne s'est-il pas rendu compte plus tôt de la médiocrité de la qualité des informations contenus dans le data warehouse? Je vous pose cette question, car nous avons vécu à peu près la même expérience. Et, curieusement, nous nous sommes posées cette question. Sergine
Ecrit par : Sergine

parce que c'était pas son boulot. Sa prestation ne portait pas sur cet aspect des choses. Voilà à mon avis Marc
Ecrit par : Marc

Je reviens avec une nouvelle question : Avez-vous idée de quelles sont les méthodes les plus appropriées pour bien délimiter les données en terme de bases-sources et bien sûr de données-sources au sein de ces bases ? J'ai d'autres questions à propos des techniques de consolidation de données de sources différentes mais on verra plus tard. En tout cas merci d'avance.
Ecrit par : Philippe Davout

Votre article met en évidence la necessité de ne pas uniquement se focaliser sur la partie technique, et que l'accompagnement marketing des outils DM est très important. Cordialement, P. Pour aller plus loin : http://dataminer.unblog.fr
Ecrit par : Bizzari Pascal


Partagez cet article...

Envoyer le lien de cet article par e-mail   
(total partages cumulés > 165)

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Google+    Twitter    Facebook

Excel ® est une marque déposée de Microsoft Corp ®
Gimsi ® est une marque déposée de Alain Fernandez



Copyright : Alain FERNANDEZ ©1998-2017- Tous droits réservés


  Suivez-nous :   Google+   twitter+  Facebook  Linkedin    e-mail  
»» Toutes les fiches du Blog »»