Data Mining, explorer les données du Data Warehouse

Par   Partagez : Envoyer le lien de cet article par e-mail   

Le Data Mining, qu'est-ce que c'est ?


The devil is in the details.

C'est un outil d'exploration des données décisionnelles

Définition : Le Data Mining est en fait un terme générique englobant toute une famille d'outils facilitant l'exploration et l'analyse des données contenues au sein d'une base décisionnelle de type Data Warehouse ou DataMart. Les techniques mises en action lors de l'utilisation de cet instrument d'analyse et de prospection sont particulièrement efficaces pour extraire des informations significatives depuis de grandes quantités de données.

À quoi ça sert ?

Principe : En peu de mots, l'outil de prospection Data Mining est à même de trouver des structures originales et des corrélations informelles entre les données.
Il permet de mieux comprendre les liens entre des phénomènes en apparence distincts et d'anticiper des tendances encore peu discernables.

Comment on l'utilise ?

A contrario des méthodes classiques d'analyses statistiques, Cet instrument d'analyse est particulièrement adapté au traitement de grands volumes de données. Avec l'augmentation de la capacité de stockage des supports informatiques, un maximum de renseignements seront captés, ordonnés et rangés au sein du Data Warehouse. Comportement des acheteurs, caractéristiques des produits, historisation de la production, désormais plus rien n'échappe à la collecte.
Avec le Data Mining, ces "téra-nesque" bases de données sont exploitables.

Les techniques mises en oeuvre

Différentes techniques sont proposées. Elles sont à choisir en fonction de la nature des données et du type d'étude que l'on souhaite entreprendre
  • Les méthodes utilisant les techniques de classification et de segmentation
  • Les méthodes utilisant des principes d'arbres de décision assez proches des techniques de classification
  • Les méthodes fondées sur des principes et des règles d'associations ou d'analogies
  • Les méthodes exploitant les capacités d'apprentissage des réseaux de neurones
  • Et pour les études d'évolution de populations, les algorithmes génétiques
  • Algorithmes Naïve Bayes, séries chronologiques, régression linéaire...

Comment ça marche ?

Le principe : une démarche (simplifiée et didactique) en 5 temps majeurs. data mining
  1. Définition du problème

    Quel est le but de l'analyse, que recherche-t-on ? Quels sont les objectifs ? Comment traduire le problème en une question pouvant servir de sujet d'enquête pour cet outil d'analyse bien spécifique ? A ce sujet, se souvenir que l'on travaille à partir des données existantes, la question doit être ciblée selon les données disponibles.
  2. Collecte des données

    Une phase absolument essentielle. On n'analyse que des données utilisables, c'est à dire "propres" et consolidées. On n'hésitera pas à extraire de l'analyse les données de qualité douteuse. Bien souvent, les données méritent d'être retravaillées. S'assurer au final que la quantité de données soit suffisante pour éviter de fausser les résultats. Cette phase de collecte nécessite le plus grand soin.
  3. Construire le modèle d'analyse

    Ne pas hésiter à valider vos choix d'analyse sur plusieurs jeux d'essais en variant les échantillons. Une première évaluation peut nous conduire à reprendre les points 1 ou 2.
  4. Etude des résultats

    Il est temps d'exploiter les résultats. Pour affiner l'analyse on n'hésitera pas à reprendre les points 1, 2 ou 3 si les résultats s'avéraient insatisfaisants.
  5. Formalisation et diffusion

    Les résultats sont formalisés pour être diffuser. Ils ne seront utiles qu'une fois devenus une connaissance partagée. C'est bien là l'aboutissement de la démarche. C'est aussi là que réside la difficulté d'interprétation et de généralisation...

4 conseils complémentaires

  1. Accordez le soin nécessaire à la phase de collecte des données

    La collecte des données est une étape fondamentale. Elle est longue et coûteuse. Il est indispensable de disposer de la garantie de la fiabilité des données avant de lancer la moindre analyse.
  2. L'étude des résultats mérite toute votre attention

    Il ne faut pas hésiter à présenter différemment le problème et à tester d'autres techniques d'analyse avant de s'engager sur un résultat.
  3. Cet instrument n'est pas non plus un oracle absolu

    Une absence de réponse du système ne doit pas être systématiquement considérée comme une négation. Il faut quelquefois prendre la précaution d'aborder le problème sous un autre angle avant de s'engager.
  4. Se souvenir qu'identifier une corrélation ce n'est pas nécessairement découvrir une nouvelle causalité

Quelques produits types représentatifs

Principaux produits Open Source

Ouvrages à lire

1. Un livre assez complet sur les techniques de data mining et les applications au marketing et à la gestion de la relation client. L'ouvrage présente les principes techniques de data mining et les outils d'analyses connexes, l'auteur en étudie les forces et les faiblesses et en précise les applications à l'aide d'exemples concrets. (Livre en anglais)

Data Mining Techniques
For Marketing, Sales, and Customer Relationship Management

Michael J. Berry, Gordon S. Linoff
John Wiley & Sons Ltd   3ème édition 2011
888 pages
Prix : 30 Euros
Dispo chez :
www.amazon.fr & Format Kindle

2. Un livre est associé au développement du projet de data mining libre Weka. Facile d'accès et suffisamment documenté et explicite pour que le lecteur puisse se forger une solide connaissance de la question. Les exemples s'appuient sur le fameux outil gratuit de data mining open source Weka. (Livre en anglais)

Data MiningData Mining
Practical Machine Learning Tools And Techniques

de I.H. Witten, Eibe Frank
Morgan Kaufmann Publishers   3ème édition 2012
664 pages
Prix : 54 Euros
Dispo chez : www.amazon.fr & Format Kindle

1 2


Partagez cet article...

Envoyer le lien de cet article par e-mail   
(total partages cumulés > 105)

Commentaires lecteurs...

Pour commenter en tant qu'Anonyme, cliquez sur "Commencez la discussion" Puis sur "Nom", tout en bas apparaît alors une case à cocher : "Je préfère publier en tant qu'invité"

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Google+    Twitter    Facebook



Copyright : Alain FERNANDEZ ©1998-2016 Tous droits réservés Mentions légales


Management de l'entreprise
  Suivez-nous :   Google+   twitter+  Facebook  Linkedin    e-mail  
»» Toutes les fiches Piloter.org »»