Utiliser le Data Mining, exploiter les données du Data Warehouse

Qu'est-ce que le Data mining ?


The devil is in the details
Le Data Mining est en fait un terme générique englobant toute une famille d'outils facilitant l'analyse des données contenues au sein d'une base décisionnelle de type Data Warehouse ou DataMart. Certains considèrent cette technique comme "l'art" voire la "science" de l'extraction d'informations significatives de grandes quantités de données.

Définition du Data Mining

En peu de mots, le Data Mining présente l'avantage de trouver des structures originales et des corrélations informelles entre les données.
Il permet de mieux comprendre les liens entre des phénomènes en apparence distincts et d'anticiper des tendances encore peu discernables.

Pour quelles applications utiliser le Data mining ?

A contrario des méthodes classiques d'analyses statistiques, le Data Mining est particulièrement adapté au traitement de grands volumes de données. Avec l'augmentation de la capacité de stockage des supports informatiques, un maximum de renseignements seront captés, ordonnés et rangés au sein du Data Warehouse. Comportement des acheteurs, caractéristiques des produits, historisation de la production, désormais plus rien n'échappe à la collecte.
Avec le Data Mining, ces "tera-nesque" bases de données sont exploitables.

Quel est le principe du data mining ?

Les outils de data mining proposent différentes techniques à choisir en fonction de la nature des données et du type d'étude que l'on souhaite entreprendre
  • Les méthodes utilisant les techniques de classification et de segmentation
  • Les méthodes utilisant des principes d'arbres de décision assez proches des techniques de classification.
  • Les méthodes fondées sur des principes et des règles d'associations ou d'analogies
  • Les méthodes exploitant les capacités d'apprentissage des réseaux de neurones
  • Et pour les études d'évolution de populations, les algorithmes génétiques

Comment utiliser le Data Mining ?

3 conseils
  1. Accordez le soin nécessaire à la phase de collecte des données.
    La collecte des données est une étape fondamentale. Elle est longue et coûteuse. Il est indispensable de disposer de la garantie de la fiabilité des données avant de lancer la moindre analyse.
  2. L'étude des résultats mérite toute votre attention.
    Il ne faut pas hésiter à présenter différemment le problème et à tester d'autres techniques d'analyse avant de s'engager sur un résultat.
  3. Le Data mining n'est pas un oracle absolu. Une absence de réponse du système ne doit pas être systématiquement considérée comme une négation.
    Il faut quelquefois prendre la précaution d'aborder le problème sous un autre angle avant de s'engager.

Quelques produits types représentatifs

  • IBM Cognos Data Mining
  • SAS Enterprise Miner
  • Isoft Alice

Principal produit Open Source

  • Weka de l'Université de Waikato New-Zeland,
  • Rapid Miner
  • Data Mining Open Source
    Un livre est associé au développement du projet de data mining libre Weka. voir ci-après

Sur le même sujet

A lire

Un ouvrage facile d'accès, suffisamment documenté et explicite pour que le lecteur puisse se forger une solide connaissance de la question. Les exemples s'appuient sur le fameux outil gratuit de data mining open source Weka.

Data Mining Data Mining
Practical Machine Learning Tools And Techniques

de I.H. Witten, Eibe Frank
Morgan Kaufmann Publishers
(Langue anglaise)
560 pages
Prix librairie : 43,65 Euros



Dispo chez : www.amazon.fr

D 1 2 3 4 5 6 7



Envoyer le lien de cet article par e-mail  Recommandez cet article

Partagez avec Twitter   Partagez sur Facebook  
Partagez sur LinkedIn  Partagez sur Viadeo  Partagez sur Del.icio.us  Partagez sur Yahoo !  Partagez sur BlogMarks  Partagez sur Scoopeo  Bookmark Google  



Copyright : Alain FERNANDEZ ©1998-2010 Tous droits réservés Mentions légales


***********************
Nouveaux tableaux de bord des managers Alain Fernandez, cliquez pour consulter la fiche
cccccccc

 Projet BI   Architecture BI   Perspectives BI   BI 2.0   Outils d'analyses   M.D.M   Data Warehouse   Olap   Reporting   BI Open Source