Qu'est-ce que le Data mining ?
The devil is in the details
Le
Data Mining est en fait un terme générique englobant toute une famille d'outils facilitant l'analyse des données contenues au sein d'une base décisionnelle de type Data Warehouse ou DataMart.
Certains considèrent cette technique comme "l'art" voire la "science" de l'extraction d'informations significatives de grandes quantités de données.
Définition du Data Mining
En peu de mots, le Data Mining présente l'avantage de trouver des structures originales et des corrélations informelles entre les données.
Il permet de mieux comprendre les liens entre des phénomènes en apparence distincts et d'anticiper des tendances encore peu discernables.
Pour quelles applications utiliser le Data mining ?
A contrario des méthodes classiques
d'analyses statistiques, le Data Mining est particulièrement adapté au traitement de grands volumes de données. Avec l'augmentation de la capacité de stockage des supports informatiques, un maximum de renseignements seront captés, ordonnés et rangés au sein du
Data Warehouse. Comportement des acheteurs, caractéristiques des produits, historisation de la production, désormais plus rien n'échappe à la collecte.
Avec le Data Mining, ces "
tera-nesque" bases de données sont exploitables.
Quel est le principe du data mining ?
Les outils de data mining proposent différentes techniques à choisir en fonction de la nature des données
et du type d'étude que l'on souhaite entreprendre
- Les méthodes utilisant les techniques de classification et de segmentation
- Les méthodes utilisant des principes d'arbres de décision assez proches des techniques de classification.
- Les méthodes fondées sur des principes et des règles d'associations ou d'analogies
- Les méthodes exploitant les capacités d'apprentissage des réseaux de neurones
- Et pour les études d'évolution de populations, les algorithmes génétiques
Comment utiliser le Data Mining ?
3 conseils
-
Accordez le soin nécessaire à la phase de collecte des données.
La collecte des données est une étape fondamentale. Elle est longue et coûteuse. Il est indispensable de disposer de la garantie de la fiabilité des données avant de lancer la moindre analyse.
-
L'étude des résultats mérite toute votre attention.
Il ne faut pas hésiter à présenter différemment le problème et à tester d'autres techniques d'analyse avant de s'engager sur un résultat.
-
Le Data mining n'est pas un oracle absolu. Une absence de réponse du système ne doit pas être systématiquement considérée comme une négation.
Il faut quelquefois prendre la précaution d'aborder le problème sous un autre angle avant de s'engager.
Quelques produits types représentatifs
- IBM Cognos Data Mining
- SAS Enterprise Miner
- Isoft Alice
Principal produit Open Source
- Weka de l'Université de Waikato New-Zeland,
- Rapid Miner
- Data Mining Open Source
Un livre est associé au développement du projet de data mining libre Weka. voir ci-après
Sur le même sujet
A lire
Un ouvrage facile d'accès, suffisamment documenté et explicite pour que le lecteur puisse se forger une solide connaissance de la question. Les exemples s'appuient sur le fameux outil gratuit de
data mining open source Weka.
D
1
2
3
4
5
6
7
Recommandez cet article
Copyright
: Alain FERNANDEZ ©1998-2010 Tous droits réservés Mentions légales