Data Mining, exploiter les données du Data Warehouse

Qu'est-ce que le Data mining ?


The devil is in the details

Définition Data Mining

Le Data Mining est en fait un terme générique englobant toute une famille d'outils facilitant l'analyse des données contenues au sein d'une base décisionnelle de type Data Warehouse ou DataMart. Les techniques de datamining sont particulièrement efficaces pour extraire des informations significatives depuis de grandes quantités de données.

Principe du Data Mining

En peu de mots, le Data Mining présente l'avantage de trouver des structures originales et des corrélations informelles entre les données.
Il permet de mieux comprendre les liens entre des phénomènes en apparence distincts et d'anticiper des tendances encore peu discernables.

Pour quelles applications utiliser le Data mining ?

A contrario des méthodes classiques d'analyses statistiques, le Data Mining est particulièrement adapté au traitement de grands volumes de données. Avec l'augmentation de la capacité de stockage des supports informatiques, un maximum de renseignements seront captés, ordonnés et rangés au sein du Data Warehouse. Comportement des acheteurs, caractéristiques des produits, historisation de la production, désormais plus rien n'échappe à la collecte.
Avec le Data Mining, ces "tera-nesque" bases de données sont exploitables.

Les techniques du data mining

Les outils de data mining proposent différentes techniques à choisir en fonction de la nature des données et du type d'étude que l'on souhaite entreprendre
  • Les méthodes utilisant les techniques de classification et de segmentation
  • Les méthodes utilisant des principes d'arbres de décision assez proches des techniques de classification.
  • Les méthodes fondées sur des principes et des règles d'associations ou d'analogies
  • Les méthodes exploitant les capacités d'apprentissage des réseaux de neurones
  • Et pour les études d'évolution de populations, les algorithmes génétiques

Comment utiliser le Data Mining ?

3 conseils
  1. Accordez le soin nécessaire à la phase de collecte des données.
    La collecte des données est une étape fondamentale. Elle est longue et coûteuse. Il est indispensable de disposer de la garantie de la fiabilité des données avant de lancer la moindre analyse.
  2. L'étude des résultats mérite toute votre attention.
    Il ne faut pas hésiter à présenter différemment le problème et à tester d'autres techniques d'analyse avant de s'engager sur un résultat.
  3. Le Data mining n'est pas un oracle absolu. Une absence de réponse du système ne doit pas être systématiquement considérée comme une négation.
    Il faut quelquefois prendre la précaution d'aborder le problème sous un autre angle avant de s'engager.

Quelques produits types représentatifs

Principal produit Open Source

Ouvrage à lire

Un livre est associé au développement du projet de data mining libre Weka.
Un ouvrage facile d'accès, suffisamment documenté et explicite pour que le lecteur puisse se forger une solide connaissance de la question. Les exemples s'appuient sur le fameux outil gratuit de data mining open source Weka.

Data Mining Data Mining
Practical Machine Learning Tools And Techniques

de I.H. Witten, Eibe Frank
Morgan Kaufmann Publishers
(Langue anglaise)
560 pages
Prix librairie : 43,65 Euros



Dispo chez : www.amazon.fr

1 2

Pour aller plus avant ...

Partagez cet article...

Partagez avec Twitter  Partagez sur Facebook  Partagez sur LinkedIn  Partagez sur Viadeo  Partagez sur Del.icio.us  

Envoyer le lien de cet article par e-mail  Recommandez cet article

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Pour établir un lien vers cet article depuis votre site recopiez le lien suivant.
La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog.
Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN



Copyright : Alain FERNANDEZ ©1998-2012 Tous droits réservés Mentions légales


  Blog pro      Performance BPM     Tb de bord gestion     Tb de bord Excel      Management de projet     Contrôle de gestion                          ?  

Business Intelligence

Les 78 fiches de la BI

Business Intelligence
1. Business Intelligence
2. Outils de la BI
3. Le projet BI, le livre
Les Perspectives, BI 2.0 +/-
4. Perspectives BI
5. BI état de l'art
6. BI 2.0
7. BI 2.0 en pratique
8. BI Temps réel
9. La BI de demain
10 La BI mobile
Projet BI & Stratégie +/-
11. BI & stratégie
12. Informatique décisionnelle
13. BI, projet stratégique
Le data warehouse +/-
14.Data Warehousing
15. Data Warehouse
16. Data Mart
17. Architecture Data Warehouse
18. Projet Data Warehouse
19. Modélisation Data Warehouse
20. ROI du projet
Big Data
21. Map Reduce
22. Hadoop
23. Hadoop calculs massifs
24.Les bases No SQL
La qualité des données +/-
25. Gestion qualité des données
26. Collectez les données ETL
27. Gouvernance des données
28. MDM Master Data Management
29. Projet MDM
30. ROI du MDM
31. Meta données
32. BI et ERP (PGI)
Outils d'analyse +/-
33. Outils d'analyse
34. Statistiques
35. Analyse prédictive
36. Arbre de decision
37. Data Mining
38. Text Mining
Analyse Olap +/-
39. Pourquoi Olap ?
40. Qu'est-ce que OLAP ?
41. Modèle de CODD
42. Nouveau modèle
43. Conception Olap
44. ROLAP, MOLAP, HOLAP...
45. Essayez Olap
BI Front-end tools +/-
46. Tableau de bord BI
47. Reporting et Requêteur
48. Reporting financier
49. Tableaux de bord et KM 
50. Portail décisionnel
Les outils décisionnels +/-
51. Outils decisionnels
52. IBM
53. Oracle, Hyperion Solution
54. Microsoft
55. SAP Business Objects
56. SAS institute
57. Qliktech
58. Information Builders
59. Dundas Data Visualization
60. Corda Technologies
61. Prophix
62. Infor
BI Open Source +/-
63. Le principe de l'Open Source
64. Projets Open Source
65. Outils ETL Open Source
66. outils Reporting Open Source
67. outils OLAP et Data Warehouse Open Source
68. outils Data Mining Open Source
69. synthèse BI Open Source 
Projet décisionnel +/-
70. Conduire le projet
71. Le projet decisionnel
72. Le système de pilotage
73. Le système decisionnel
Les Ressources de la BI +/-
74. Livres de la Business Intelligence
75. Livres du Data Mining
76. Sites de la Business Intelligence
77. Projet BI en 7 points (ext.)
78. 10 causes d'echec BI (ext.)

References du Portail
Glossaire
Sites de reference
Plan du site 1/2
Plan du site 2/2
Contact
A propos...
Copyright©


Toutes les pages de ce site sont sous copyright Alain Fernandez 1998-2012

IDDN Certification



***********************
Portail piloter la performance, Business Intelligence, Performance management

 Dossier BI   BI 2.0   Stratégie   Data Warehouse   Qualité des données   Outils d'analyse   OLAP   Front-end  Outils BI   BI Open Source   Projet BI