Data Mining, explorer les données du Data Warehouse

Par

Le Data Mining, qu'est-ce que c'est ?


The devil is in the details

C'est un outil d'exploration des données décisionnelles

Définition : Le Data Mining est en fait un terme générique englobant toute une famille d'outils facilitant l'exploration et l'analyse des données contenues au sein d'une base décisionnelle de type Data Warehouse ou DataMart. Les techniques mises en action lors de l'utilisation de cet instrument d'analyse et de prospection sont particulièrement efficaces pour extraire des informations significatives depuis de grandes quantités de données.

A quoi ça sert ?

Principe : En peu de mots, l'outil de prospection Data Mining est à même de trouver des structures originales et des corrélations informelles entre les données.
Il permet de mieux comprendre les liens entre des phénomènes en apparence distincts et d'anticiper des tendances encore peu discernables.

Comment on l'utilise ?

A contrario des méthodes classiques d'analyses statistiques, Cet instrument d'analyse est particulièrement adapté au traitement de grands volumes de données. Avec l'augmentation de la capacité de stockage des supports informatiques, un maximum de renseignements seront captés, ordonnés et rangés au sein du Data Warehouse. Comportement des acheteurs, caractéristiques des produits, historisation de la production, désormais plus rien n'échappe à la collecte.
Avec le Data Mining, ces "tera-nesque" bases de données sont exploitables.

Les techniques mises en oeuvre

Différentes techniques sont proposées. Elles sont à choisir en fonction de la nature des données et du type d'étude que l'on souhaite entreprendre
  • Les méthodes utilisant les techniques de classification et de segmentation
  • Les méthodes utilisant des principes d'arbres de décision assez proches des techniques de classification.
  • Les méthodes fondées sur des principes et des règles d'associations ou d'analogies
  • Les méthodes exploitant les capacités d'apprentissage des réseaux de neurones
  • Et pour les études d'évolution de populations, les algorithmes génétiques
  • Algorithmes Naïve Bayes, séries chronologiques, régression linéaire...

Comment ça marche ?

Le principe : une démarche (simplifiée et didactique) en 5 temps majeurs. data mining
  1. Définition du problème

    Quel est le but de l'analyse, que recherche-t-on ? Quels sont les objectifs ? Comment traduire le problème en une question pouvant servir de sujet d'enquête pour cet outil d'analyse bien spécifique ? A ce sujet, se souvenir que l'on travaille à partir des données existantes, la question doit être ciblée selon les données disponibles.
  2. Collecte des données

    Une phase absolument essentielle. On n'analyse que des données utilisables, c'est à dire "propres" et consolidées. On n'hésitera pas à extraire de l'analyse les données de qualité douteuse. Bien souvent, les données méritent d'être retravaillées. S'assurer au final que la quantité de données soit suffisante pour éviter de fausser les résultats. Cette phase de collecte nécessite le plus grand soin.
  3. Construire le modèle d'analyse

    Ne pas hésiter à valider vos choix d'analyse sur plusieurs jeux d'essais en variant les échantillons. Une première évaluation peut nous conduire à reprendre les points 1 ou 2.
  4. Etude des résultats

    Il est temps d'exploiter les résultats. Pour affiner l'analyse on n'hésitera pas à reprendre les points 1, 2 ou 3 si les résultats s'avéraient insatisfaisants.
  5. Formalisation et diffusion

    Les résultats sont formalisés pour être diffuser. Ils ne seront utiles qu'une fois devenus une connaissance partagée. C'est bien là l'aboutissement de la démarche. C'est aussi là que réside la difficulté d'interprétation et de généralisation...

4 conseils complémentaires

  1. Accordez le soin nécessaire à la phase de collecte des données

    La collecte des données est une étape fondamentale. Elle est longue et coûteuse. Il est indispensable de disposer de la garantie de la fiabilité des données avant de lancer la moindre analyse.
  2. L'étude des résultats mérite toute votre attention.

    Il ne faut pas hésiter à présenter différemment le problème et à tester d'autres techniques d'analyse avant de s'engager sur un résultat.
  3. Ce instrument n'est pas non plus un oracle absolu.

    Une absence de réponse du système ne doit pas être systématiquement considérée comme une négation. Il faut quelquefois prendre la précaution d'aborder le problème sous un autre angle avant de s'engager.
  4. Se souvenir que corrélation n'est pas nécessairement causalité

    Corrélation n'est pas causalité

Quelques produits types représentatifs

Principal produit Open Source

Ouvrages à lire

Un livre assez complet sur les techniques de data mining et les applications au marketing et à la gestion de la relation client. L'ouvrage présente les principes techniques de data mining et les outils d'analyses connexes, l'auteur en étudie les forces et les faiblesses et en précise les applications à l'aide d'exemples concrets.

Data Mining Techniques
For Marketing, Sales, and Customer Relationship Management

Michael J. Berry, Gordon S. Linoff
John Wiley & Sons Ltd
3ème édition 2011
888 pages, 31,27 Euros
Dispo : www.amazon.fr


Un livre est associé au développement du projet de data mining libre Weka.

Un ouvrage facile d'accès, suffisamment documenté et explicite pour que le lecteur puisse se forger une solide connaissance de la question. Les exemples s'appuient sur le fameux outil gratuit de data mining open source Weka.

Data MiningData Mining
Practical Machine Learning Tools And Techniques

de I.H. Witten, Eibe Frank
Morgan Kaufmann Publishers
3ème édition 2012
664 pages, Prix librairie : 48,40 Euros
Dispo : www.amazon.fr



1 2

Pour aller plus avant ...

Commentaires lecteurs...

Partagez cet article...

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Pour établir un lien vers cet article depuis votre site recopiez le lien suivant.

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN



Copyright : Alain FERNANDEZ ©1998-2013 Tous droits réservés Mentions légales


Accéder à tous les sites du portail : Blog pro -  Business Intelligence -  Tableau de bord -  Excel PME  -  Chef de Projet -  Contrôle de Gestion -  Freelance  

Business Intelligence

Les 80 fiches de la BI

Business Intelligence
Business Intelligence
Formation BI
Outils de la BI
Le projet BI, le livre
Les Perspectives, BI 2.0 +/-
Perspectives BI
BI état de l'art
BI 2.0
BI 2.0 en pratique
BI Temps réel
La BI de demain
La BI mobile
Projet BI & Stratégie +/-
BI & stratégie
Informatique décisionnelle
BI, projet stratégique
BI Front-end tools +/-
Tableau de bord BI
Tableau de bord avec avec Excel
Outils de Reporting
Reporting financier
Tableaux de bord et KM 
Portail décisionnel
Le data warehouse +/-
Data Warehousing
Data Warehouse
Data Mart
Architecture Data Warehouse
Projet Data Warehouse
Modélisation Data Warehouse
ROI du projet
Causes d'échecs
Big Data +/-
Big Data, le dossier
Hadoop
Hadoop calculs massifs
Map Reduce
Les bases No SQL
BDD In Memory
La qualité des données +/-
Gestion qualité des données
Collectez les données ETL
Gouvernance des données
MDM Master Data Management
Projet MDM
ROI du MDM
Meta données
BI et ERP (PGI)
Outils d'analyse +/-
Outils d'analyse
Statistiques
Analyse prédictive
Arbre de decision
Data Mining
Text Mining
Business Intelligence avec Excel
Excel et la BI pour tous
Analyse Olap +/-
Pourquoi Olap ?
Qu'est-ce que OLAP ?
Modèle de CODD
Nouveau modèle
Conception Olap
ROLAP, MOLAP, HOLAP...
Essayez Olap
Les outils décisionnels +/-
Outils decisionnels
IBM
Oracle, Hyperion Solution
Microsoft
SAP Business Objects
SAS institute
Qliktech
Information Builders
Dundas Data Visualization
Corda Technologies
Prophix
Infor
BI Open Source +/-
Le principe de l'Open Source
Projets Open Source
Outils ETL Open Source
outils Reporting Open Source
outils OLAP et Data Warehouse Open Source
outils Data Mining Open Source
synthèse BI Open Source 
Projet décisionnel +/-
Conduire le projet
Le projet decisionnel
Le système de pilotage
Le système decisionnel
Les Ressources de la BI +/-
Livres de la Business Intelligence
Livres du Data Mining
Sites de la Business Intelligence

References du Portail
Glossaire
Sites de reference
Plan du site 1/2
Plan du site 2/2
Contact
A propos...
Copyright©


Toutes les pages de ce site sont sous copyright Alain Fernandez 1998-2013

IDDN Certification





***********************
Performance de l'entreprise

 Dossier BI   Méthode projet   Stratégie   Data Warehouse   Big Data   Qualité des données   Analyse   Front-end  BI Open Source