Qu'est-ce que le Text Mining ?

Qu'est-ce que le Text Mining ?

Définition du Text Mining

Le Text Mining est un ensemble de méthodes, de techniques et d'outils pour exploiter les documents non structurés que sont les textes écrits, comme les fichiers word ® les emails, les dossiers powerpoint ®.
Pour extraire du sens de documents non structurés, le text mining s'appuie sur des techniques d'analyse linguistique. Le text mining est utilisé pour classer des documents, réaliser des résumés de synthèse automatique ou encore pour assister la veille stratégique ou technologique selon des pistes de recherches prédéfinies.

Le Text Mining est (quasi) aussi ancien que l'informatique

Pour l'anecdote, l'utilisation de l'informatique pour automatiser la synthèse de textes n'est vraiment pas récente. Hans Peter Luhn, chercheur chez IBM, le véritable inventeur du terme de Business Intelligence en 1958, donc bien avant Howard Dresner (cf Le perfologue Historique de la Business Intelligence), publiait en 1957 une étude intitulée : "The Automatic Creation of Literature Abstracts". Cette passionnante étude est accessible directement sur le site de recherche IBM.
Résumé : Un article scientifique complet (paru dans le New York times 8/09/57 "Chemistry Is Employed in a Search for New Methods to Conquer Mental Illness") scanné est lu et analysé par un ordinateur IBM 704. La mesure statistique de la fréquence des mots et de leurs distribution permet d'etablir une évaluation relative de la signification des mots et des phrases. Les phrases les plus significatives en terme de sens sont extraites et constituent le résumé-synthèse.
Pour la petite histoire, l'IBM 704 sorti en 1955 a marqué son époque. C'est notamment sur cette machine qu'a été développé le langage Fortran. Voir ici IBM 704 sur la wikipedia. Nous sommes donc bien au tout début de l'essor des applications informatisées.

Quelques outils de Text Mining

Sur des thèmes connexes

Lecture recommandée

Un ouvrage pratique pour s'initier au traitement de l'information textuelle et ainsi mieux comprendre les principes du text mining et les enjeux de la Business Intelligence en langage naturel.

Natural Language Processing with Python Natural Language Processing with Python
Steven Bird, Ewan Klein, Edward Loper
O'Reilly Media
(Langue anglaise)
Juillet 2009

512 pages
Prix librairie : 31,13 Euros


Dispo chez :
www.amazon.fr

D 1 2 3 4 5 6 7



Envoyer le lien de cet article par e-mail  Recommandez cet article

Retwittez cet article   Partagez cet article sur Facebook  
Partagez sur LinkedIn  Partagez cet article sur Viadeo  Partagez  cet article sur Del.icio.us  Partagez cet article sur Yahoo !  Partagez sur BlogMarks  Partagez cet article sur Scoopeo  Bookmark Google  



Copyright : Alain FERNANDEZ ©1998-2010 Tous droits réservés Mentions légales


Piloter.org vous a intéressé ?
Envoyez le lien www.piloter.org par e-mail Recommandez ce site
Envoyer le lien de cet article par e-mail  Conseillez cet article
Retwittez cet article   Partagez cet article sur Facebook  Partagez sur LinkedIn  Partagez cet article sur Viadeo  


Performance Management
Nouveaux tableau de bord
Les nouveaux tableaux de bord des managers
Le projet décisionnel en totalité 4ème édition 2008

Consultez la fiche détaillée


Articles les + lus
Les progiciels de la Business Intelligence, système Informatique Décisionnelle
Utiliser Reporting et Requêteur ad hoc
Qu'est-ce que ITIL ? Information Technology Infrastructure Library
La Business Intelligence, le projet Informatique Décisionnelle
Principes, méthodes et outils pour mieux gérer son temps
La méthode Six Sigma en pratique


Gestion de projet
conduite de projet
Le chef de projet efficace
Réussir les projets complexes
Les pratiques de bon sens.
3ème éd 2009

Consultez la fiche détaillée


Gouvernance d'entreprise
Business Intelligence
Business Intelligence
Briques de la BI
Le projet BI, le livre
Les Perspectives
Perspectives BI
BI état de l'art
La BI de demain
BI 2.0
BI 2.0 en pratique
BI Temps réel
Analyse BI
Outils d'analyse
Statistiques
Analyse prédictive
Arbre de decision
Data Mining
Text Mining
Map Reduce
Hadoop
La qualité des données
Collectez les données ETL
Gouvernance des données
MDM Master Data Management
Projet MDM
ROI du MDM
Meta données
BI et ERP (PGI)
Le data warehouse
Data Warehousing
Data Warehouse
Data Mart
Architecture Data Warehouse
Projet Data Warehouse
Modélisation Data Warehouse
ROI du projet
Les briques essentielles
Reporting et Requêteur
Reporting financier
Tableaux de bord et KM 
Portail décisionnel
Décisionnel Open Source 
Analyse Olap
Pourquoi Olap ?, Qu'est-ce que OLAP ?, Modèle de CODD, Nouveau modèle, Conception Olap, ROLAP, MOLAP, HOLAP... , Essayez Olap
Les outils décisionnels
Outils decisionnels
IBM, Oracle, Hyperion Solution, Microsoft, SAP Business Objects, SAS institute, Qliktech, Information Builders, Dundas Data Visualization, Corda Technologies, Prophix, Infor
Projet décisionnel
Conduire le projet , Le projet decisionnel , Le système de pilotage , Le système decisionnel
Les Ressources de la BI
Livres de la BI
Livres du Data Mining
Sites de la BI
Le projet BI en 5 points
10 causes d'echec BI

References du Portail
Glossaire
Sites de reference
Plan du site 1/2
Plan du site 2/2
Contact
A propos...
Copyright©


Toutes les pages de ce site sont sous copyright Alain Fernandez 1998-2010

IDDN Certification



Nouveaux tableaux de bord des managers Alain Fernandez, cliquez pour consulter la fiche
ccccccccccccccccccccc

 Projet BI   Architecture BI   Perspectives BI   BI 2.0   Outils d'analyses   M.D.M   Data Warehouse   Olap   Reporting   BI Open Source