Qu'est-ce que le Text Mining ?

Par

Extraire le sens des documents non structurés

Définition du Text Mining

Le Text Mining est un ensemble de méthodes, de techniques et d'outils pour exploiter les documents non structurés que sont les textes écrits, comme les fichiers bureautiques de type word ® les emails, les documents de présentation de type powerpoint ®... Pour extraire du sens de documents non structurés, le text mining s'appuie sur des techniques d'analyse linguistique. Le text mining est utilisé pour classer des documents, réaliser des résumés de synthèse automatique ou encore pour assister la veille stratégique ou technologique selon des pistes de recherches prédéfinies.

pdf gratuits
La liste complete de tous les dossiers PDF, livres blancs et eBooks gratuits

Le Text Mining est (quasi) aussi ancien que l'informatique

Pour l'anecdote, l'utilisation de l'informatique pour automatiser la synthèse de textes n'est vraiment pas récente. Hans Peter Luhn, chercheur chez IBM, le véritable inventeur du terme de Business Intelligence en 1958, donc bien avant Howard Dresner (cf Le perfologue Historique de la Business Intelligence), publiait en 1957 une étude intitulée : "The Automatic Creation of Literature Abstracts". Cette passionnante étude est accessible directement sur le site de recherche IBM.
Résumé : Un article scientifique complet (paru dans le New York times 8/09/57 "Chemistry Is Employed in a Search for New Methods to Conquer Mental Illness") scanné est lu et analysé par un ordinateur IBM 704. La mesure statistique de la fréquence des mots et de leurs distribution permet d'etablir une évaluation relative de la signification des mots et des phrases. Les phrases les plus significatives en terme de sens sont extraites et constituent le résumé-synthèse.
Pour la petite histoire, l'IBM 704 sorti en 1955 a marqué son époque. C'est notamment sur cette machine qu'a été développé le langage Fortran. Voir ici IBM 704 sur la wikipedia. Nous sommes donc bien au tout début de l'essor des applications informatisées.

Quelques outils de Text Mining

  • gate.ac.uk GATE
    General Architecture for Text Engineering, solution de Text Mining. Gate est une suite d'outils Java initiée par l'université de Sheffield. C'est un produit Open Source.
  • sas.comText Mining - SAS ® Text Miner
  • alphaworks.ibm.com Text Analytics Tools and Runtime for IBM LanguageWare
  • statsoft.fr STATISTICA Text Miner de Statsoft

Ouvrage recommandé

Un ouvrage pratique pour s'initier au traitement de l'information textuelle et ainsi mieux comprendre les principes du text mining et les enjeux de la Business Intelligence en langage naturel.

Natural Language Processing with PythonNatural Language Processing with Python
Steven Bird, Ewan Klein, Edward Loper
O'Reilly Media (Langue anglaise)
Juillet 2009

512 pages
Prix librairie : 31,13 Euros
Dispo : www.amazon.fr

1 2

Pour aller plus avant ...

Commentaires lecteurs...

Partagez cet article...

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Pour établir un lien vers cet article depuis votre site recopiez le lien suivant.

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN



Copyright : Alain FERNANDEZ ©1998-2013 Tous droits réservés Mentions légales


Accéder à tous les sites du portail : Blog pro -  Business Intelligence -  Tableau de bord -  Excel PME  -  Chef de Projet -  Contrôle de Gestion -  Freelance  

Business Intelligence

Les 80 fiches de la BI

Business Intelligence
Business Intelligence
Formation BI
Outils de la BI
Le projet BI, le livre
Les Perspectives, BI 2.0 +/-
Perspectives BI
BI état de l'art
BI 2.0
BI 2.0 en pratique
BI Temps réel
La BI de demain
La BI mobile
Projet BI & Stratégie +/-
BI & stratégie
Informatique décisionnelle
BI, projet stratégique
BI Front-end tools +/-
Tableau de bord BI
Tableau de bord avec avec Excel
Outils de Reporting
Reporting financier
Tableaux de bord et KM 
Portail décisionnel
Le data warehouse +/-
Data Warehousing
Data Warehouse
Data Mart
Architecture Data Warehouse
Projet Data Warehouse
Modélisation Data Warehouse
ROI du projet
Causes d'échecs
Big Data +/-
Big Data, le dossier
Hadoop
Hadoop calculs massifs
Map Reduce
Les bases No SQL
BDD In Memory
La qualité des données +/-
Gestion qualité des données
Collectez les données ETL
Gouvernance des données
MDM Master Data Management
Projet MDM
ROI du MDM
Meta données
BI et ERP (PGI)
Outils d'analyse +/-
Outils d'analyse
Statistiques
Analyse prédictive
Arbre de decision
Data Mining
Text Mining
Business Intelligence avec Excel
Excel et la BI pour tous
Analyse Olap +/-
Pourquoi Olap ?
Qu'est-ce que OLAP ?
Modèle de CODD
Nouveau modèle
Conception Olap
ROLAP, MOLAP, HOLAP...
Essayez Olap
Les outils décisionnels +/-
Outils decisionnels
IBM
Oracle, Hyperion Solution
Microsoft
SAP Business Objects
SAS institute
Qliktech
Information Builders
Dundas Data Visualization
Corda Technologies
Prophix
Infor
BI Open Source +/-
Le principe de l'Open Source
Projets Open Source
Outils ETL Open Source
outils Reporting Open Source
outils OLAP et Data Warehouse Open Source
outils Data Mining Open Source
synthèse BI Open Source 
Projet décisionnel +/-
Conduire le projet
Le projet decisionnel
Le système de pilotage
Le système decisionnel
Les Ressources de la BI +/-
Livres de la Business Intelligence
Livres du Data Mining
Sites de la Business Intelligence

References du Portail
Glossaire
Sites de reference
Plan du site 1/2
Plan du site 2/2
Contact
A propos...
Copyright©


Toutes les pages de ce site sont sous copyright Alain Fernandez 1998-2013

IDDN Certification




Performance de l'entreprise

 Dossier BI   Méthode projet   Stratégie   Data Warehouse   Big Data   Qualité des données   Analyse   Front-end  BI Open Source