Qu'est-ce que le Text Mining ?

Par   Partagez : Envoyer le lien de cet article par e-mail   

Extraire le sens des documents non structurés

Une bibliothèque symbolise les informations à extraire

Définition du Text Mining

Le Text Mining est un ensemble de méthodes, de techniques et d'outils pour exploiter les documents non structurés que sont les textes écrits, comme les fichiers bureautiques de type word ® les emails, les documents de présentation de type powerpoint ®...

Pour extraire du sens de documents non structurés, le text mining s'appuie sur des techniques d'analyse linguistique. Le text mining est utilisé pour classer des documents, réaliser des résumés de synthèse automatique ou encore pour assister la veille stratégique ou technologique selon des pistes de recherches prédéfinies.

Le Text Mining est (quasi) aussi ancien que l'informatique

Pour l'anecdote, l'utilisation de l'informatique pour automatiser la synthèse de textes n'est vraiment pas récente. Hans Peter Luhn, chercheur chez IBM, le véritable inventeur du terme de Business Intelligence en 1958, donc bien avant Howard Dresner, publiait en 1957 une étude intitulée : "The Automatic Creation of Literature Abstracts". Cette passionnante étude est accessible directement sur le site de recherche IBM.

Résumé : un article scientifique complet scanné (paru dans le New York Times 8/09/57 "Chemistry Is Employed in a Search for New Methods to Conquer Mental Illness") est lu et analysé par un ordinateur IBM 704. La mesure statistique de la fréquence des mots et de leur distribution permet d'établir une évaluation relative de la signification des mots et des phrases. Les phrases les plus significatives en terme de sens sont extraites et constituent le résumé-synthèse.
Pour la petite histoire, l'IBM 704 sorti en 1955 a marqué son époque. C'est notamment sur cette machine qu'a été développé le langage Fortran. Voir ici IBM 704 sur la wikipedia. Nous sommes donc bien au tout début de l'essor des applications informatisées.

Quelques outils de Text Mining

  • gate.ac.uk GATE
    General Architecture for Text Engineering, solution de Text Mining. Gate est une suite d'outils Java initiée par l'université de Sheffield. C'est un produit Open Source.
  • sas.comText Mining - SAS ® Text Miner
  • alphaworks.ibm.com Text Analytics Tools and Runtime for IBM LanguageWare
  • statsoft.fr STATISTICA Text Miner de Statsoft

Lectures recommandées

Un ouvrage pratique pour s'initier au traitement de l'information textuelle et ainsi mieux comprendre les principes du text mining et les enjeux de la Business Intelligence en langage naturel. (Langue anglaise)

Natural Language Processing with PythonNatural Language Processing with Python
Steven Bird, Ewan Klein, Edward Loper
O'Reilly Media

502 pages
Prix : 35 Euros
Dispo chez : www.amazon.fr & Format Kindle

Practical Text AnalyticsPractical Text Analytics
Interpreting Text and Unstructured Data for Business Intelligence
Steven Struhl
Kogan Page

272 pages

Dispo chez : www.amazon.fr & Format Kindle


Partagez cet article...

Envoyer le lien de cet article par e-mail   
(total partages cumulés > 105)

Commentaires lecteurs...

Pour commenter en tant qu'Anonyme, cliquez sur "Commencez la discussion" Puis sur "Nom", tout en bas apparaît alors une case à cocher : "Je préfère publier en tant qu'invité"

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Google+    Twitter    Facebook

Excel ® est une marque déposée de Microsoft Corp ®
Gimsi ® est une marque déposée de Alain Fernandez



Copyright : Alain FERNANDEZ ©1998-2017 Tous droits réservés Mentions légales


Management de l'entreprise
  Suivez-nous :   Google+   twitter+  Facebook  Linkedin    e-mail  
»» Toutes les fiches Piloter.org »»