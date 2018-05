Extraire le sens des documents non structurés

Définition du Text Mining

L

e Text Mining est un ensemble de méthodes, de techniques et d'outils pour exploiter les documents non structurés que sont les textes écrits, comme les fichiers bureautiques de type word ® les emails, les documents de présentation de type powerpoint ®...

Pour extraire du sens de documents non structurés, le text mining s'appuie sur des techniques d'analyse linguistique. Le text mining est utilisé pour classer des documents, réaliser des résumés de synthèse automatique ou encore pour assister la veille stratégique ou technologique selon des pistes de recherches prédéfinies.

Le Text Mining est (quasi) aussi ancien que l'informatique

Pour l'anecdote, l'utilisation de l'informatique pour automatiser la synthèse de textes n'est vraiment pas récente. Hans Peter Luhn, chercheur chez IBM, le véritable inventeur du terme de Business Intelligence en 1958, donc bien avant Howard Dresner, publiait en 1957 une étude intitulée : "The Automatic Creation of Literature Abstracts". Cette passionnante étude est accessible directement sur le site de recherche IBM

Résumé : un article scientifique complet scanné (paru dans le New York Times 8/09/57 "Chemistry Is Employed in a Search for New Methods to Conquer Mental Illness") est lu et analysé par un ordinateur IBM 704. La mesure statistique de la fréquence des mots et de leur distribution permet d'établir une évaluation relative de la signification des mots et des phrases. Les phrases les plus significatives en terme de sens sont extraites et constituent le résumé-synthèse.

Pour la petite histoire, l'IBM 704 sorti en 1955 a marqué son époque. C'est notamment sur cette machine qu'a été développé le langage Fortran. Voir ici IBM 704 sur la wikipedia . Nous sommes donc bien au tout début de l'essor des applications informatisées.

Et aujourd'hui ?

Et bien aujourd'hui, Google propose le même "service", si on peut le dénommer ainsi, mais à grande échelle. En effet, un brevet récemment déposé par le leader incontesté (pour le moment) de la recherche sr le web ne cache pas ses ambitions. Google se propose en effet de créer du contenu "original" en synthétisant les articles lus sur le web. En automatique bien entendu.

Un premier algorithme extrait la substantifique moelle d'un article, c'est dire le résumé-synthèse mentionné ci-dessus, l'extractive summaries en jargon google. Il répète la même opération pour d'autres articles complémentaires traitant du même sujet.

Puis un second algorithme, "Abstractive Summaries" construit une synthèse globale écrite à sa façon, en paraphrasant les textes originaux. Avec cette future fonction, Google sera en mesure de répondre à une question d'un internaute directement sans faire appel à une recherche sur le web (featured snippets). Ensuite, toujours selon l'article en référence ci-dessous, Google se propose de bâtir en automatique une "Wikipédia" maison.

Cela dit comparativement au nombre quasi incommensurable d'articles de la Wikipédia, anglophone notamment, écrits par des robots, on ne sera pas surpris par cette future "encyclopédie".

La ressource originale

A lire le texte de la revue en ligne Searchenginejournal : Google’s New Algorithm Creates Original Articles From Your Content

Quelques outils de Text Mining

gate.ac.uk GATE

General Architecture for Text Engineering, solution de Text Mining. Gate est une suite d'outils Java initiée par l'université de Sheffield. C'est un produit Open Source.

Text Mining - SAS ® Text Miner

alphaworks.ibm.com Text Analytics Tools and Runtime for IBM LanguageWare

statsoft.fr STATISTICA Text Miner de Statsoft

Lectures recommandées

›

Trois ouvrages pratiques pour s'initier au traitement de l'information textuelle et ainsi mieux comprendre les principes du text mining et les enjeux de la Business Intelligence en langage naturel. (Langue anglaise)

Text Mining With R: A Tidy Approach

de Julia Silge, David Robinson)

O'Reilly Media



192 pages

Prix : 28 Euros

Dispo chez : www.amazon.fr



Natural Language Processing with Python

Steven Bird, Ewan Klein, Edward Loper

O'Reilly Media



502 pages

Prix : 35 Euros

Dispo chez : www.amazon.fr & Format Kindle



Practical Text Analytics

Interpreting Text and Unstructured Data for Business Intelligence

Steven Struhl

Kogan Page



272 pages



Dispo chez : www.amazon.fr & Format Kindle





