Qu'est-ce que le Text Mining ?

Mise à jour le 22 juin 2023 Par Alain Fernandez

Les fiches du dossier: "Outils & Analyse"

Dfinition et outils de Text Mining. Un premier exemple historique pour bien comprendre l'importance d'extraire le sens de documents non structurés, suivi d'un second exemple bien plus récent où cette idée d'extraire des résumés synthétiques, pour créer des documents d'intérêt en automatique, prend tournure sur le web pour au final construire une wikipedia bis entièrement automatiquement.

1. Définition 2. Historique 3. Algorithmes 4. Outils 5. À voir aussi 6. À lire

Extraire le sens des documents non structurés

Une bibliothèque symbolise les informations à extraire

Définition du Text Mining

Le Text Mining est un ensemble de méthodes, de techniques et d'outils pour exploiter les documents non structurés que sont les textes écrits, comme les fichiers bureautiques de type Word ®, les emails, les documents de présentation de type Powerpoint ®...

Pour extraire du sens de documents non structurés, le text mining s'appuie sur des techniques d'analyse linguistique. Le text mining est utilisé pour classer des documents, réaliser des résumés de synthèse automatique ou encore pour assister la veille stratégique ou technologique selon des pistes de recherches prédéfinies.

Le Text Mining est (quasi) aussi ancien que l'informatique

Pour l'anecdote, l'utilisation de l'informatique pour automatiser la synthèse de textes n'est vraiment pas récente. Hans Peter Luhn, chercheur chez IBM, le véritable inventeur du terme de Business Intelligence en 1958, donc bien avant Howard Dresner, publiait en 1957 une étude intitulée "The Automatic Creation of Literature Abstracts". Cette passionnante étude est accessible directement sur le site de recherche IBM.

Résumé : un article scientifique complet scanné (paru dans le New York Times 8/09/57 "Chemistry Is Employed in a Search for New Methods to Conquer Mental Illness") est lu et analysé par un ordinateur IBM 704. La mesure statistique de la fréquence des mots et de leur distribution permet d'établir une évaluation relative de la signification des mots et des phrases. Les phrases les plus significatives en terme de sens sont extraites et constituent le résumé-synthèse.

Pour la petite histoire, l'IBM 704 sorti en 1955 a marqué son époque. C'est notamment sur cette machine qu'a été développé le langage Fortran. Voir ici IBM 704 sur la wikipedia. Nous sommes donc bien au tout début de l'essor des applications informatisées.

Et aujourd'hui ?

Eh bien aujourd'hui, Google propose le même "service", si on peut le dénommer ainsi, mais à grande échelle. En effet, un brevet déposé par le leader incontesté (pour le moment) de la recherche sur le web ne cache pas ses ambitions. Google se propose en effet de créer du contenu "original" en synthétisant les articles lus sur le web. En automatique bien entendu.

Algorithmes

Un premier algorithme extrait la substantifique moelle d'un article, c'est dire le résumé-synthèse mentionné ci-dessus, l'extractive summaries en jargon google. Il répète la même opération pour d'autres articles complémentaires traitant du même sujet.

Puis un second algorithme, "Abstractive Summaries", construit une synthèse globale écrite à sa façon, en paraphrasant les textes originaux. Avec cette future fonction, Google sera en mesure de répondre à une question d'un internaute directement sans faire appel à une recherche sur le web (featured snippets). Ensuite, toujours selon l'article en référence ci-dessous, Google se propose de bâtir en automatique une "Wikipédia maison".

Cela dit comparativement au nombre quasi incommensurable d'articles de la Wikipédia, anglophone notamment, écrits par des robots, on ne sera pas surpris par cette future "encyclopédie".

Voir ici : La Wikipédia et les Bots où l'on découvre qu'une quantité incommensurable d'articles sont écrits par des robots. Ce qui permet notamment aux versions suédoise et philippine d'être parmi les plus importantes en nombre d'articles.

La ressource originale : le texte de la revue en ligne Searchenginejournal : Google’s New Algorithm Creates Original Articles From Your Content

Quelques outils de Text Mining

gate.ac.uk GATE
General Architecture for Text Engineering, solution de Text Mining. Gate est une suite d'outils Java initiée par l'université de Sheffield. C'est un produit Open Source.
sas.com Text Mining - SAS ® Text Miner
Text Mining IBM Un brief explicatif du Text Mining, outils et techniques.
statsoft.fr STATISTICA Text Miner de Statsoft

L’auteur

Alain Fernandez est un spécialiste de la mesure de la performance, de l’aide à la décision et de la conception de tableaux de bord de pilotage. Au fil de ces vingt dernières années, il a conduit de nombreux projets de réalisation de système décisionnel en France et à l'International. Il est l'auteur de plusieurs livres publiés aux Éditions Eyrolles consacrés à ce thème, vendus à plusieurs dizaines de milliers d'exemplaires et régulièrement réédités.

Me suivre sur LinkedIn

Ressources web

Text Mining: An introduction to theory and some applications, Cambridge Assessment Network and Research

À ce sujet, voir aussi

Data Mining, explorer les données du Data Warehouse
Il ne suffit pas de stocker une multitude de données au sein d'une base spécialisée, Data Warehouse ou Big Data, encore faut-il les exploiter. C'est là le rôle du Data Mining qui, bien utilisé, saura tirer les enseignements contenus dans cette masse de données bien trop importante pour se contenter des seuls outils statistiques. Voyons, le principe, les méthodes utilisées, les outils et un cas concret mettant en évidence l'importance de la qualité des données.
OLAP On Line Analytical Processing
Le modèle OLAP Online Analytical Processing est une solution technologique pour faciliter la manipulation de grandes quantités de données à des fins décisionnelles. En effet de part sa nature, cette base de données bien spécifique permet de réorganiser les informations à volonté afin de réaliser des analyses pointues. Voyons le principe.
Qu'est-ce qu'un arbre de décision ?
Qu'est ce qu'un arbre de decision ? Comment le bâtir, comment l'utiliser, quelles en sont les variantes ? Méthodes et outils d'analyse de la Business Intelligence.
Analyse prédictive et réseau de neurones, définition
Analyse prédictive et réseau de neurones Méthodes et outils d'analyse de la Business Intelligence.

Piloter l'Entreprise Innovante...

Avez-vous déjà essayé d'instaurer la prise de décision en équipe ? Sans précautions préalables, rapidement, le consensus le plus mou qui soit vient casser les plus pures ambitions. Mais connaissez-vous la méthode SOCRIDE centrée sur les questions incontournables de Confiance et de Reconnaissance ? Rien de plus facile ! Elle est expliquée, illustrée et détaillée dans ce livre :

Les tableaux de bord du manager innovant
Une démarche en 7 étapes pour faciliter la prise de décision en équipe
Alain Fernandez
Éditeur : Eyrolles
Pages : 320 pages

Consultez la fiche technique »»»

Pour acheter ce livre :

Format ebook : PDF & ePub, Format Kindle

Voir aussi...

Modélisation du data warehouse, le schéma en étoile

Causes d'échecs du projet Business Intelligence

Méthodes d'analyse statistiques de la Business Intelligence

Les fiches du dossier: Outils & Analyse

Méthodes et outils d'analyse de la Business Intelligence
L'analyse des données est une composante majeure de la Business Intelligence. C'est bien grâce à une sérieuse analyse des données collectées ...
Data Mining, explorer les données du Data Warehouse
Il ne suffit pas de stocker une multitude de données au sein d'une base spécialisée, Data Warehouse ou Big Data, encore faut-il les exploiter. ...
DataVisualisation, Dataviz, exploitation graphique des données
La datavisualisation ou Dataviz, est une forme de représentation graphique des données afin d'en extraire un sens compréhensible par le plus grand ...
Méthodes d'analyse statistiques de la Business Intelligence
Méthodes et outils d'analyse statistiques de la Business Intelligence. Analyse de données et analyse multidimensionnelle OLAP langage R. Un point ...
OLAP On Line Analytical Processing
Le modèle OLAP Online Analytical Processing est une solution technologique pour faciliter la manipulation de grandes quantités de données à des ...
Arbre de décision
Qu'est ce qu'un arbre de decision ? Comment le bâtir, comment l'utiliser, quelles en sont les variantes ? Méthodes et outils d'analyse de la Business ...