Qu'est-ce que le Text Mining ?

Extraire le sens des documents non structurés

Définition du Text Mining

Le Text Mining est un ensemble de méthodes, de techniques et d'outils pour exploiter les documents non structurés que sont les textes écrits, comme les fichiers bureautiques de type word ® les emails, les documents de présentation de type powerpoint ®... Pour extraire du sens de documents non structurés, le text mining s'appuie sur des techniques d'analyse linguistique. Le text mining est utilisé pour classer des documents, réaliser des résumés de synthèse automatique ou encore pour assister la veille stratégique ou technologique selon des pistes de recherches prédéfinies.

Le Text Mining est (quasi) aussi ancien que l'informatique

Pour l'anecdote, l'utilisation de l'informatique pour automatiser la synthèse de textes n'est vraiment pas récente. Hans Peter Luhn, chercheur chez IBM, le véritable inventeur du terme de Business Intelligence en 1958, donc bien avant Howard Dresner (cf Le perfologue Historique de la Business Intelligence), publiait en 1957 une étude intitulée : "The Automatic Creation of Literature Abstracts". Cette passionnante étude est accessible directement sur le site de recherche IBM.
Résumé : Un article scientifique complet (paru dans le New York times 8/09/57 "Chemistry Is Employed in a Search for New Methods to Conquer Mental Illness") scanné est lu et analysé par un ordinateur IBM 704. La mesure statistique de la fréquence des mots et de leurs distribution permet d'etablir une évaluation relative de la signification des mots et des phrases. Les phrases les plus significatives en terme de sens sont extraites et constituent le résumé-synthèse.
Pour la petite histoire, l'IBM 704 sorti en 1955 a marqué son époque. C'est notamment sur cette machine qu'a été développé le langage Fortran. Voir ici IBM 704 sur la wikipedia. Nous sommes donc bien au tout début de l'essor des applications informatisées.

Quelques outils de Text Mining

  • gate.ac.uk GATE
    General Architecture for Text Engineering, solution de Text Mining. Gate est une suite d'outils Java initiée par l'université de Sheffield. C'est un produit Open Source.
  • sas.comText Mining - SAS ® Text Miner
  • alphaworks.ibm.com Text Analytics Tools and Runtime for IBM LanguageWare
  • statsoft.fr STATISTICA Text Miner de Statsoft

Ouvrage recommandé

Un ouvrage pratique pour s'initier au traitement de l'information textuelle et ainsi mieux comprendre les principes du text mining et les enjeux de la Business Intelligence en langage naturel.

Natural Language Processing with Python Natural Language Processing with Python
Steven Bird, Ewan Klein, Edward Loper
O'Reilly Media
(Langue anglaise)
Juillet 2009

512 pages
Prix librairie : 31,13 Euros


Dispo chez :
www.amazon.fr

1 2

Pour aller plus avant ...

Partagez cet article...

Partagez avec Twitter  Partagez sur Facebook  Partagez sur LinkedIn  Partagez sur Viadeo  Partagez sur Del.icio.us  

Envoyer le lien de cet article par e-mail  Recommandez cet article

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Pour établir un lien vers cet article depuis votre site recopiez le lien suivant.
La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog.
Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN



Copyright : Alain FERNANDEZ ©1998-2012 Tous droits réservés Mentions légales


  Blog pro      Performance BPM     Tb de bord gestion     Tb de bord Excel      Management de projet     Contrôle de gestion                          ?  

Business Intelligence

Les 78 fiches de la BI

Business Intelligence
1. Business Intelligence
2. Outils de la BI
3. Le projet BI, le livre
Les Perspectives, BI 2.0 +/-
4. Perspectives BI
5. BI état de l'art
6. BI 2.0
7. BI 2.0 en pratique
8. BI Temps réel
9. La BI de demain
10 La BI mobile
Projet BI & Stratégie +/-
11. BI & stratégie
12. Informatique décisionnelle
13. BI, projet stratégique
Le data warehouse +/-
14.Data Warehousing
15. Data Warehouse
16. Data Mart
17. Architecture Data Warehouse
18. Projet Data Warehouse
19. Modélisation Data Warehouse
20. ROI du projet
Big Data
21. Map Reduce
22. Hadoop
23. Hadoop calculs massifs
24.Les bases No SQL
La qualité des données +/-
25. Gestion qualité des données
26. Collectez les données ETL
27. Gouvernance des données
28. MDM Master Data Management
29. Projet MDM
30. ROI du MDM
31. Meta données
32. BI et ERP (PGI)
Outils d'analyse +/-
33. Outils d'analyse
34. Statistiques
35. Analyse prédictive
36. Arbre de decision
37. Data Mining
38. Text Mining
Analyse Olap +/-
39. Pourquoi Olap ?
40. Qu'est-ce que OLAP ?
41. Modèle de CODD
42. Nouveau modèle
43. Conception Olap
44. ROLAP, MOLAP, HOLAP...
45. Essayez Olap
BI Front-end tools +/-
46. Tableau de bord BI
47. Reporting et Requêteur
48. Reporting financier
49. Tableaux de bord et KM 
50. Portail décisionnel
Les outils décisionnels +/-
51. Outils decisionnels
52. IBM
53. Oracle, Hyperion Solution
54. Microsoft
55. SAP Business Objects
56. SAS institute
57. Qliktech
58. Information Builders
59. Dundas Data Visualization
60. Corda Technologies
61. Prophix
62. Infor
BI Open Source +/-
63. Le principe de l'Open Source
64. Projets Open Source
65. Outils ETL Open Source
66. outils Reporting Open Source
67. outils OLAP et Data Warehouse Open Source
68. outils Data Mining Open Source
69. synthèse BI Open Source 
Projet décisionnel +/-
70. Conduire le projet
71. Le projet decisionnel
72. Le système de pilotage
73. Le système decisionnel
Les Ressources de la BI +/-
74. Livres de la Business Intelligence
75. Livres du Data Mining
76. Sites de la Business Intelligence
77. Projet BI en 7 points (ext.)
78. 10 causes d'echec BI (ext.)

References du Portail
Glossaire
Sites de reference
Plan du site 1/2
Plan du site 2/2
Contact
A propos...
Copyright©


Toutes les pages de ce site sont sous copyright Alain Fernandez 1998-2012

IDDN Certification



Portail piloter la performance, Business Intelligence, Performance management

 Dossier BI   BI 2.0   Stratégie   Data Warehouse   Qualité des données   Outils d'analyse   OLAP   Front-end  Outils BI   BI Open Source   Projet BI