Qu'est-ce que Map-reduce ?

Traitement distribué et analyse massive de grandes quantités de données

Pourauoi Map reduce ?

Si le web facilite les échanges commerciaux, il est aussi une mine quasi infinie de renseignements à collecter. La quantité de données disponibles aux fins d'études de clientèle, de marché ou de concurrence dépasse très largement les rêves secrets des marketeurs de la précédente décennie. Encore faut-il disposer des outils de traitement et d'analyse adéquat. C'est là qu'entre en scène la solution de traitement parallèle Map Reduce de Google Corp.

Méga stockage

En parallèle de cette multiplication exponentielle des informations disponibles, le prix des supports de stockage n'a cessé de baisser et la capacité d'augmenter. Les bases de données sont technologiquement prêtes à accueillir cette masse de données. Le tera octet et ses multiples sont la nouvelle unité de mesure. Les principaux fournisseurs de bases de données pour data warehouse sont prêts, notamment avec les solutions de virtualisation du stockage et de Cloud Computing.

Loi des grands nombres

1 tera octet représente tout de même 1.000.000.000.000 octets. A 3.000 octets pour une page A4, cela fait pas moins de 340 millions de pages. Même si le multimedia est bien plus gourmand, cela représente quelques dossiers. Je vous laisse imaginer.
Les datawarehouses de 10 ou 100 teraoctets ne sont d'ailleurs plus l'exception. Les sites Internet de renommée mondiale comme Facebook gèrent des bases de l'ordre du Petaoctet (1015).
Encore faut-il disposer des capacités de traitement pour digérer, stocker, classer, traiter en un temps relativement raisonnable cette avalanche de données.
C'est là qu'intervient le framework "Map-reduce".

Définition de Map-reduce

Map-reduce est un modèle de programmation massivement parallèle adapté au traitement de très grandes quantités de données. MapReduce est un produit Google Corp. Les programmes adoptant ce modèle sont automatiquement parallélisés et exécutés sur des clusters (grappes) d'ordinateurs.
Le système de traitement temps réel assure le partitionnement et le plan d'exécution des programmes tout en gérant les inhérentes pannes informatiques et indisponibilités. Ainsi, même les programmeurs inexpériementés en programmation parallèle et distribuée sont à même d'utiliser ces ressources.
Une application typique MapReduce traite plusieurs tera-octets de données et exploîte plusieurs milliers de machines. Map Reduce est écrit en C++.
L'index de Google est généré avec MapReduce.

Hadoop et Data warehouse de nouvelle génération

Le produit Open Source Hadoop est présenté et expliqué au chapitre suivant : Qu'est-ce que hadoop ?

Ressources

Sur des thèmes connexes

Lecture recommandée

Comment utiliser Hadoop pour bâtir des systèmes distribués afin de procéder à l'analyse de très grandes quantité de données. Tom White est un expert consultant conférencier Hadoop. Il travaille pour Cloudera, entreprise intégrant les projets Hadoop et référencée ci-dessus.

Hadoop: The Definitive Guide Hadoop The Definitive Guide
MapReduce for the Cloud
Tom White
O'Reilly Media
(Langue anglaise)
Juin 2009 - 524 pages
Prix librairie : 31,38 Euros



Dispo chez :
www.amazon.fr

D 1 2 3 4 5 6 7



Envoyer le lien de cet article par e-mail  Recommandez cet article

Retwittez cet article   Partagez cet article sur Facebook  
Partagez sur LinkedIn  Partagez cet article sur Viadeo  Partagez  cet article sur Del.icio.us  Partagez cet article sur Yahoo !  Partagez sur BlogMarks  Partagez cet article sur Scoopeo  Bookmark Google  



Copyright : Alain FERNANDEZ ©1998-2010 Tous droits réservés Mentions légales
Toutes les marques citées sur cette page sont des marques déposées de leur propriétaire respectif.


Piloter.org vous a intéressé ?
Envoyez le lien www.piloter.org par e-mail Recommandez ce site
Envoyer le lien de cet article par e-mail  Conseillez cet article
Retwittez cet article   Partagez cet article sur Facebook  Partagez sur LinkedIn  Partagez cet article sur Viadeo  


Performance Management
Nouveaux tableau de bord
Les nouveaux tableaux de bord des managers
Le projet décisionnel en totalité 4ème édition 2008

Consultez la fiche détaillée


Articles les + lus
Les progiciels de la Business Intelligence, système Informatique Décisionnelle
Utiliser Reporting et Requêteur ad hoc
Qu'est-ce que ITIL ? Information Technology Infrastructure Library
La Business Intelligence, le projet Informatique Décisionnelle
Principes, méthodes et outils pour mieux gérer son temps
La méthode Six Sigma en pratique


Gestion de projet
conduite de projet
Le chef de projet efficace
Réussir les projets complexes
Les pratiques de bon sens.
3ème éd 2009

Consultez la fiche détaillée


Gouvernance d'entreprise
Business Intelligence
Business Intelligence
Briques de la BI
Le projet BI, le livre
Les Perspectives
Perspectives BI
BI état de l'art
La BI de demain
BI 2.0
BI 2.0 en pratique
BI Temps réel
Analyse BI
Outils d'analyse
Statistiques
Analyse prédictive
Arbre de decision
Data Mining
Text Mining
Map Reduce
Hadoop
La qualité des données
Collectez les données ETL
Gouvernance des données
MDM Master Data Management
Projet MDM
ROI du MDM
Meta données
BI et ERP (PGI)
Le data warehouse
Data Warehousing
Data Warehouse
Data Mart
Architecture Data Warehouse
Projet Data Warehouse
Modélisation Data Warehouse
ROI du projet
Les briques essentielles
Reporting et Requêteur
Reporting financier
Tableaux de bord et KM 
Portail décisionnel
Décisionnel Open Source 
Analyse Olap
Pourquoi Olap ?, Qu'est-ce que OLAP ?, Modèle de CODD, Nouveau modèle, Conception Olap, ROLAP, MOLAP, HOLAP... , Essayez Olap
Les outils décisionnels
Outils decisionnels
IBM, Oracle, Hyperion Solution, Microsoft, SAP Business Objects, SAS institute, Qliktech, Information Builders, Dundas Data Visualization, Corda Technologies, Prophix, Infor
Projet décisionnel
Conduire le projet , Le projet decisionnel , Le système de pilotage , Le système decisionnel
Les Ressources de la BI
Livres de la BI
Livres du Data Mining
Sites de la BI
Le projet BI en 5 points
10 causes d'echec BI

References du Portail
Glossaire
Sites de reference
Plan du site 1/2
Plan du site 2/2
Contact
A propos...
Copyright©


Toutes les pages de ce site sont sous copyright Alain Fernandez 1998-2010

IDDN Certification



Nouveaux tableaux de bord des managers Alain Fernandez, cliquez pour consulter la fiche
ccccccccccccccccccccc

 Projet BI   Architecture BI   Perspectives BI   BI 2.0   Outils d'analyses   M.D.M   Data Warehouse   Olap   Reporting   BI Open Source