Qu'est-ce que Map-reduce ?

Par

Traitement distribué et analyse massive de grandes quantités de données

Définition de Map-reduce

Map-reduce est un modèle de programmation massivement parallèle adapté au traitement de très grandes quantités de données. MapReduce est un produit Google Corp. Les programmes adoptant ce modèle sont automatiquement parallélisés et exécutés sur des clusters (grappes) d'ordinateurs.

Principe de Map-Reduce

Le système de traitement temps réel assure le partitionnement et le plan d'exécution des programmes tout en gérant les inhérentes pannes informatiques et indisponibilités. Ainsi, même les programmeurs inexpérimentés en programmation parallèle et distribuée sont à même d'utiliser ces ressources.
Une application typique MapReduce traite plusieurs tera-octets de données et exploite plusieurs milliers de machines. Map Reduce est écrit en C++.
L'index de Google est généré avec MapReduce.

Pourquoi Map reduce ?

Si le web facilite les échanges commerciaux, il est aussi une mine quasi infinie de renseignements à collecter. La quantité de données disponibles aux fins d'études de clientèle, de marché ou de concurrence dépasse très largement les rêves secrets des marketeurs de la précédente décennie. Encore faut-il disposer des outils de traitement et d'analyse adéquat. C'est là qu'entre en scène la solution de traitement parallèle Map Reduce de Google Corp.

Méga stockage

En parallèle de cette multiplication exponentielle des informations disponibles, le prix des supports de stockage n'a cessé de baisser et la capacité d'augmenter. Les bases de données sont technologiquement prêtes à accueillir cette masse de données. Le tera octet et ses multiples sont la nouvelle unité de mesure. Les principaux fournisseurs de bases de données pour data warehouse sont prêts, notamment avec les solutions de virtualisation du stockage et de Cloud Computing pour l'entreprise.

Loi des grands nombres

1 tera octet représente tout de même 1.000.000.000.000 octets. A 3.000 octets pour une page A4, cela fait pas moins de 340 millions de pages. Même si le multimedia est bien plus gourmand, cela représente quelques dossiers. Je vous laisse imaginer.

Les datawarehouses de 10 ou 100 teraoctets ne sont d'ailleurs plus l'exception. Les sites Internet de renommée mondiale comme Facebook gèrent des bases de l'ordre du Petaoctet (1015).
Encore faut-il disposer des capacités de traitement pour digérer, stocker, classer, traiter en un temps relativement raisonnable cette avalanche de données.
C'est là qu'intervient le framework "Map-reduce".

Hadoop et Data warehouse de nouvelle génération

Le produit Open Source Hadoop est présenté et expliqué au chapitre suivant : Qu'est-ce que hadoop ?

Ressources

N'oubliez pas de visiter...

Les PDF du management de la performance en entreprise
Une sélection de livres blancs, eBook et dossier PDF gratuits à télécharger...

Livre recommandé

Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Tom White est un expert consultant conférencier Hadoop. Il travaille pour Cloudera Entreprise intégrant les projets Hadoop et référencée ci-dessus.

Hadoop: The Definitive GuideHadoop The Definitive Guide
Tom White
O'Reilly Media 2nde édition
(Langue anglaise)
3ème édition révisée 2012 - 688 pages
Prix librairie : 39,20 Euros
Dispo chez : www.amazon.fr


Pour aller plus avant ...

Commentaires lecteurs...

Partagez cet article...

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Pour établir un lien vers cet article depuis votre site recopiez le lien suivant.

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN



Copyright : Alain FERNANDEZ ©1998-2013 Tous droits réservés Mentions légales
Toutes les marques citées sur cette page sont des marques déposées de leur propriétaire respectif.


Accéder à tous les sites du portail : Blog pro -  Business Intelligence -  Tableau de bord -  Excel PME  -  Chef de Projet -  Contrôle de Gestion -  Freelance  

Business Intelligence

Les 80 fiches de la BI

Business Intelligence
Business Intelligence
Formation BI
Outils de la BI
Le projet BI, le livre
Les Perspectives, BI 2.0 +/-
Perspectives BI
BI état de l'art
BI 2.0
BI 2.0 en pratique
BI Temps réel
La BI de demain
La BI mobile
Projet BI & Stratégie +/-
BI & stratégie
Informatique décisionnelle
BI, projet stratégique
BI Front-end tools +/-
Tableau de bord BI
Tableau de bord avec avec Excel
Outils de Reporting
Reporting financier
Tableaux de bord et KM 
Portail décisionnel
Le data warehouse +/-
Data Warehousing
Data Warehouse
Data Mart
Architecture Data Warehouse
Projet Data Warehouse
Modélisation Data Warehouse
ROI du projet
Causes d'échecs
Big Data +/-
Big Data, le dossier
Hadoop
Hadoop calculs massifs
Map Reduce
Les bases No SQL
BDD In Memory
La qualité des données +/-
Gestion qualité des données
Collectez les données ETL
Gouvernance des données
MDM Master Data Management
Projet MDM
ROI du MDM
Meta données
BI et ERP (PGI)
Outils d'analyse +/-
Outils d'analyse
Statistiques
Analyse prédictive
Arbre de decision
Data Mining
Text Mining
Business Intelligence avec Excel
Excel et la BI pour tous
Analyse Olap +/-
Pourquoi Olap ?
Qu'est-ce que OLAP ?
Modèle de CODD
Nouveau modèle
Conception Olap
ROLAP, MOLAP, HOLAP...
Essayez Olap
Les outils décisionnels +/-
Outils decisionnels
IBM
Oracle, Hyperion Solution
Microsoft
SAP Business Objects
SAS institute
Qliktech
Information Builders
Dundas Data Visualization
Corda Technologies
Prophix
Infor
BI Open Source +/-
Le principe de l'Open Source
Projets Open Source
Outils ETL Open Source
outils Reporting Open Source
outils OLAP et Data Warehouse Open Source
outils Data Mining Open Source
synthèse BI Open Source 
Projet décisionnel +/-
Conduire le projet
Le projet decisionnel
Le système de pilotage
Le système decisionnel
Les Ressources de la BI +/-
Livres de la Business Intelligence
Livres du Data Mining
Sites de la Business Intelligence

References du Portail
Glossaire
Sites de reference
Plan du site 1/2
Plan du site 2/2
Contact
A propos...
Copyright©


Toutes les pages de ce site sont sous copyright Alain Fernandez 1998-2013

IDDN Certification




Performance de l'entreprise

 Dossier BI   Méthode projet   Stratégie   Data Warehouse   Big Data   Qualité des données   Analyse   Front-end  BI Open Source