MapReduce, définition

MapReduce est un modèle de programmation massivement parallèle adapté au traitement de très grandes quantités de données. Les programmes adoptant ce modèle sont automatiquement parallélisés et exécutés sur des clusters (grappes) d'ordinateurs. MapReduce est un produit Google Corp.

MapReduce : 1. Comment ça marche ? 2. À quoi ça sert ? 3. Ressources web 4. À Voir 5. À lire

Traitement distribué et analyse massive de grandes quantités de données

Principe de MapReduce

Le système de traitement temps réel assure le partitionnement et le plan d'exécution des programmes tout en gérant les inhérentes pannes informatiques et indisponibilités.
Ainsi, même les programmeurs inexpérimentés en programmation parallèle et distribuée sont à même d'utiliser ces ressources.
Une application typique MapReduce traite plusieurs téra-octets de données et exploite plusieurs milliers de machines. Map Reduce est écrit en C++.
L'index de Google est généré avec MapReduce.

Pourquoi MapReduce ?

Si le web facilite les échanges commerciaux, il est aussi une mine quasi infinie de renseignements à collecter. La quantité de données disponibles aux fins d'études de clientèle, de marché ou de concurrence dépasse très largement les rêves secrets des marketeurs de la précédente décennie. Encore faut-il disposer des outils de traitement et d'analyse adéquats. C'est là qu'entre en scène la solution de traitement parallèle Map Reduce de Google Corp.

Méga stockage

En parallèle de cette multiplication exponentielle des informations disponibles, le prix des supports de stockage n'a cessé de baisser et la capacité d'augmenter. Les bases de données sont technologiquement prêtes à accueillir cette masse de données. Le téra octet et ses multiples sont la nouvelle unité de mesure. Les principaux fournisseurs de bases de données pour le data warehouse sont prêts, notamment avec les solutions de virtualisation du stockage et de Cloud Computing pour l'entreprise.

Loi des grands nombres

1 téra-octet représente tout de même 1.000.000.000.000 octets. À 3.000 octets pour une page A4, cela fait pas moins de 340 millions de pages. Même si le multimédia est bien plus gourmand, cela représente quelques dossiers. Je vous laisse imaginer.

Les datawarehouses de 10 ou 100 téraoctets ne sont d'ailleurs plus l'exception. Les sites Internet de renommée mondiale, comme Facebook, gèrent des bases de l'ordre du Petaoctet (10¹⁵).
Encore faut-il disposer des capacités de traitement pour digérer, stocker, classer, traiter en un temps relativement raisonnable cette avalanche de données.
C'est là qu'intervient le framework "MapReduce".

Hadoop et Data warehouse de nouvelle génération

Le produit Open Source Hadoop est présenté et expliqué au chapitre suivant : Qu'est-ce que hadoop ?

Ressources web

labs.google.com L'excellent dossier pdf des Google Labs MapReduce: Simplified Data Processing on Large Clusters.
hadoop.apache.org Le site Hadoop chez Apache
cloudera.com Cloudera version commerciale de Hadoop avec services et support
sortbenchmark.org Benchmark de tri
Apache Spark Un framework de calcul distribué disponible en open source

L’auteur

Alain Fernandez est un spécialiste de la mesure de la performance, de l’aide à la décision et de la conception de tableaux de bord de pilotage. Au fil de ces vingt dernières années, il a conduit de nombreux projets de réalisation de système décisionnel en France et à l'International. Il est l'auteur de plusieurs livres publiés aux Éditions Eyrolles consacrés à ce thème, vendus à plusieurs dizaines de milliers d'exemplaires et régulièrement réédités.

Me suivre sur LinkedIn

À ce sujet, voir aussi

Qu'est-ce que le Text Mining ?
Définition et outils de Text Mining, un premier exemple historique pour bien comprendre l'importance d'extraire le sens de documents non structurés, suivi d'un second exemple bien plus récent où cette idée d'extraire des résumés synthétiques pour créer des documents d'intérêts en automatique prend tournure sur le web pour au final construire une wikipedia bis entièrement automatiquement.
Qu'est-ce qu'un arbre de décision ?
Qu'est ce qu'un arbre de decision ? Comment le bâtir, comment l'utiliser, quelles en sont les variantes ? Méthodes et outils d'analyse de la Business Intelligence.
Analyse prédictive et réseau de neurones, définition
Analyse prédictive et réseau de neurones Méthodes et outils d'analyse de la Business Intelligence.

Piloter l'Entreprise Innovante...

De l'importance de réformer les principes archaïques de contrôle de la mesure de la performance pour enfin dynamiser la prise de décision en équipe, incontournable clé de l'entreprise innovante. La méthode SOCRIDE centrée sur les questions de Confiance et de Reconnaissance est ici expliquée, illustrée et détaillée :

Les tableaux de bord du manager innovant
Une démarche en 7 étapes pour faciliter la prise de décision en équipe
Alain Fernandez
Éditeur : Eyrolles
Pages : 320 pages

Consultez la fiche technique »»»

Pour acheter ce livre :

Format ebook : PDF & ePub, Format Kindle

Voir aussi...

Modélisation du data warehouse, le schéma en étoile

Causes d'échecs du projet Business Intelligence

Méthodes d'analyse statistiques de la Business Intelligence

Les fiches du dossier: Big Data

Formation Big Data en ligne
Formation au Big Data. Un guide d'autoformation disponible en ligne à l'usage des managers qui n'ont guère le temps d'investir dans un programme ...
Les bases de données In-Memory
In-memory désigne un système de base de données spécialement conçu pour profiter pleinement des capacités étendues des mémoires vives disponibles ...
Le big data et la décision en entreprise
Les apports du big data au processus décisionnel en entreprise, des changements en perspective...
Quelles sont les limites du Big Data et de l'Analytique ?
Le Big Data offre bien des avantages sur le papier. Dans la réalité, le Big Data n'est pas exempt de limites qu'il s'agit de bien connaître avant ...
Meilleurs livres du Big Data
Les livres de référence Big Data et machine learning, sept ouvrages pour bien comprendre les principes et les enjeux. Les quelques livres consacrés ...
Qu'est-ce que le Big Data ? Définition et Principe
Le Big Data, la solution miracle à tous nos problèmes ? Sans dénigrer les avantages indéniables de cette révolution technologique, il est ...
Comment tout résoudre avec le Big Data ?
Attention aux vendeurs d'illusions ! Le marketing et son storytelling sont -en marche- pour colporter les nouvelles chansons de gestes contant les ...
Bases de données NoSQL, le principe
Que sont les bases de données Not only SQL ? Quelles sont les applications où elles s'avèrent plus performantes que les bases de données ...
La technologie mise en oeuvre pour le Big Data
Les technologies qui permettent de bâtir une solution de type Big Data ou Données Massives en français, ont leur origine au sein même des moteurs ...
Un regard critique du Big Data
Le Big Data est une révolution en soi, aucun doute à ce sujet. Cela dit en pratique, il ne faut pas non plus dire et faire n'importe quoi. Pour ...
Hadoop, définition
Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et Google File System, deux produits Google ...
Le Big Data expliqué: Quoi ? Pourquoi ? Comment ?
Le big data expliqué aux managers en 3 questions/réponses : Quoi ? Pourquoi ? et Comment ? Bref tout ce qu'il s'agit de savoir afin ...