Map-reduce, définition

Par   Partagez : Envoyer le lien de cet article par e-mail   

Traitement distribué et analyse massive de grandes quantités de données

MapReduce Map-reduce est un modèle de programmation massivement parallèle adapté au traitement de très grandes quantités de données. MapReduce est un produit Google Corp. Les programmes adoptant ce modèle sont automatiquement parallélisés et exécutés sur des clusters (grappes) d'ordinateurs.

Principe de Map-Reduce

Le système de traitement temps réel assure le partitionnement et le plan d'exécution des programmes tout en gérant les inhérentes pannes informatiques et indisponibilités. Ainsi, même les programmeurs inexpérimentés en programmation parallèle et distribuée sont à même d'utiliser ces ressources.
Une application typique MapReduce traite plusieurs téra-octets de données et exploite plusieurs milliers de machines. Map Reduce est écrit en C++.
L'index de Google est généré avec MapReduce.

Pourquoi Map reduce ?

Si le web facilite les échanges commerciaux, il est aussi une mine quasi infinie de renseignements à collecter. La quantité de données disponibles aux fins d'études de clientèle, de marché ou de concurrence dépasse très largement les rêves secrets des marketeurs de la précédente décennie. Encore faut-il disposer des outils de traitement et d'analyse adéquat. C'est là qu'entre en scène la solution de traitement parallèle Map Reduce de Google Corp.

Méga stockage

En parallèle de cette multiplication exponentielle des informations disponibles, le prix des supports de stockage n'a cessé de baisser et la capacité d'augmenter. Les bases de données sont technologiquement prêtes à accueillir cette masse de données. Le téra octet et ses multiples sont la nouvelle unité de mesure. Les principaux fournisseurs de bases de données pour data warehouse sont prêts, notamment avec les solutions de virtualisation du stockage et de Cloud Computing pour l'entreprise.

Loi des grands nombres

1 téra-octet représente tout de même 1.000.000.000.000 octets. À 3.000 octets pour une page A4, cela fait pas moins de 340 millions de pages. Même si le multimédia est bien plus gourmand, cela représente quelques dossiers. Je vous laisse imaginer.

Les datawarehouses de 10 ou 100 téraoctets ne sont d'ailleurs plus l'exception. Les sites Internet de renommée mondiale comme Facebook gèrent des bases de l'ordre du Petaoctet (1015).
Encore faut-il disposer des capacités de traitement pour digérer, stocker, classer, traiter en un temps relativement raisonnable cette avalanche de données.
C'est là qu'intervient le framework "Map-reduce".

Hadoop et Data warehouse de nouvelle génération

Le produit Open Source Hadoop est présenté et expliqué au chapitre suivant : Qu'est-ce que hadoop ?

Ressources


Lecture recommandée

Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Tom White est un expert consultant conférencier Hadoop. Il travaille pour Cloudera Entreprise intégrant les projets Hadoop et référencée ci-dessus.

Hadoop: The Definitive GuideHadoop The Definitive Guide
Tom White
O'Reilly Media   4ème édition révisée 2015
688 pages
Prix : 31 Euros
Dispo chez :
www.amazon.fr & Format Kindle


Big Data et Machine Learning - Les concepts et les outils de la data science
Pirmin Lemberger, Marc Batty,...
Dunod  
272 pages Seconde édition
Prix : 30 Euros, 22 Euros en version Kindle
Dispo chez :
www.amazon.fr
& Format Kindle

Partagez cet article...

Envoyer le lien de cet article par e-mail   
(total partages cumulés > 165)

Commentaires lecteurs...

Pour commenter en tant qu'Anonyme, cliquez sur "Commencez la discussion" Puis sur "Nom", tout en bas apparaît alors une case à cocher : "Je préfère publier en tant qu'invité"

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Google+    Twitter    Facebook

Excel ® est une marque déposée de Microsoft Corp ®
Gimsi ® est une marque déposée de Alain Fernandez



Copyright : Alain FERNANDEZ ©1998-2017 Tous droits réservés Mentions légales
Toutes les marques citées sur cette page sont des marques déposées de leur propriétaire respectif.


Management de l'entreprise
  Suivez-nous :   Google+   twitter+  Facebook  Linkedin    e-mail  
»» Toutes les fiches Piloter.org »»