MapReduce, définition
MapReduce est un modèle de programmation massivement parallèle adapté au traitement de très grandes quantités de données. Les programmes adoptant ce modèle sont automatiquement parallélisés et exécutés sur des clusters (grappes) d'ordinateurs. MapReduce est un produit Google Corp.
Traitement distribué et analyse massive de grandes quantités de données
Principe de MapReduce
Le système de traitement temps réel assure le partitionnement et le plan d'exécution des programmes tout en gérant les inhérentes pannes informatiques et indisponibilités.
Ainsi, même les programmeurs inexpérimentés en programmation parallèle et distribuée sont à même d'utiliser ces ressources.
Une application typique MapReduce traite plusieurs téra-octets de données et exploite plusieurs milliers de machines. Map Reduce est écrit en C++.
L'index de Google est généré avec MapReduce.
Pourquoi MapReduce ?
Si le web facilite les échanges commerciaux, il est aussi une mine quasi infinie de renseignements à collecter. La quantité de données disponibles aux fins d'études de clientèle, de marché ou de concurrence dépasse très largement les rêves secrets des marketeurs de la précédente décennie. Encore faut-il disposer des outils de traitement et d'analyse adéquats. C'est là qu'entre en scène la solution de traitement parallèle Map Reduce de Google Corp.
Méga stockage
En parallèle de cette multiplication exponentielle des informations disponibles, le prix des supports de stockage n'a cessé de baisser et la capacité d'augmenter. Les bases de données sont technologiquement prêtes à accueillir cette masse de données. Le téra octet et ses multiples sont la nouvelle unité de mesure. Les principaux fournisseurs de bases de données pour le
data warehouse sont prêts, notamment avec les solutions de
virtualisation du stockage et de
Cloud Computing pour l'entreprise.
Loi des grands nombres
1 téra-octet représente tout de même 1.000.000.000.000 octets. À 3.000 octets pour une page A4, cela fait pas moins de 340 millions de pages. Même si le multimédia est bien plus gourmand, cela représente quelques dossiers. Je vous laisse imaginer.
Les datawarehouses de 10 ou 100 téraoctets ne sont d'ailleurs plus l'exception. Les sites Internet de renommée mondiale, comme Facebook, gèrent des bases de l'ordre du Petaoctet (1015).
Encore faut-il disposer des capacités de traitement pour digérer, stocker, classer, traiter en un temps relativement raisonnable cette avalanche de données.
C'est là qu'intervient le framework "MapReduce".
Hadoop et Data warehouse de nouvelle génération
Le produit Open Source Hadoop est présenté et expliqué au chapitre suivant :
Qu'est-ce que hadoop ?
Ressources web
Instaurer la démocratie en entreprise
La transformation démocratique de l'entreprise
Pour en finir avec le mépris, principe délétère du management d'hier et d'aujourd'hui
Alain Fernandez
Editeur : Mimismo
Pages : 360 pages
Prix : 19,90 €
e-book : 9,49 € (promo de lancement valable en octobre)
EAN : 978-2959320422
Dispo :
Autres librairies en ligne...
Présentation détaillée du livre "la transformation démocratique de l'entreprise"
L’auteur
Alain Fernandez est un spécialiste de la mesure de la performance, de l’aide à la décision et de la conception de tableaux de bord de pilotage. Au fil de ces vingt dernières années, il a conduit de nombreux projets de réalisation de système décisionnel en France et à l'International. Il est l'auteur de plusieurs livres publiés aux Éditions Eyrolles consacrés à ce thème, vendus à plusieurs dizaines de milliers d'exemplaires et régulièrement réédités.
À ce sujet, voir aussi
- Qu'est-ce que le Text Mining ?
Définition et outils de Text Mining, un premier exemple historique pour bien comprendre l'importance d'extraire le sens de documents non structurés, suivi d'un second exemple bien plus récent où cette idée d'extraire des résumés synthétiques pour créer des documents d'intérêts en automatique prend tournure sur le web pour au final construire une wikipedia bis entièrement automatiquement.
- Qu'est-ce qu'un arbre de décision ?
Qu'est ce qu'un arbre de decision ? Comment le bâtir, comment l'utiliser, quelles en sont les variantes ? Méthodes et outils d'analyse de la Business Intelligence.
- Analyse prédictive et réseau de neurones, définition
Analyse prédictive et réseau de neurones Méthodes et outils d'analyse de la Business Intelligence.
À lire...
Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Tom White est un expert consultant conférencier Hadoop. Il travaille pour Cloudera Entreprise intégrant les projets Hadoop et référencée ci-dessus...
Hadoop
The Definitive Guide
Tom White
O'Reilly Media
4ème édition 2015
756 pages (anglais)
Dispo :
www.amazon.fr &
Format Kindle
Un ouvrage accessible pour mieux comprendre le principe du big data et du Machine Learning...
Big Data et Machine Learning
Les concepts et les outils de la data science
Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli
Dunod 3ème édition 2019
272 pages
Dispo :
www.amazon.fr
Version abrégée et bon complément de l'ouvrage Spark The Definitive Guide (Bill Chambers, Matei Zaharia) avec des exercices supplémentaires pour bien en appréhender le principe...
Learning Spark
Lightning-Fast Big Data Analysis
Holden Karau, Matei Zaharia ,...
O'Reilly Media;
Seconde édition 2020
300 pages (anglais)
Dispo :
www.amazon.fr & Format Kindle
Piloter l'Entreprise Innovante...
La prise de décision en équipe ne s'improvise pas. Pour parvenir à ce mode de management délégataire, crucial pour les organisations actuelles, privées comme publiques, un indispensable travail de fond prélable est nécessaire. La méthode SOCRIDE centrée sur les questions incontournables de Confiance et de Reconnaissance est ici expliquée, illustrée et détaillée :
Les tableaux de bord du manager innovant
Une démarche en 7 étapes pour faciliter la prise de décision en équipe
Alain Fernandez
Éditeur : Eyrolles
Pages : 320 pages
Consultez la fiche technique »»»
Pour acheter ce livre :
Format ebook : PDF & ePub,
Format Kindle
Voir aussi...
Partagez cet article...
(total partages cumulés > 185)