Qu'est-ce que Hadoop ?

Data warehouse, stockage et traitement distribués

Définition Hadoop

Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux produits Google Corp. Le produit est écrit en langage Java. Hadoop peut être considéré comme un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données. Il est tout à fait adapté aux stockages de grande taille et aux analyses de type "ad hoc" sur de très grandes quantité de données.

Hadoop et les analyses massives

Le besoin en analyse de grandes masses de données devient toujours plus pressant. Les analyses des données collectées sur le web, les traces laissées par les clients et prospects sont les applications les plus souvent citées. Mais le web n'est pas le seul à générer de grandes masses d'informations. Une gestion de suivi produit moderne, logistique ou tracabilité par exemple, exploitant l'identification généralisée des objets et des parcours de type RFID génère aussi des quantités incommensurables de précieuses données. Les analyses massives autorisent alors des optimisations bien plus fines. Les suivis de trajet GPS que ce soient pour une maîtrise au plus juste des frais des itinérants ou pour un nouveau modèle économique d'assurance auto seront détaillés, recoupés et consolidés à la ligne près, avec ces nouveaux outils.

Principe détaillé de Hadoop

Hadoop, tout comme Map-reduce, est indépendant des machines sur lesquelles il s'exécute. Hadoop fractionne autant le traitement que la répartition des données sur les machines disponibles. Les machines sont similaires et interchangeables. Ainsi, en cas de défaillance, le traitement est immédiatement reporté sur une autre unité du noeud. Il en est de même pour le stockage. Un ensemble de données n'est pas nécessairement stocké sur une machine spécifique.
D'ailleurs, le fait de fractionner un ensemble de données sur plusieurs machines permet le traitement en parallèle. Il s'agit d'optimiser au mieux les ressources de stockage et de traitement dans une logique de traitement massif. Pour cela, il faut perdre de vue la notion de machine ou de stockage spécifique et clairement identifié. Hadoop se charge de cet aspect. Dans le même esprit, voir la virtualisation du stockage et le cloud computing. Le programmeur peut alors se consacrer à son algorithme sans se préoccuper des questions de répartition des charges, de défaillance machines et de synchronisation.
Hadoop traite les données structurées et non structurées en provenance de sources multiples.

Benchmark

Pour avoir une meilleure idée de la performance du système et de la révolution à venir : En Mai 2009 chez Yahoo Corp, utilisateur de Hadoop, 1 tera octet (1012 ) de données a été trié en 62 secondes (cf blog développeur yahoo, voir plus bas)...
Autre exemple : utilisateur de Hadoop, Facebook ingère 15 terabytes de nouvelles données par jour dans leurs 2,5 petabytes (1015) data warehouse sous Hadoop.

Data warehouse de nouvelle génération

Un driver JDBC assure l'interface avec les SGBD existants.
Amazon EC2, solution de cloud computing est compatible avec Hadoop.
CloudBase, un produit data warehouse Open Source sur Amazon EC2 (dispo sur sourceorge.net) développé par Business.com afin d'analyser les logs du site.
Si IBM est plutôt porté sur cette technologie, Microsoft propose lui une solution concurrente (Madison) et affiche haut et fort qu'il n'a pas besoin de Hadoop. A suivre...

Pig latin

Pig latin est un langage d'interrogation, comme SQL et les logiques relationnelles, adapté aux grandes quantités de données. Pig est un produit Yahoo actuellement dans l"incubateur" Apache en Open Source. Pour la petite histoire, Pig latin désigne un argot anglais où il s'agit d'inverser les syllabes comme pour le louchebem. C'est un peu ainsi que procède ce nouveau langage vis-à-vis de SQL.

Ressources

Sur des thèmes connexes

Lecture recommandée

Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Tom White est un expert consultant conférencier Hadoop. Il travaille pour Cloudera Entreprise intégrant les projets Hadoop et référencée ci-dessus.

Hadoop: The Definitive Guide Hadoop The Definitive Guide
MapReduce for the Cloud
Tom White
O'Reilly Media
(Langue anglaise)
Juin 2009 - 524 pages
Prix librairie : 31,38 Euros



Dispo chez : www.amazon.fr

D 1 2 3 4 5 6 7



Envoyer le lien de cet article par e-mail  Recommandez cet article

Retwittez cet article   Partagez cet article sur Facebook  
Partagez sur LinkedIn  Partagez cet article sur Viadeo  Partagez  cet article sur Del.icio.us  Partagez cet article sur Yahoo !  Partagez sur BlogMarks  Partagez cet article sur Scoopeo  Bookmark Google  



Copyright : Alain FERNANDEZ ©1998-2010 Tous droits réservés Mentions légales
Toutes les marques citées sur cette page sont des marques déposées de leur propriétaire respectif.


Piloter.org vous a intéressé ?
Envoyez le lien www.piloter.org par e-mail Recommandez ce site
Envoyer le lien de cet article par e-mail  Conseillez cet article
Retwittez cet article   Partagez cet article sur Facebook  Partagez sur LinkedIn  Partagez cet article sur Viadeo  


Performance Management
Nouveaux tableau de bord
Les nouveaux tableaux de bord des managers
Le projet décisionnel en totalité 4ème édition 2008

Consultez la fiche détaillée


Articles les + lus
Les progiciels de la Business Intelligence, système Informatique Décisionnelle
Utiliser Reporting et Requêteur ad hoc
Qu'est-ce que ITIL ? Information Technology Infrastructure Library
La Business Intelligence, le projet Informatique Décisionnelle
Principes, méthodes et outils pour mieux gérer son temps
La méthode Six Sigma en pratique


Gestion de projet
conduite de projet
Le chef de projet efficace
Réussir les projets complexes
Les pratiques de bon sens.
3ème éd 2009

Consultez la fiche détaillée


Gouvernance d'entreprise
Business Intelligence
Business Intelligence
Briques de la BI
Le projet BI, le livre
Les Perspectives
Perspectives BI
BI état de l'art
La BI de demain
BI 2.0
BI 2.0 en pratique
BI Temps réel
Analyse BI
Outils d'analyse
Statistiques
Analyse prédictive
Arbre de decision
Data Mining
Text Mining
Map Reduce
Hadoop
La qualité des données
Collectez les données ETL
Gouvernance des données
MDM Master Data Management
Projet MDM
ROI du MDM
Meta données
BI et ERP (PGI)
Le data warehouse
Data Warehousing
Data Warehouse
Data Mart
Architecture Data Warehouse
Projet Data Warehouse
Modélisation Data Warehouse
ROI du projet
Les briques essentielles
Reporting et Requêteur
Reporting financier
Tableaux de bord et KM 
Portail décisionnel
Décisionnel Open Source 
Analyse Olap
Pourquoi Olap ?, Qu'est-ce que OLAP ?, Modèle de CODD, Nouveau modèle, Conception Olap, ROLAP, MOLAP, HOLAP... , Essayez Olap
Les outils décisionnels
Outils decisionnels
IBM, Oracle, Hyperion Solution, Microsoft, SAP Business Objects, SAS institute, Qliktech, Information Builders, Dundas Data Visualization, Corda Technologies, Prophix, Infor
Projet décisionnel
Conduire le projet , Le projet decisionnel , Le système de pilotage , Le système decisionnel
Les Ressources de la BI
Livres de la BI
Livres du Data Mining
Sites de la BI
Le projet BI en 5 points
10 causes d'echec BI

References du Portail
Glossaire
Sites de reference
Plan du site 1/2
Plan du site 2/2
Contact
A propos...
Copyright©


Toutes les pages de ce site sont sous copyright Alain Fernandez 1998-2010

IDDN Certification



Nouveaux tableaux de bord des managers Alain Fernandez, cliquez pour consulter la fiche
ccccccccccccccccccccc

 Projet BI   Architecture BI   Perspectives BI   BI 2.0   Outils d'analyses   M.D.M   Data Warehouse   Olap   Reporting   BI Open Source