Data warehouse, stockage et traitement distribués
Définition Hadoop
Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux produits Google Corp. Le produit est écrit en langage Java. Hadoop peut être considéré comme un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données. Il est tout à fait adapté aux stockages de grande taille et aux analyses de type "ad hoc" sur de très grandes quantité de données.
Hadoop et les analyses massives
Le besoin en analyse de grandes masses de données devient toujours plus pressant. Les analyses des données collectées sur le web, les traces laissées par les clients et prospects sont les applications les plus souvent citées. Mais le web n'est pas le seul à générer de grandes masses d'informations. Une gestion de suivi produit moderne, logistique ou tracabilité par exemple, exploitant l'identification généralisée des objets et des parcours de type RFID génère aussi des quantités incommensurables de précieuses données. Les analyses massives autorisent alors des optimisations bien plus fines. Les suivis de trajet GPS que ce soient pour une maîtrise au plus juste des frais des itinérants ou pour un nouveau modèle économique d'assurance auto seront détaillés, recoupés et consolidés à la ligne près, avec ces nouveaux outils.
Principe détaillé de Hadoop
Hadoop, tout comme
Map-reduce, est indépendant des machines sur lesquelles il s'exécute. Hadoop fractionne autant le traitement que la répartition des données sur les machines disponibles. Les machines sont similaires et interchangeables. Ainsi, en cas de défaillance, le traitement est immédiatement reporté sur une autre unité du noeud. Il en est de même pour le stockage. Un ensemble de données n'est pas nécessairement stocké sur une machine spécifique.
D'ailleurs, le fait de fractionner un ensemble de données sur plusieurs machines permet le traitement en parallèle. Il s'agit d'optimiser au mieux les ressources de stockage et de traitement dans une logique de traitement massif. Pour cela, il faut perdre de vue la notion de machine ou de stockage spécifique et clairement identifié. Hadoop se charge de cet aspect. Dans le même esprit, voir la
virtualisation du stockage et le
cloud computing. Le programmeur peut alors se consacrer à son algorithme sans se préoccuper des questions de répartition des charges, de défaillance machines et de synchronisation.
Hadoop traite les données structurées et non structurées en provenance de sources multiples.
Benchmark
Pour avoir une meilleure idée de la performance du système et de la révolution à venir :
En Mai 2009 chez Yahoo Corp, utilisateur de Hadoop, 1 tera octet (10
12 ) de données a été trié en 62 secondes (cf blog développeur yahoo, voir plus bas)...
Autre exemple : utilisateur de Hadoop, Facebook ingère 15 terabytes de nouvelles données par jour dans leurs 2,5 petabytes (10
15) data warehouse sous Hadoop.
Data warehouse de nouvelle génération
Un driver JDBC assure l'interface avec les SGBD existants.
Amazon EC2, solution de
cloud computing est compatible avec Hadoop.
CloudBase, un produit data warehouse Open Source sur Amazon EC2 (dispo sur sourceorge.net) développé par Business.com afin d'analyser les logs du site.
Si IBM est plutôt porté sur cette technologie, Microsoft propose lui une solution concurrente (Madison) et affiche haut et fort qu'il n'a pas besoin de Hadoop. A suivre...
Pig latin
Pig latin est un langage d'interrogation, comme SQL et les logiques relationnelles, adapté aux grandes quantités de données. Pig est un produit Yahoo actuellement dans l"incubateur" Apache en Open Source. Pour la petite histoire, Pig latin désigne un argot anglais où il s'agit d'inverser les syllabes comme pour le louchebem. C'est un peu ainsi que procède ce nouveau langage vis-à-vis de SQL.
Ressources
Sur des thèmes connexes
Lecture recommandée
Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Tom White est un expert consultant conférencier Hadoop. Il travaille pour Cloudera Entreprise intégrant les projets Hadoop et référencée ci-dessus.
 |
Hadoop The Definitive Guide MapReduce for the Cloud
Tom White O'Reilly Media
(Langue anglaise) Juin 2009 -
524 pages Prix librairie : 31,38 Euros
|
|
D
1
2
3
4
5
6
7
Recommandez cet article
Copyright
: Alain FERNANDEZ ©1998-2010 Tous droits réservés Mentions légales
Toutes les marques citées sur cette page sont des marques déposées de leur propriétaire respectif.