Hadoop pour les analyses massives

Par

Hadoop et les traitements répartis multi noeuds

Principe détaillé de Hadoop

Hadoop, tout comme Map-reduce, est indépendant des machines sur lesquelles il s'exécute. Hadoop fractionne autant le traitement que la répartition des données sur les machines disponibles. Les machines sont similaires et interchangeables. Ainsi, en cas de défaillance, le traitement est immédiatement reporté sur une autre unité du noeud. Il en est de même pour le stockage. Un ensemble de données n'est pas nécessairement stocké sur une machine spécifique.

Hadoop et le traitement parallèle

Le fait de fractionner un ensemble de données sur plusieurs machines permet le traitement en parallèle. Il s'agit d'optimiser au mieux les ressources de stockage et de traitement dans une logique de traitement massif. Pour cela, il faut perdre de vue la notion de machine ou de stockage spécifique et clairement identifié. Hadoop se charge de cet aspect.

Dans le même esprit, voir la virtualisation du stockage et le cloud computing pour l'entreprise. Le programmeur peut alors se consacrer à son algorithme sans se préoccuper des questions de répartition des charges, de défaillance machines et de synchronisation. Hadoop traite les données structurées et non structurées en provenance de sources multiples.

Data warehouse de nouvelle génération

Un driver JDBC assure l'interface avec les SGBD existants.
Amazon EC2, solution de cloud computing est compatible avec Hadoop.
CloudBase, un produit data warehouse Open Source sur Amazon EC2 (dispo sur sourceorge.net) développé par Business.com afin d'analyser les logs du site.
Si IBM est plutôt porté sur cette technologie, Microsoft propose lui une solution concurrente (Madison) et affiche haut et fort qu'il n'a pas besoin de Hadoop. A suivre...

Pig latin

Pig latin est un langage d'interrogation, comme SQL et les logiques relationnelles, adapté aux grandes quantités de données. Pig est un produit Yahoo actuellement dans l"incubateur" Apache en Open Source. Pour la petite histoire, Pig latin désigne un argot anglais où il s'agit d'inverser les syllabes comme pour le louchebem. C'est un peu ainsi que procède ce nouveau langage vis-à-vis de SQL.

Solution complémentaires

  • Oozie
    Oozie est une solution de workflow utilisée pour gérer et coordonner les tâches de traitement de données à destination de Hadoop yahoo.github.com/oozie
  • Flume
    Flume est une solution de collecte et d'agrégation des données destinées à être stockées et traitées par Apache Hadoop (HDFS Hadoop Distributed File System) www.cloudera.com
  • Hbase
    Hbase est un système de bases de données distribuées non relationnelles. hbase.apache.org
  • Hive
    Hive query language est un langage d'interrogation proche de SQL (un peu plus proche en tout cas que Pig latin) et adapté à Map Reduce wiki.apache.org/hadoop/Hive

Big Data

  • wikipedia us Une bonne introduction au concept "Big data"
  • wired.com Un court article sur Wired : Visualizing Big Data: Bar Charts for Words
  • The economist Une bonne analyse, simple et accessible aux non spécialistes.

Data visualization

Ressources Hadoop

Livre recommandé

Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Tom White est un expert consultant conférencier Hadoop. Il travaille pour Cloudera Entreprise intégrant les projets Hadoop et référencée ci-dessus.

Hadoop: The Definitive Guide Hadoop The Definitive Guide
MapReduce for the Cloud
Tom White
O'Reilly Media 2nde édition
(Langue anglaise)
Octobre 2010 - 624 pages
Prix librairie : 31,89 Euros



Dispo chez : www.amazon.fr

1 2

Commentaires lecteurs...

Nouveau commentaire

Pour aller plus avant ...

Partagez cet article...

Partagez avec Twitter  Partagez sur Facebook  Partagez sur LinkedIn  Partagez sur Viadeo  Partagez sur Del.icio.us  

Envoyer le lien de cet article par e-mail  Recommandez cet article

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Pour établir un lien vers cet article depuis votre site recopiez le lien suivant.
La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog.
Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN



Copyright : Alain FERNANDEZ ©1998-2010 Tous droits réservés Mentions légales
Toutes les marques citées sur cette page sont des marques déposées de leur propriétaire respectif.


  Blog pro      Performance BPM     Tb de bord gestion     Tb de bord Excel      Management de projet     Contrôle de gestion                          ?  

Business Intelligence

Les 78 fiches de la BI

Business Intelligence
1. Business Intelligence
2. Outils de la BI
3. Le projet BI, le livre
Les Perspectives, BI 2.0 +/-
4. Perspectives BI
5. BI état de l'art
6. BI 2.0
7. BI 2.0 en pratique
8. BI Temps réel
9. La BI de demain
10 La BI mobile
Projet BI & Stratégie +/-
11. BI & stratégie
12. Informatique décisionnelle
13. BI, projet stratégique
Le data warehouse +/-
14.Data Warehousing
15. Data Warehouse
16. Data Mart
17. Architecture Data Warehouse
18. Projet Data Warehouse
19. Modélisation Data Warehouse
20. ROI du projet
Big Data
21. Map Reduce
22. Hadoop
23. Hadoop calculs massifs
24.Les bases No SQL
La qualité des données +/-
25. Gestion qualité des données
26. Collectez les données ETL
27. Gouvernance des données
28. MDM Master Data Management
29. Projet MDM
30. ROI du MDM
31. Meta données
32. BI et ERP (PGI)
Outils d'analyse +/-
33. Outils d'analyse
34. Statistiques
35. Analyse prédictive
36. Arbre de decision
37. Data Mining
38. Text Mining
Analyse Olap +/-
39. Pourquoi Olap ?
40. Qu'est-ce que OLAP ?
41. Modèle de CODD
42. Nouveau modèle
43. Conception Olap
44. ROLAP, MOLAP, HOLAP...
45. Essayez Olap
BI Front-end tools +/-
46. Tableau de bord BI
47. Reporting et Requêteur
48. Reporting financier
49. Tableaux de bord et KM 
50. Portail décisionnel
Les outils décisionnels +/-
51. Outils decisionnels
52. IBM
53. Oracle, Hyperion Solution
54. Microsoft
55. SAP Business Objects
56. SAS institute
57. Qliktech
58. Information Builders
59. Dundas Data Visualization
60. Corda Technologies
61. Prophix
62. Infor
BI Open Source +/-
63. Le principe de l'Open Source
64. Projets Open Source
65. Outils ETL Open Source
66. outils Reporting Open Source
67. outils OLAP et Data Warehouse Open Source
68. outils Data Mining Open Source
69. synthèse BI Open Source 
Projet décisionnel +/-
70. Conduire le projet
71. Le projet decisionnel
72. Le système de pilotage
73. Le système decisionnel
Les Ressources de la BI +/-
74. Livres de la Business Intelligence
75. Livres du Data Mining
76. Sites de la Business Intelligence
77. Projet BI en 7 points (ext.)
78. 10 causes d'echec BI (ext.)

References du Portail
Glossaire
Sites de reference
Plan du site 1/2
Plan du site 2/2
Contact
A propos...
Copyright©


Toutes les pages de ce site sont sous copyright Alain Fernandez 1998-2012

IDDN Certification



Piloter la performance
Piloter la performance
Le portail francophone du management de la performance

 Dossier BI   BI 2.0   Stratégie   Data Warehouse   Qualité des données   Outils d'analyse   OLAP   Front-end  Outils BI   BI Open Source   Projet BI