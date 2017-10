Data warehouse, stockage et traitement distribués

Définition Hadoop

H

adoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et Google File System, deux produits Google Corp. Le produit est écrit en langage Java.

Hadoop peut être considéré comme un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données.

Il est tout à fait adapté aux stockages de grande taille et aux analyses de type ad hoc sur de très grandes quantité de données. Le besoin en analyse de grandes masses de données devient toujours plus pressant. Les analyses des données collectées sur le web, les traces laissées par les clients et prospects sont les applications les plus souvent citées.

Hadoop et les analyses massives

Le web n'est pas le seul à générer de grandes masses d'informations.Une gestion de suivi produit moderne, logistique ou traçabilité par exemple, exploitant l'identification généralisée des objets et des parcours de type RFID génère aussi des quantités incommensurables de précieuses données.

Les analyses massives autorisent alors des optimisations bien plus fines. Les suivis de trajet GPS que ce soient pour une maîtrise au plus juste des frais des itinérants ou pour un nouveau modèle économique d'assurance auto seront détaillés, recoupés et consolidés à la ligne près, avec ces nouveaux outils.

Benchmark

12

15

Hadoop et les traitements répartis multi noeuds

Principe détaillé de Hadoop

Pour avoir une meilleure idée de la performance du système et de la révolution à venir : Déjà en Mai 2009, chez Yahoo Corp, utilisateur de Hadoop, 1 téra-octet (10) de données a été trié en 62 secondes (cf blog développeur yahoo, voir plus bas)...Autre exemple : utilisateur de Hadoop, Facebook ingère 15 térabytes de nouvelles données par jour dans leurs 2,5 petabytes (10) data warehouse sous Hadoop.Hadoop, tout comme Map-reduce , est indépendant des machines sur lesquelles il s'exécute.Hadoop fractionne autant le traitement que la répartition des données sur les machines disponibles.Les machines sont similaires et interchangeables. Ainsi, en cas de défaillance, le traitement est immédiatement reporté sur une autre unité du noeud.Il en est de même pour le stockage. Un ensemble de données n'est pas nécessairement stocké sur une machine spécifique.

Hadoop et le traitement parallèle

Le fait de fractionner un ensemble de données sur plusieurs machines permet le traitement en parallèle. Il s'agit d'optimiser au mieux les ressources de stockage et de traitement dans une logique de traitement massif. Pour cela, il faut perdre de vue la notion de machine ou de stockage spécifique et clairement identifié. Hadoop se charge de cet aspect.

Dans le même esprit, voir la virtualisation du stockage et le cloud computing pour l'entreprise . Le programmeur peut alors se consacrer à son algorithme sans se préoccuper des questions de répartition des charges, de défaillance machines et de synchronisation. Hadoop traite les données structurées et non structurées en provenance de sources multiples.

La technologie Hadoop n'est pas à la porté du débutant, loin s'en faut, et les spécialistes sont encore assez rares et donc très courus... Il est alors plus judicieux de profiter des nombreuses solutions en mode Paas, Platform as a Service. Voir notamment les solutions Amazon Web Services comme Amazon Elastic MapReduce et l'infrastructure Hadoop.

Data warehouse de nouvelle génération

Un driver JDBC assure l'interface avec les SGBD existants.Amazon EC2, solution de cloud computing est compatible avec Hadoop.CloudBase, un produit data warehouse Open Source sur Amazon EC2 (dispo sur sourceorge.net) développé par Business.com afin d'analyser les logs du site.Si IBM est plutôt porté sur cette technologie, Microsoft propose lui une solution concurrente (Madison) et affiche haut et fort qu'il n'a pas besoin de Hadoop. A suivre...

Pig latin

Pig latin est un langage d'interrogation, comme SQL et les logiques relationnelles, adapté aux grandes quantités de données. C'est un langage de script et un environnement d'exécution pour exploiter Map Reduce sans être contraint d'entrer dans la complexité de la programmation. Pig est un produit Yahoo actuellement dans l"incubateur" Apache en Open Source. Pour la petite histoire, Pig latin désigne un argot anglais où il s'agit d'inverser les syllabes comme pour le louchébem. C'est un peu ainsi que procède ce nouveau langage vis-à-vis de SQL.» Voir ici Pig Latin

Apache Drill

C'est un projet d'envergure qui n'a d'autre but que de bâtir un environnement d'exécution distribuée pour analyser des quantités impressionnantes de données de l'ordre du petaoctet sur un nombre tout aussi impressionnant de serveurs. Drill supporte un large nombre de bases NOSQL . D'autres part et c'est peut-être là le plus important, les outils standards de la Business Intelligence comme Qlik ou SAS et même Excel peuvent interagir avec Drill en exploitant simplement ODBC ou JDBC. Il fonctionne d'ailleurs sur un simple laptop, de quoi se construire un tableau de bord excel par exemple.» Voir ici Ressources Drill » Voir ici Docs Drill ODBC, JDBC

Solutions complémentaires

Oozie

Oozie est une solution de workflow utilisée pour gérer et coordonner les tâches de traitement de données à destination de Hadoop » github.com/yahoo/oozie

Flume

Flume est une solution de collecte et d'agrégation des données destinées à être stockées et traitées par Apache Hadoop (HDFS Hadoop Distributed File System) » www.cloudera.com

Hbase

Hbase est un système de bases de données distribuées non relationnelles. » hbase.apache.org

Hive

Hive query language est un langage d'interrogation proche de SQL (un peu plus proche en tout cas que Pig latin). Développé par Facebook, il est utilisé pour simplifié les développement Map Reduce.

» https://cwiki.apache.org/confluence/display/Hive/

Ressources

labs.google.com L'excellent dossier pdf des Google Labs MapReduce: Simplified Data Processing on Large Clusters

developer.yahoo.com Tutorial Yahoo sur Hadoop

hadoop.apache.org Le site Hadoop chez Apache

pig.apache.org Le langage Pig latin, manuel de référence

www.cloudera.com Cloudera, version commerciale de Hadoop avec services et support. Un très bon site, de bonnes explications, tutoriels, formations...

sortbenchmark.org Benchmark de tri pour se faire une idée de performance de traitement.

cloudbase.sourceforge.net CloudBase, un data warehouse construit sur une architecture Hadoop en open source dispo sur sourceforge

wikipedia us Une bonne introduction au concept "Big data"

wired.com Un court article sur Wired : Visualizing Big Data: Bar Charts for Words

The economist Une bonne analyse, simple et accessible aux non spécialistes.

IBM Many eyes Visualisez vos propres données un projet IBM labs

A ce sujet, voir aussi

Lecture recommandée › Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Tom White est un expert consultant conférencier Hadoop. Il travaille pour Cloudera Entreprise intégrant les projets Hadoop et référencée ci-dessus. Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Tom White est un expert consultant conférencier Hadoop. Il travaille pour Cloudera Entreprise intégrant les projets Hadoop et référencée ci-dessus. Hadoop The Definitive Guide

Tom White

O'Reilly Media 4ème édition révisée 2015

756 pages

Prix : 32 Euros, 24 Euros au format Kindle

Dispo chez :

www.amazon.fr & Format Kindle Big Data et Machine Learning - Les concepts et les outils de la data science

Pirmin Lemberger, Marc Batty,...

Dunod

272 pages

Prix : 30 Euros, 22 Euros en version Kindle

Dispo chez :

www.amazon.fr

& Format Kindle



