Qu'est-ce que le big data ?

Par

Le stockage et l'analyse de grandes masses de données

Capter et stocker un maximum de données

image big data Le Big data data bouscule de fond en comble nos manières de faire du "business". Le concept, tel qu'il est défini actuellement, englobe un ensemble de technologies et de pratiques destinées à stocker de très grandes masses de données et à les analyser très rapidement.

Pour décrire le principe du big data, il est coutumier de résumer ses caractéristiques majeures en utilisant 3 lettres "V" : Volume, Velocity, Variety.

Nous étudierons aussi au cours de ce dossier le métier clé de "data scientist" ainsi que les principes de fonctionnement des principales briques technologiques.

Les 3 "V"

  • "V" pour Volume

    La quantité de données générée est en pleine expansion et suit une loi quasi exponentielle. Le commerce électronique et les réseaux sociaux sont les grands contributeurs de cette profusion de données.
  • "V" pour Velocity (rapidité)

    La rapidité de renouvellement des données dans un monde connecté n'est plus à démontrer. Toutes les nouveautés et mises à jour sont stockées en respect de la devise du big data : "On garde tout!".
  • "V" pour Variety (variété)

    Les bases de données spécialisées sont en mesure de gérer la multiplicité des formats des données : numérique, texte, image...
Il n'est pas inutile d'y ajouter un quatrième "V" pour "valeur" comme le recommandent les pragmatiques qui sont aussi les mieux avertis (ou déjà échaudés...) de la pratique des technologies de l'information. Autrement dit, il faut bien que tout cela serve à quelque chose "d'utile"...

Analyser les données

Bien évidemment, stocker une telle quantité de données n'a d'autre finalité que de tirer des enseignements pertinents afin d'accroître notre connaissance sur notre environnement professionnel en l'occurrence. Les finalités des analyses big data sont multiples. Que ce soit pour des analyses prospectives afin de mieux comprendre les attentes des clients, la modélisation pour mieux fixer le prix d'une nouvelle gamme de produits selon le segment visé ou encore une simulation du type "que se passerait-il si ?", le champ d'investigation est vaste.

Data scientist et manager

Encore faut-il bien maitriser les techniques d'analyse et savoir choisir la plus opportune afin de tirer les enseignements les plus pertinents. Recherche de corrélation,analyse prospective, modélisation, simulation, data vizualisation, voilà quelques techniques que doit maitriser le spécialiste de l'analyse des données big data, le "data scientist" que l'on pourrait traduire par le scientifique des données. Le métier de data scientist est appelé a se développer.

C'est un métier complexe qui nécessite un bon bagage scientifique, une connaissance évidente des méthodes d'analyses de données, une bonne maîtrise de la technique informatique mise en oeuvre et un goût prononcé des besoins business, qu'il s'agisse de marketing, de management RH ou de production. Le data scientist travaille en effet en étroite collaboration avec les managers "métiers" ou de terrain. Ce sont eux qui font appel à cet expert pour explorer leur champ d'exploration dans leur recherche d'amélioration de la performance.

Aussi, le data scientist ne travaille pas tous azimuts. Il vise une finalité, un résultat qui correspond à un besoin de l'entreprise ou d'un manager métier. Il sélectionne les sources de données puis les données elles-mêmes et lance ses travaux d'analyses à cette fin.

Selon-vous, les technologies Big Data vont-elles transformer le processus décisionnel classique et pourquoi?

Le décisionnel couvre deux aspects complémentaires mais distincts dans leur approche :
  • 1) L’aide à la décision pour le pilotage d’activité.

    Destinée aux managers-décideurs en charge d’une unité la BI doit leurs apporter toute l’aide nécessaire pour conduire les activités dont ils ont la charge dans la bonne direction et selon les critères de performance attendus. Ils sont demandeurs d'instruments précis, délivrant une information rapide et bien ciblé pour réduire le risque inhérent à toutes prises de décision.
    Outil de prédilection : le tableau de bord.
  • 2) L’ analytique

    Ce domaine est un peu en marge des processus de l’entreprise. C'était le domaine privilégié des statisticiens et des spécialistes du data mining. Ils sont aujourd'hui bousculé par les data scientists ou scientifiques des données, les vrais spécialistes du « big data ».
    C'est un rôle bien plus complexe qui exige une maîtrise non seulement des techniques d'analyse de données, mais aussi de la technologie informatique et des métiers de l'entreprise.
    Ils travaillent en effet avec les managers-décideurs (1), ils étudient des hypothèses de réflexion et bâtissent des modèles pour pousser plus avant la connaissance :clients, produits, processus… (voir ci-dessus, une présentation un peu plus détaillée).
Le Big Data permet de bâtir des modèles bien plus complets qu’auparavant, Il améliore sensiblement la connaissance des thèmes habituellement prospectés et ouvre de nouveaux champs d’étude. Bien utilisé, il peut améliorer la connaissance des décideurs.

Sur le plan technologique, pour répondre aux besoins d'analyse ultra-rapide de très grandes quantités de données dafin de vérifier plus rapidement les hypothèses et de bâtir des modèles plus fiables, les technologies du big data s’imposent sans surprise.

Les technologies à suivre sont maintenant bien connues, tel hadoop et ses successeurs, les bases nosql t bien sûr le in-memory. Tous ces thèmes sont développés dans ce dossier, voir les titres ci dessous où dans le menu rapide, colonne de droite.

Dans la toute dernière version (6ème) des nouveaux tableaux de bord des managers , je pousse cette réflexion bien plus avant, voir la référence ci-dessous.

Cette bonne question, posée il y a déjà quelque temps (le temps file sur ce thème !), est de mon point de vue toujours d'actualité et trouve sa place dans une présentation d'initiation à la thématique.

Technologie du big data

  • Hadoop
    Hadoop est la solution Open Source gérée par Apache software Fundation. C'est aujourd'hui la principale solution de stockage et de traitement réparti.
  • Analyse Hadoop
    Le principe de l'analyse massive expliqué
  • Map-reduce
    Hadoop repose sur la solution Map-reduce de Google Corp.
  • Les bases nosql
    Les besoins de redondance indispensables aux calculs massivement parallèles exigeaient une nouvelle structure de bases de données.
  • Bases de données "In Memory"
    Les solutions de bases de données en mémoire peuvent aussi reposer sur une infrastructure big data.

Le Big Data au service du décisionnel

Le livre de référence de ce site présente pour sa toute dernière édition, la sixième, une démarche d'exploitation spécifique du "Big Data" au service du processus décisionnel de l'entreprise.
Nouveaux tableau de bord Les nouveaux tableaux de bord
des managers

Le projet décisionnel en totalité
Eyrolles
6ème édition 2013
495 pages
Prix librairie :            



Commentaires lecteurs...

Pour faire un lien vers cet article...

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Google+    Twitter    Facebook



Copyright : Alain FERNANDEZ ©1998-2014 Tous droits réservés Mentions légales
Toutes les marques citées sur cette page sont des marques déposées de leur propriétaire respectif.


Business Intelligence

Les 80 fiches de la BI

Business Intelligence
Business Intelligence
Formation BI
Outils de la BI
Le projet BI, le livre
Les Perspectives, BI 2.0 +/-
Perspectives BI
BI état de l'art
BI 2.0
BI 2.0 en pratique
BI Temps réel
La BI de demain
La BI mobile
Projet BI & Stratégie +/-
BI & stratégie
Informatique décisionnelle
BI, projet stratégique
BI Front-end tools +/-
Tableau de bord BI
Tableau de bord avec avec Excel
Outils de Reporting
Reporting financier
Tableaux de bord et KM 
Portail décisionnel
Le data warehouse +/-
Data Warehousing
Data Warehouse
Data Mart
Architecture Data Warehouse
Projet Data Warehouse
Modélisation Data Warehouse
ROI du projet
Causes d'échecs
Big Data +/-
Big Data, le dossier
Hadoop
Hadoop calculs massifs
Map Reduce
Les bases No SQL
BDD In Memory
La qualité des données +/-
Gestion qualité des données
Collectez les données ETL
Gouvernance des données
MDM Master Data Management
Projet MDM
ROI du MDM
Meta données
Réseaux de terrain
BI et ERP (PGI)
Outils d'analyse +/-
Outils d'analyse
Statistiques
Analyse prédictive
Arbre de decision
Data Mining
Text Mining
Data Visualisation
Business Intelligence avec Excel
Excel et la BI pour tous
Analyse Olap +/-
Pourquoi Olap ?
Qu'est-ce que OLAP ?
Modèle de CODD
Nouveau modèle
Conception Olap
ROLAP, MOLAP, HOLAP...
Dérives Olap
Essayez Olap
Les outils décisionnels +/-
Outils decisionnels
IBM
Oracle, Hyperion Solution
Microsoft
SAP Business Objects
SAS institute
Qliktech
Information Builders
Dundas Data Visualization
Corda Technologies
Prophix
Infor
BI Open Source +/-
Le principe de l'Open Source
Projets Open Source
Outils ETL Open Source
outils Reporting Open Source
outils OLAP et Data Warehouse Open Source
outils Data Mining Open Source
synthèse BI Open Source 
Projet décisionnel +/-
Conduire le projet
Le projet decisionnel
Le système de pilotage
Le système decisionnel
Les Ressources de la BI +/-
Livres de la Business Intelligence
Livres du Data Mining
Sites de la Business Intelligence

References du Portail
Glossaire
Sites de reference
Plan du site
Contact
A propos...
Copyright©



Toutes les pages de ce site sont sous copyright Alain Fernandez 1998-2014

IDDN Certification




Management de l'entreprise
Google+    Facebook

 Dossier BI   Méthode projet   Stratégie   Data Warehouse   Big Data   Qualité des données   Analyse   Front-end  BI Open Source 

Envoyer le lien de cet article par e-mail