Qu'est-ce que le big data ?

Par   Partagez : Envoyer le lien de cet article par e-mail   

Le stockage et l'analyse de grandes masses de données

Capter et stocker un maximum de données

image big data Le Big data data bouscule de fond en comble nos manières de faire du "business". Le concept, tel qu'il est défini actuellement, englobe un ensemble de technologies et de pratiques destinées à stocker de très grandes masses de données et à les analyser très rapidement.

Pour décrire le principe du big data, il est coutumier de résumer ses caractéristiques majeures en utilisant 3 lettres "V" :
Volume, Velocity, Variety.

Nous étudierons aussi au cours de ce dossier le métier clé de "data scientist" ainsi que les principes de fonctionnement des principales briques technologiques.

Les 3 "V"

  • "V" pour Volume

    La quantité de données générée est en pleine expansion et suit une loi quasi exponentielle. Le commerce électronique et les réseaux sociaux sont les grands contributeurs de cette profusion de données.
  • "V" pour Velocity (rapidité)

    La rapidité de renouvellement des données dans un monde connecté n'est plus à démontrer. Toutes les nouveautés et mises à jour sont stockées en respect de la devise du big data : "On garde tout!".
  • "V" pour Variety (variété)

    Les bases de données spécialisées sont en mesure de gérer la multiplicité des formats des données : numérique, texte, image...
Il n'est pas inutile d'y ajouter un quatrième "V" pour "valeur" comme le recommandent les pragmatiques qui sont aussi les mieux avertis (ou déjà échaudés...) de la pratique des technologies de l'information. Autrement dit, il faut bien que tout cela serve à quelque chose "d'utile"...

Analyser les données

Bien évidemment, stocker une telle quantité de données n'a d'autre finalité que de tirer des enseignements pertinents afin d'accroître notre connaissance sur notre environnement professionnel en l'occurrence. Les finalités des analyses big data sont multiples. Que ce soit pour des analyses prospectives afin de mieux comprendre les attentes des clients, la modélisation pour mieux fixer le prix d'une nouvelle gamme de produits selon le segment visé ou encore une simulation du type "que se passerait-il si ?", le champ d'investigation est vaste.

Data scientist et manager

Encore faut-il bien maitriser les techniques d'analyse et savoir choisir la plus opportune afin de tirer les enseignements les plus pertinents. Recherche de corrélation,analyse prospective, modélisation, simulation, data vizualisation, voilà quelques techniques que doit maitriser le spécialiste de l'analyse des données big data, le "data scientist" que l'on pourrait traduire par le scientifique des données. Le métier de data scientist est appelé a se développer.

C'est un métier complexe qui nécessite un bon bagage scientifique, une connaissance évidente des méthodes d'analyses de données, une bonne maîtrise de la technique informatique mise en oeuvre et un goût prononcé des besoins business, qu'il s'agisse de marketing, de management RH ou de production. Le data scientist travaille en effet en étroite collaboration avec les managers "métiers" ou de terrain. Ce sont eux qui font appel à cet expert pour explorer leur champ d'exploration dans leur recherche d'amélioration de la performance.

Aussi, le data scientist ne travaille pas tous azimuts. Il vise une finalité, un résultat qui correspond à un besoin de l'entreprise ou d'un manager métier. Il sélectionne les sources de données puis les données elles-mêmes et lance ses travaux d'analyses à cette fin.

Technologies du big data

Le coût des technologies a drastiquement chuté. La mise en oeuvre des solutions de stockage et de traitements massivement "parallélisé" pour traiter les "grandes" données est aujourd'hui tout à fait à la portée de bien des entreprises qui souhaitent investir dans une technologie de ce type. La majorité des logiciels de base sont de surcroît disponibles en open-source. Pour autant, comme c'est d'ailleurs le cas pour tous les projets technologiques, rien n'est gratuit et la démarche Big Data doit s'inscrire dans un schéma plus globale, en conformité avec les objectifs stratégiques de l'entreprise.

Les sources de données

Lorsque l'on aborde le sujet du Big Data on nous ressasse toujours l'exemple des géants de l'Internet qui exploitent avec talent le web, les réseaux sociaux et la géo-localisation. Dans la réalité, la majorité des entreprises se contentent de traiter les données provenant de "sources plus classiques" : ERP et CRM. Ces sources sont riches d'informations, n'en doutons pas.

Mais hormis la minorité d'entreprises qui gèrent un commerce en ligne (B2C, B2B), elles sont encore peu nombreuses à s'ouvrir sur l'extérieur, en achetant des accès à des bases de données externes ou en exploitant l'Open Data par exemple. Bien du chemin reste encore à parcourir, notamment avec une plus large exploitation des objets connectés. Ils seront rapidement indispensables pour optimiser au mieux les solutions de supply-chain.

Ressources web

  • Ce lien pointe vers une liste bien utile de sources (20) de données en accès libre (US) : smartdatacollective
  • L'Open data mis en place par le gouvernement français donnant accès aux données publiques : www.data.gouv.fr

Pour approfondir le sujet...

  • Les technologies mises en oeuvre
    Présentation des principales technologies du Big Data pour mieux comprendre le principe.
  • Hadoop
    Hadoop est la solution Open Source gérée par Apache software Fundation. C'est aujourd'hui la principale solution de stockage et de traitement réparti.
  • Analyse Hadoop
    Hadoop a été essentiellement conçu pour faciliter les analyses dites massives, c'est à dire traitant très rapidement un très grand nombre de données. Ces analyses massives sont quelque part le fondement du Big data. Voyons quel en est le principe.
  • Map-reduce
    Pour la gestion de l'index de son moteur de recherche, Google Corp. a inventé le principe "Map-Reduce". C'est sur cette solution que repose sur Hadoop.
  • Les bases nosql
    Les bases de données relationnelles très largement utilisées par les entreprises ne sont pas les mieux adaptées aux exigences des analyses complexes et rapides. Les besoins de redondance indispensables aux calculs massivement parallèles tout comme la tolérance aux pannes exigent une nouvelle structure de bases de données qui ne soit pas nécessairement fondée sur les principes de SQL d'où le nom générique de bases no-Sql.
  • Bases de données "In Memory"
    Un modèle de données se construit impérativement selon un principe d'essais erreurs, par itération. Il est donc indispensable d'accélérer les traitements pour juger des résultats sans attendre trop longtemps. Les solutions de bases de données en mémoire sont une solution.
  • Le big data et la prise de décision
    Faciliter la prise de décision lorsque l'on évolue au sein d'un environnement ultra concurrentiel et donc incertain et changeant, est une gageure. Voyons quels sont les apports du Big Data au processus décisionnel.
  • Big data et SI
    Voyons aussi comment le Big Data et le culte de l'information réorientent la conception des systèmes d'information.
  • Quoi, Pourquoi, Comment ?
    En manière de "digest" pour les lecteurs pressés : Le Big Data expliqué au manager décideur en 3 questions essentielles : Quoi ? Pourquoi ? Comment ?.
  • Le Big Data et les vendeurs d'illusions
    Bien entendu être un manager avisé c'est aussi savoir développer son esprit critique afin de ne pas se laisser prendre aux pièges marketing des vendeurs et autre promoteurs de solution "clés en mains"
  • Big Data, la nouvelle vache à lait ?
    Il est ainsi hautement recommandé de se souvenir que les promoteurs les plus actifs sont avant tout des vendeurs, ils ont pour finalité bien naturelle l'amélioration durable de leur chiffre d'affaires...
  • Les limites du Big Data
    Pour bien en comprendre l'intérêt de cette technologie, il est prudent de soulever le capot pour en évaluer les limites. C'est en tout cas une indispensable recommandation pour tous les décideurs en choix technologiques.
  • Livres Big Data
    Une courte sélection de livres (six) destinés aux managers souhaitant se forger une bonne connaissance sur ce thème.
  • Voir aussi la Formation pour managers
    Formation en 12 fiches pratiques, pour disposer des bases élémentaires nécessaires pour prendre en toute conscience les décisions d'opportunités technologiques, le cas échéant.

À lire

1. La référence du processus décisionnel en entreprise. Les nouveaux tableaux de bord des managers, le projet Business Intelligence clés en main, l'ouvrage de référence auprès des managers, consultants, chefs de projets décisionnels, formateurs et enseignants.

Nouveaux tableaux de bordLes nouveaux tableaux de bord des managers
Le projet décisionnel en totalité
Alain Fernandez   Eyrolles  6ème édition
495 pages
Prix : 35 euros
Dispo chez :
www.amazon.fr
& PDF ou ePub   Format Kindle

2. Un ouvrage clair et précis pour aborder la question du big data et du Machine Learning. Bien qu'il soit sous-titré aux légitimes fins commerciales "Le guide du Data Scientist", ce livre est à mon avis plutôt destiné aux responsables techniques, les DSI par exemple pour ne citer que ceux-ci. Ils l'utiliseront comme un outil d'auto-formation et seront mieux armés pour piloter le projet, ou plus simplement pour envisager son éventualité dans les meilleurs conditions.

Big Data et Machine Learning - Manuel du data scientist
Pirmin Lemberger, Marc Batty,...
Dunod  
240 pages
Prix : 30 Euros
Dispo chez :
www.amazon.fr
& Format Kindle

3. Ce livre aurait aussi pu porter le titre "le Big Data expliqué au manager", car c'est bien de cela qu'il s'agit. L'auteur s'efforce d'évaluer le "Pour" et le "Contre" pour démythifier les discours trop enthousiastes et trop commerciaux, puis explique sans détailler excessivement les concepts.

Stratégie Big Data
Thomas Davenport
Pearson  
264 pages
Prix : 28 Euros
Dispo chez :
www.amazon.fr

4. Un livre court mais précis pour résister aux mythe et mieux comprendre la réalité et les enjeux du Big Data et du "monde des algorithmes"...

A quoi rêvent les algorithmes : Nos vies à l'heure des big dataÀ quoi rêvent les algorithmes
Nos vies à l'heure des big data


de Dominique Cardon
La république des idées
105 pages 10 Euros
Voir ici une critique plus complète : Bigdata, algorithme, données... et nous alors ?

Dispo chez :
www.amazon.fr

5. Une bonne introduction au Big Data. Les auteurs exposent dans un langage clair toutes les facettes de la problématique et dessinent les perspectives et les mutations qui nous attendent déjà. ce livre est un best-seller de sa catégorie aux Etats-Unis.

Big Data : La révolution des données est en marche
Kenneth Cukier, Viktor Mayer-Schoenberger
Robert Laffont  
296 pages
Prix : 21 Euros
Dispo chez :
www.amazon.fr
& Format Kindle



Partagez cet article...

Envoyer le lien de cet article par e-mail   
(total partages cumulés > 125)

Commentaires lecteurs...

Pour commenter en tant qu'Anonyme, cliquez sur "Commencez la discussion" Puis sur "Nom", tout en bas apparaît alors une case à cocher : "Je préfère publier en tant qu'invité"

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Google+    Twitter    Facebook



Copyright : Alain FERNANDEZ ©1998-2016 Tous droits réservés Mentions légales
Toutes les marques citées sur cette page sont des marques déposées de leur propriétaire respectif.


Management de l'entreprise
»» Toutes les fiches Piloter.org »»
  Suivez-nous :   Google+   twitter+  Facebook  Linkedin    e-mail