Qu'est-ce que le Big Data ? Définition et principe

Par   Partagez : Envoyer le lien de cet article par e-mail   

Le stockage et l'analyse de grandes masses de données

Finalité du Big Data : discerner des formes et des cohérences dans le bordel informationnel ambiant. piloter.org
Une definition personnelle du big data

Capter et stocker un maximum de données

Le Big data data bouscule de fond en comble nos manières de faire du "business". Le concept, tel qu'il est défini actuellement, englobe un ensemble de technologies et de pratiques destinées à stocker de très grandes masses de données et à les analyser très rapidement.

Pour décrire le principe du big data, il est coutumier de résumer ses caractéristiques majeures en utilisant 3 lettres "V" :
Volume, Velocity, Variety.

Nous étudierons aussi au cours de ce dossier le métier clé de "data scientist" ainsi que les principes de fonctionnement des principales briques technologiques.

Les 3 "V"

  • "V" pour Volume

    La quantité de données générée est en pleine expansion et suit une loi quasi exponentielle. Le commerce électronique et les réseaux sociaux sont les grands contributeurs de cette profusion de données.Voir notamment le stockage distribué et traitement parallèle avec le framework Hadoop
  • "V" pour Velocity (rapidité)

    La rapidité de renouvellement des données dans un monde connecté n'est plus à démontrer. Toutes les nouveautés et mises à jour sont stockées en respect de la devise du big data : "On garde tout!".
  • "V" pour Variety (variété)

    Les bases de données spécialisées sont en mesure de gérer la multiplicité des formats des données : numérique, texte, image... Voir les bases de données NoSql
Big Data les 3V

Et "V" pour Valeur ?

Il n'est pas inutile d'y ajouter un quatrième "V" pour "valeur" comme le recommandent les pragmatiques qui sont aussi les mieux avertis (ou déjà échaudés...) de la pratique des technologies de l'information. Autrement dit, il faut bien que tout cela serve à quelque chose "d'utile" et donc d'utilisable et d'utilisé. Les investissements sont nécessairement conséquents. On ne peut se satisfaire de vagues promesses ou de l'exemple cent fois rabâché de l'usage qu'en font les GAFA (Google, Amazon, Facebook, Apple), un exemple impossible à transposer dans une entreprise standard très nettement moins connectée.

Finalement, c'est quoi le Big data ?

En théorie, le big data est le moyen d’étudier de très grande quantité de données afin d’établir des modèles originaux qui nous offriront une vision plus fine de la réalité et nous permettrons de prendre des décisions plus pertinentes. En attendant l’internet des objets... Voilà une définition que pourrait proposer une fournisseur de système ou un consultant. Encore faut-il collecter un très grand nombre de données de qualité, disposer d’un excellent data scientist pour bâtir les modèles et que les décideurs soient suffisamment avertis pour savoir comment percevoir la réalité au travers de corrélations pour le moins singulières.

Analyser les données

Bien évidemment, stocker une telle quantité de données n'a d'autre finalité que de tirer des enseignements pertinents afin d'accroître notre connaissance sur notre environnement professionnel en l'occurrence. Les finalités des analyses big data sont multiples. Que ce soit pour des analyses prospectives afin de mieux comprendre les attentes des clients, la modélisation pour mieux fixer le prix d'une nouvelle gamme de produits selon le segment visé ou encore une simulation du type "que se passerait-il si ?", le champ d'investigation est vaste.

De la qualité des données décisionnelles

Une condition sine qua non : il est impératif disposer de données utilisables si l'on souhaite bâtir des modèles décisionnels pertinents.

On retrouve la problématique du Data Warehouse et du data mining où la qualité des données collectées fait toute la différence. Encore faut-il ne pas omettre dans les budgets de prévoir les opérations de nettoyage et de mise en forme des données. Pour illustrer ce propos, deux articles traitant de ce point essentiel :

Data scientist

Le "bon" Data Scientist sait maitriser les techniques d'analyse pour choisir les plus opportunes afin de tirer les enseignements les plus pertinents. Recherche de corrélation,analyse prospective, modélisation, simulation, data vizualisation, voilà quelques techniques que doit maitriser le spécialiste de l'analyse des données big data, le "data scientist" que l'on pourrait traduire par le scientifique des données. Le métier de data scientist est appelé a se développer.

C'est un métier complexe qui nécessite un bon bagage scientifique, une connaissance évidente des méthodes d'analyses de données, une bonne maîtrise de la technique informatique mise en oeuvre et un goût prononcé des besoins business, qu'il s'agisse de marketing, de management RH ou de production. Le data scientist travaille en effet en étroite collaboration avec les managers "métiers" ou de terrain. Ce sont eux qui font appel à cet expert pour explorer leur champ d'exploration dans leur recherche d'amélioration de la performance.

Aussi, le data scientist ne travaille pas tous azimuts. Il vise une finalité, un résultat qui correspond à un besoin de l'entreprise ou d'un manager métier. Il sélectionne les sources de données puis les données elles-mêmes et lance ses travaux d'analyses à cette fin.

Comment devenir Data Scientist ?

Si les premiers spécialistes de l'exploitation du Big Data s'étaient auto désignés ainsi, les exigences de compétences pour exercer ce métier imposent désormais une formation spécifique. Compétences du Data scientist

Il s'agit en effet de bien maîtriser:

  • Les mathématiques, les statistiques ainsi que les méthodes algorithmiques d'auto-apprentissage bien spécifiques pour concevoir les modèles d'étude
  • La technologie informatique et la "science" de la programmation pour construire lesdits modèles et exploiter la "jungle" des données multi-formats
  • Connaître les métiers de l'entreprise est aussi un impératif. Le data scientist est au service des besoins de l'entreprise, il les comprend et sait aussi expliquer les résultats obtenus, c'est un formateur.
Plusieurs université et écoles d'ingénieurs de renom n'ont pas tardé à mettre en place une formation spécialisée pour ce métier d'avenir.

Machine Learning

Un des principal intérêt du Big Data est bien de profiter d'une masse impressionnante de données pour tenter de prédire des comportements telle que les tentatives de fraudes ou de mieux anticiper les risques de défaut de paiement ou de remboursement. ce ne sont là que deux exemples parmi tant d'autres. Ce sont les algorithmes de Machine Learning ou d'apprentissage automatique en français qui vont nous aider à mieux étudier ces risques ou opportunités le cas échéant afin de mieux les anticiper. Encore faut-il utiliser le "bon" algorithme... ...Et de bien décoder les résultats sans se laisser emporter par son enthousiasme à l'interprétation de corrélations aberrantes :

Pour mieux maîtriser le machine learning et choisir le bon algorithme selon le problème à étudier, il existe de bons livres sur le sujet : voir la bibliographie ci-dessous en fin d'article. Les deux premiers livres présentent les principes techniques du machine learning, le troisième, de Dominique Cardon, est une très bonne critique de l'outil, simple courte et bien documentée.

Technologies du big data

Le coût des technologies a drastiquement chuté. La mise en oeuvre des solutions de stockage et de traitements massivement "parallélisé" pour traiter les "grandes" données est aujourd'hui tout à fait à la portée de bien des entreprises qui souhaitent investir dans une technologie de ce type.

La majorité des logiciels de base sont de surcroît disponibles en open-source. Le "cloud computing" a dynamisé l'essor du Big Data en proposant des systèmes de stockage "à la carte" avec un tuning fin des capacités toujours en phase avec les besoins pour un coût abordable (rien à voir avec le même équipement en mode "propriétaire"). Pour autant, comme c'est d'ailleurs le cas pour tous les projets technologiques, rien n'est gratuit et la démarche Big Data doit s'inscrire dans un schéma plus globale, en conformité avec les objectifs stratégiques de l'entreprise.

Les sources de données

Lorsque l'on aborde le sujet du Big Data on nous ressasse toujours l'exemple des géants de l'Internet qui exploitent avec talent le web, les réseaux sociaux et la géo-localisation. Dans la réalité, la majorité des entreprises se contentent de traiter les données provenant de "sources plus classiques" : ERP et CRM. Ces sources sont riches d'informations, n'en doutons pas.

Mais hormis la minorité d'entreprises qui gèrent un commerce en ligne (B2C, B2B), elles sont encore peu nombreuses à s'ouvrir sur l'extérieur, en achetant des accès à des bases de données externes ou en exploitant l'Open Data par exemple. Bien du chemin reste encore à parcourir, notamment avec une plus large exploitation des objets connectés. Ils seront rapidement indispensables pour optimiser au mieux les solutions de supply-chain.

Ressources web

  • Ce lien pointe vers une liste bien utile de sources (20) de données en accès libre (US) : smartdatacollective
  • L'Open data mis en place par le gouvernement français donnant accès aux données publiques : www.data.gouv.fr
  • Il est intéressant de noter que les grandes sociétés et les services publics répondent aux besoins des concepteurs de services, telle la SNCF qui propose un accès à tous les itinéraires et horaires de train en temps réel : data.sncf.com
  • Ou encore le ministère de l'enseignement et de la recherche avec : data.enseignementsup-recherche.gouv.fr
  • Un bon article de sciences et avenir à propos du devenir du "deep learning", concept clé de l'intelligence artificielle et de l'auto-apprentissage, étroitement lié à la conception d'algorithme d'exploitation massive des données Deep learning, sciences et avenir

Pour approfondir le sujet...

  • Les technologies mises en oeuvre
    Présentation des principales technologies du Big Data pour mieux comprendre le principe.
  • Hadoop
    Hadoop est la solution Open Source gérée par Apache software Fundation. C'est aujourd'hui la principale solution de stockage et de traitement réparti.Hadoop a été essentiellement conçu pour faciliter les analyses dites massives, c'est à dire traitant très rapidement un très grand nombre de données. Ces analyses massives sont quelque part le fondement du Big data. Voyons quel en est le principe.
  • Map-reduce
    Pour la gestion de l'index de son moteur de recherche, Google Corp. a inventé le principe "Map-Reduce". C'est sur cette solution que repose sur Hadoop.
  • Les bases nosql
    Les bases de données relationnelles très largement utilisées par les entreprises ne sont pas les mieux adaptées aux exigences des analyses complexes et rapides. Les besoins de redondance indispensables aux calculs massivement parallèles tout comme la tolérance aux pannes exigent une nouvelle structure de bases de données qui ne soit pas nécessairement fondée sur les principes de SQL d'où le nom générique de bases no-Sql.
  • Bases de données "In Memory"
    Un modèle de données se construit impérativement selon un principe d'essais erreurs, par itération. Il est donc indispensable d'accélérer les traitements pour juger des résultats sans attendre trop longtemps. Les solutions de bases de données en mémoire sont une solution.
  • Le big data et la prise de décision
    Faciliter la prise de décision lorsque l'on évolue au sein d'un environnement ultra concurrentiel et donc incertain et changeant, est une gageure. Voyons quels sont les apports du Big Data au processus décisionnel.
  • Quoi, Pourquoi, Comment ?
    En manière de "digest" pour les lecteurs pressés : Le Big Data expliqué au manager décideur en 3 questions essentielles : Quoi ? Pourquoi ? Comment ?.
  • Le Big Data et les vendeurs d'illusions
    Bien entendu être un manager avisé c'est aussi savoir développer son esprit critique afin de ne pas se laisser prendre aux pièges marketing des vendeurs et autre promoteurs de solution "clés en mains"
  • Big Data, la nouvelle vache à lait ?
    Il est ainsi hautement recommandé de se souvenir que les promoteurs les plus actifs sont avant tout des vendeurs, ils ont pour finalité bien naturelle l'amélioration durable de leur chiffre d'affaires...
  • Les limites du Big Data
    Pour bien en comprendre l'intérêt de cette technologie, il est prudent de soulever le capot pour en évaluer les limites. C'est en tout cas une indispensable recommandation pour tous les décideurs en choix technologiques.
  • Big data et Système d'Information
    Voyons aussi comment le Big Data et le culte de l'information réorientent la conception des systèmes d'information. Un changement de tropisme, depuis les processus et les métiers au culte de l'information. Quels sont les risques ?
  • Livres Big Data
    Une courte sélection de livres (six) destinés aux managers souhaitant se forger une bonne connaissance sur ce thème.
  • Voir aussi la Formation pour managers
    Formation en 12 fiches pratiques, pour disposer des bases élémentaires nécessaires pour prendre en toute conscience les décisions d'opportunités technologiques, le cas échéant.

À lire

1. Un ouvrage clair et précis pour aborder la question du big data et du Machine Learning. Bien qu'il soit sous-titré aux légitimes fins commerciales "Le guide du Data Scientist", ce livre est à mon avis plutôt destiné aux responsables techniques, les DSI par exemple pour ne citer que ceux-ci. Ils l'utiliseront comme un outil d'auto-formation et seront mieux armés pour piloter le projet, ou plus simplement pour envisager son éventualité dans les meilleurs conditions.

Big Data et Machine Learning - Les concepts et les outils de la data science
Pirmin Lemberger, Marc Batty,...
Dunod  
272 pages
Prix : 30 Euros, 22 Euros en version Kindle
Dispo chez :
www.amazon.fr
& Format Kindle

1. Un deuxième ouvrage pratique pour mieux comprendre et exploiter les ressources du Big Data. Ce thème est nécessairement très technique et s'adresse aux professionnel-les maitrisant un tant soit peu la programmation et impérativement l'outil statistique. Pour les débutants qui souhaitent une vision plus généraliste, il est préférable de se reporter aux ouvrages 4 et 5 de cette liste.

Big Data et Machine Learning - fondamentaux et études de cas: Machine Learning avec Python et R
Michel Lutz
Eyrolles  
272 pages
Prix : 35 Euros, 25 Euros en version Kindle
Dispo chez :
www.amazon.fr
& Format Kindle

3. Un livre court mais précis pour résister aux mythe et mieux comprendre la réalité et les enjeux du Big Data et du "monde des algorithmes"...

A quoi rêvent les algorithmes : Nos vies à l'heure des big dataÀ quoi rêvent les algorithmes
Nos vies à l'heure des big data


de Dominique Cardon
La république des idées
105 pages 10 Euros
Voir ici une critique plus complète : Bigdata, algorithme, données... et nous alors ?

Dispo chez :
www.amazon.fr

4. Ce livre aurait aussi pu porter le titre "le Big Data expliqué au manager", car c'est bien de cela qu'il s'agit. L'auteur s'efforce d'évaluer le "Pour" et le "Contre" pour démythifier les discours trop enthousiastes et trop commerciaux, puis explique sans détailler excessivement les concepts.

Stratégie Big Data
Thomas Davenport
Pearson  
264 pages
Prix : 28 Euros
Dispo chez :
www.amazon.fr

5. Une bonne introduction au Big Data. Les auteurs exposent dans un langage clair toutes les facettes de la problématique et dessinent les perspectives et les mutations qui nous attendent déjà. ce livre est un best-seller de sa catégorie aux Etats-Unis.

Big Data : La révolution des données est en marche
Kenneth Cukier, Viktor Mayer-Schoenberger
Robert Laffont  
296 pages
Prix : 21 Euros
Dispo chez :
www.amazon.fr
& Format Kindle


6. La référence du processus décisionnel en entreprise. Les nouveaux tableaux de bord des managers, le projet Business Intelligence clés en main, l'ouvrage de référence auprès des managers, consultants, chefs de projets décisionnels, formateurs et enseignants.

Nouveaux tableaux de bordLes nouveaux tableaux de bord des managers
Le projet décisionnel en totalité
Alain Fernandez   Eyrolles  6ème édition
495 pages
Prix : 35 euros
Dispo chez :
www.amazon.fr, www.eyrolles.com
& PDF ou ePub   Format Kindle



Partagez cet article...

Envoyer le lien de cet article par e-mail   
(total partages cumulés > 85)

Si vous souhaitez partager votre point de vue sur cet article, utilisez désormais Twitter ou votre réseau social favori.

La reproduction ou la traduction totale ou partielle de ce texte, images et documents est formellement interdite. Voir ici les conditions pour publier un extrait sur votre site ou blog. Ce texte et les images et documents qu'il contient est déposé auprès de l'IDDN

Suivez aussi les news du portail sur Twitter et rejoignez-nous sur Facebook

Google+    Twitter    Facebook

Excel ® est une marque déposée de Microsoft Corp ®
Gimsi ® est une marque déposée de Alain Fernandez



Copyright : Alain FERNANDEZ ©1998-2017 Tous droits réservés Mentions légales
Toutes les marques citées sur cette page sont des marques déposées de leur propriétaire respectif.


»» Tous les articles Piloter.org »»