Le Portail du Manager Innovant

Qu'est-ce que le Big Data ? Définition et principe

23 novembre 2020  Par   Partagez

Une définition personnelle du big data

Le Big Data, la solution miracle à tous nos problèmes ? Sans dénigrer les avantages indéniables de cette révolution technologique, il est prudent de bien maitriser le sujet. Commençons par une définition du Big Data et de l'Analytique, expliquons le principe de fonctionnement et voyons les principales utilisations. Nous poursuivrons avec des références sélectionnées, un dossier complet et une indispensable approche critique afin de mieux se méfier des éditeurs et consultants, vendeurs d'illusions.

Finalité du Big Data : discerner des formes et des cohérences dans le bordel informationnel ambiant. piloter.org

Définition du Big Data

Big Data
Ce terme englobe un ensemble de technologies, de méthodes et pratiques bien spécifiques pour stocker et analyser (rapidement) de très grandes masses de données avant d'en tirer des enseignements. Autrement dit il s'agit de construire des modèles destinés à mieux comprendre des phénomènes et des comportements insaisissables jusqu'alors. Le Big data data bouscule de fond en comble nos manières de faire du "business".

Nous étudierons aussi au cours de ce dossier le métier clé de "data scientist" ainsi que les principes de fonctionnement des principales briques technologiques.

Volume + Vélocité + Variété et Valeur

Pour décrire le principe du big data, il est coutumier de résumer ses caractéristiques majeures en utilisant 3 lettres "V" :

Volume, Vélocité, Variété

Auxquels nous ajouterons un quatrième "V" pour la notion de "Valeur" qui est quand même bien le but de l'opération, et donc de l'investissement.

Big Data les 3V

  • "V" pour Volume

    La quantité de données générée est en pleine expansion et suit une loi quasi exponentielle. Le commerce électronique et les réseaux sociaux sont les grands contributeurs de cette profusion de données.Voir notamment le stockage distribué et traitement parallèle avec le framework Hadoop
  • "V" pour Velocity (rapidité)

    La rapidité de renouvellement des données dans un monde connecté n'est plus à démontrer. Toutes les nouveautés et mises à jour sont stockées en respect de la devise du big data : "On garde tout!".
  • "V" pour Variety (variété)

    Les bases de données spécialisées sont en mesure de gérer la multiplicité des formats des données : numérique, texte, image... Voir les bases de données NoSql
  • Et "V" pour Valeur ?

    Il n'est pas inutile d'y ajouter un quatrième "V" pour "valeur" comme le recommandent les pragmatiques qui sont aussi les mieux avertis (ou déjà échaudés...) de la pratique des technologies de l'information. Autrement dit, il faut bien que tout cela serve à quelque chose "d'utile" et donc d'utilisable et d'utilisé. Les investissements sont nécessairement conséquents. On ne peut se satisfaire de vagues promesses ou de l'exemple cent fois rabâché de l'usage qu'en font les GAFA (Google, Amazon, Facebook, Apple), un exemple impossible à transposer dans une entreprise standard très nettement moins connectée.

Finalement, c'est quoi le Big data ?

En théorie, le big data est le moyen d'étudier de très grande quantité de données afin d'établir des modèles originaux qui nous offriront une vision plus fine de la réalité et nous permettrons de prendre des décisions plus pertinentes. En attendant l'internet des objets (IOT) pour collecter encore plus de données, puisque nous sommes dans une logique où l'on associe quantité à qualité de l'information.

Encore faut-il s'assurer que les données collectées en très grand nombre soient des données de qualité, disposer d'un excellent data scientist pour bâtir les modèles et que les décideurs soient suffisamment avertis pour savoir comment percevoir la réalité au travers de corrélations pour le moins singulières.

Pourquoi le big data ? Parce que :

  • 1) Le coût de la collecte des datas a chuté,
  • 2) Les systèmes connectés sont en progression exponentielle, (avec "système" dans son sens le plus large),
  • 3) L'incertitude exige des analyses plus poussées, plus rapides et plus fréquentes
Mais, parce qu'il y a un "mais" : le nombre de datas erronés s'accroît à la même vitesse. Quel enseignement peut-on espérer tirer d'une modélisation dont un pourcentage significatif de données sont erronées ? Comment construire le « story telling des datas » avec autant d'erreurs invérifiables ? Quelles décisions seront prises par la suite ?

Le véritable enjeu du Big Data repose avant tout sur la qualité des données collectées. ne nous le cachons pas, c'est aussi et surtout une question de coûts.

Analyser les données

Bien évidemment, stocker une telle quantité de données n'a d'autre finalité que de tirer des enseignements pertinents afin d'accroître notre connaissance sur notre environnement professionnel en l'occurrence. Les finalités des analyses big data sont multiples. Que ce soit pour des analyses prospectives afin de mieux comprendre les attentes des clients, la modélisation pour mieux fixer le prix d'une nouvelle gamme de produits selon le segment visé ou encore une simulation du type "que se passerait-il si ?", le champ d'investigation est vaste.

De la qualité des données décisionnelles

Une condition sine qua non : il est impératif disposer de données utilisables si l'on souhaite bâtir des modèles décisionnels pertinents.
On retrouve la problématique du Data Warehouse et du data mining où la qualité des données collectées fait toute la différence. Encore faut-il ne pas omettre dans les budgets de prévoir les opérations de nettoyage et de mise en forme des données. Pour illustrer ce propos, deux articles traitant de ce point essentiel :

Data scientist

Le "bon" Data Scientist sait maitriser les techniques d'analyse pour choisir les plus opportunes afin de tirer les enseignements les plus pertinents. Recherche de corrélation,analyse prospective, modélisation, simulation, data vizualisation, voilà quelques techniques que doit maitriser le spécialiste de l'analyse des données big data, le "data scientist" que l'on pourrait traduire par le scientifique des données. Le métier de data scientist est appelé a se développer.

C'est un métier complexe qui nécessite un bon bagage scientifique, une connaissance évidente des méthodes d'analyses de données, une bonne maîtrise de la technique informatique mise en oeuvre et un goût prononcé des besoins business, qu'il s'agisse de marketing, de management RH ou de production. Le data scientist travaille en effet en étroite collaboration avec les managers "métiers" ou de terrain. Ce sont eux qui font appel à cet expert pour explorer leur champ d'exploration dans leur recherche d'amélioration de la performance.

Aussi, le data scientist ne travaille pas tous azimuts. Il vise une finalité, un résultat qui correspond à un besoin de l'entreprise ou d'un manager métier. Il sélectionne les sources de données puis les données elles-mêmes et lance ses travaux d'analyses à cette fin.

Comment devenir Data Scientist ?

Si les premiers spécialistes de l'exploitation du Big Data s'étaient auto désignés ainsi, les exigences de compétences pour exercer ce métier imposent désormais une formation spécifique.

Compétences du Data scientist

Il s'agit en effet de bien maîtriser:
  • Les mathématiques, les statistiques ainsi que les méthodes algorithmiques d'auto-apprentissage bien spécifiques pour concevoir les modèles d'étude
  • La technologie informatique et la "science" de la programmation pour construire lesdits modèles et exploiter la "jungle" des données multi-formats
  • Connaître les métiers de l'entreprise est aussi un impératif. Le data scientist est au service des besoins de l'entreprise, il les comprend et sait aussi expliquer les résultats obtenus, c'est un formateur.
Plusieurs universités et écoles d'ingénieurs de renom n'ont pas tardé à mettre en place une formation spécialisée pour ce métier d'avenir.

Machine Learning

Un des principal intérêt du Big Data est bien de profiter d'une masse impressionnante de données pour tenter de prédire des comportements telle que les tentatives de fraudes ou de mieux anticiper les risques de défaut de paiement ou de remboursement. ce ne sont là que deux exemples parmi tant d'autres. Ce sont les algorithmes de Machine Learning ou d'apprentissage automatique en français qui vont nous aider à mieux étudier ces risques ou opportunités le cas échéant afin de mieux les anticiper. Encore faut-il utiliser le "bon" algorithme...
...Et de bien décoder les résultats sans se laisser emporter par son enthousiasme à l'interprétation de corrélations aberrantes :

Pour mieux maîtriser le machine learning et choisir le bon algorithme selon le problème à étudier, il existe de bons livres sur le sujet : voir la bibliographie ci-dessous en fin d'article. Les deux premiers livres présentent les principes techniques du machine learning, le troisième, de Dominique Cardon, est une très bonne critique de l'outil, simple courte et bien documentée.

Qu'est qu'un algorithme ? Définition

Algorithme
Selon la presse généraliste, le terme « algorithme » semble désigner aujourd'hui d'énigmatiques systèmes informatiques d'ultime génération, dotés d'une capacité d'apprentissage infinie qui leur conféreraient un pouvoir omniscient quasi magique.

Ces « algorithmes » au fonctionnement ésotérique pour le commun des mortels, véritables entités pensantes, seraient en passe de nous dominer et de nous reléguer, nous autres insignifiantes créatures humaines, à quelque chose d'anachronique dans une cyber société ultra-libérale régnante...
Espérons que tout cela s'achève mieux pour nous que pour les personnages des dystopies !

Cela dit, la crainte d'accorder un pouvoir inconsidéré aux systèmes d'intelligence artificielle toujours plus autonomes, sans régulation ni débat éthique officiel est aujourd'hui pleinement justifiée !

Sinon, pour mémoire, le terme « d'algorithme » désigne à l'origine un enchaînement d'opérations pour exécuter un calcul et par extension une tâche précise, informatisée ou non. L'algorithme d'Euclide pour trouver le plus grand commun diviseur (PGCD) en est l'exemple le plus classique.

Ce paragraphe est extrait du livre "Les tableaux de bord du manager innovant" Édition Eyrolles ©

Technologies du big data

Le coût des technologies a drastiquement chuté. La mise en oeuvre des solutions de stockage et de traitements massivement "parallélisée" pour traiter les "grandes" données est aujourd'hui tout à fait à la portée de bien des entreprises qui souhaitent investir dans une technologie de ce type.

La majorité des logiciels de base sont de surcroît disponibles en open-source. Le "cloud computing" a dynamisé l'essor du Big Data en proposant des systèmes de stockage "à la carte" avec un tuning fin des capacités toujours en phase avec les besoins pour un coût abordable (rien à voir avec le même équipement en mode "propriétaire"). Pour autant, comme c'est d'ailleurs le cas pour tous les projets technologiques, rien n'est gratuit et la démarche Big Data doit s'inscrire dans un schéma plus globale, en conformité avec les objectifs stratégiques de l'entreprise.

Les sources de données

Lorsque l'on aborde le sujet du Big Data on nous ressasse toujours l'exemple des géants de l'Internet qui exploitent avec talent le web, les réseaux sociaux et la géo-localisation. Dans la réalité, la majorité des entreprises se contentent de traiter les données provenant de "sources plus classiques" : ERP et CRM. Ces sources sont riches d'informations, n'en doutons pas.

Mais hormis la minorité d'entreprises qui gèrent un commerce en ligne (B2C, B2B), elles sont encore peu nombreuses à s'ouvrir sur l'extérieur, en achetant des accès à des bases de données externes ou en exploitant l'Open Data par exemple. Bien du chemin reste encore à parcourir, notamment avec une plus large exploitation des objets connectés. Ils seront rapidement indispensables pour optimiser au mieux les solutions de supply-chain.

Ressources web

  • De très nombreuses ressources d'intérêt à propos de la Data : smartdatacollective
  • L'Open data mis en place par le gouvernement français donnant accès aux données publiques : www.data.gouv.fr
  • Il est intéressant de noter que les grandes sociétés et les services publics répondent aux besoins des concepteurs de services, telle la SNCF qui propose un accès à tous les itinéraires et horaires de train en temps réel : data.sncf.com
  • Ou encore le ministère de l'enseignement et de la recherche avec : data.enseignementsup-recherche.gouv.fr
  • Un bon article de sciences et avenir à propos du devenir du "deep learning", concept clé de l'intelligence artificielle et de l'auto-apprentissage, étroitement lié à la conception d'algorithme d'exploitation massive des données Deep learning, sciences et avenir

Pour approfondir le sujet...

  • Définition Hadoop
    Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et Google File System, deux produits Google Corp. Le produit est écrit en langage Java. Le principe repose sur le traitement réparties multi noeuds pour augmenter drastiquement les capacités de calculs et de stockage afin de traiter de très grandes quantités de données.
  • MapReduce, définition
    Qu'est-ce que MapReduce ? Définition de Mapreduce de Google Corp. Mapreduce est un modèle de programmation massivement parallèle adapté au traitement de très grandes quantités de données.
  • Les Bases de données NoSQL, principe
    Que sont les bases de données Non SQL ? Quelles sont les applications où elles s'avèrent plus performantes que les bases de données relationnelles SGBD-R ? Les bases de données relationnelles très largement utilisées par les entreprises ne sont pas les mieux adaptées aux exigences des analyses complexes et rapides. Les besoins de redondance indispensables aux calculs massivement parallèles tout comme la tolérance aux pannes exigent une nouvelle structure de bases de données qui ne soit pas nécessairement fondée sur les principes de SQL d'où le nom générique de bases no-Sql.
  • Les bases de données In-Memory
    Un point à propos des nouvelles solutions de bases de données résidentes en mémoire vive. Bases de données "In Memory"
    Un modèle de données se construit impérativement selon un principe d'essais erreurs, par itération. Il est donc indispensable d'accélérer les traitements pour juger des résultats sans attendre trop longtemps. Les solutions de bases de données en mémoire sont une solution.
  • Le big data et la décision en entreprise
    Faciliter la prise de décision lorsque l'on évolue au sein d'un environnement ultra concurrentiel et donc incertain et changeant, est une gageure. Voyons quels sont les apports du Big Data au processus décisionnel en entreprise, des changements en perspective
  • Questions autour du Big Data Quoi, Pourquoi, Comment ?
    Une manière de "digest" pour les lecteurs pressés, le big data expliqué au manager décideur en 3 questions/réponses : Quoi, Pourquoi et comment ? Bref tout ce qu'il s'agit de savoir afin de mieux comprendre les enjeux du Big Data
  • Le marketing du Big Data, les vendeurs d'illusions
    Attention aux vendeurs d'illusions ! Le marketing et son storytelling sont déjà -en marche- pour colporter les nouvelles chansons de gestes contant les succès fabuleux des solutions d'analytique. Il est prudent de décoder le storytelling marketing... Le Big Data n'est pas la solution magique qui prendra les décisions à votre place. Attention de ne pas réveiller le mythe archaïque de l'homo oeconomicus au risque de cuisants et coûteux échecs.
  • Une critique du Big Data
    Le Big Data est une révolution en soi, aucun doute à ce sujet. Cela dit, en pratique il ne faut pas non plus dire et faire n'importe quoi. Pour utiliser le Big Data dans ses limites et ne pas se laisser entraîner plus que de raison dans la course au découvertes miraculeuses, il est raisonnable de compenser l'enthousiasme des uns d'un regard critique. C'est là l'objet de cet article.
  • Quelles sont les limites du Big Data et de l'Analytique ?
    Le Big Data offre bien des avantages sur le papier. Dans la réalité, le Big Data n'est pas exempt de limites qu'il s'agit de bien connaître avant même d'envisager de s'engager dans une solution technologique de ce type
  • Une critique du Big Data
    Le Big Data est une révolution en soi, aucun doute à ce sujet. Cela dit, en pratique il ne faut pas non plus dire et faire n'importe quoi. Pour utiliser le Big Data dans ses limites et ne pas se laisser entraîner plus que de raison dans la course au découvertes miraculeuses, il est raisonnable de compenser l'enthousiasme des uns d'un regard critique. C'est là l'objet de cet article.
  • Meilleurs livres Big Data
    Les livres de référence Big Data et machine learning, sept ouvrages pour bien comprendre les principes et les enjeux. Les quelques livres consacrés au Big Data présentés ici sont particulièrement destinés aux managers qui souhaitent se forger un solide bagage intellectuel sur la question afin de prendre les décisions d'orientation les plus raisonnables.
  • Formation au Big Data pour Managers
    Un guide d'auto-formation pour les managers décideurs en matière de technologie d'entreprise. Depuis quelques années, le thème du Big Data a envahi les médias spécialisés et grand public. Le sujet est complexe. Ce guide a pour ambition, non pas de développer une formation complète lourde et contraignante, mais bien d'apporter les bases suffisantes pour effectuer des choix d'opportunités technologiques en toute conscience.

À lire...

Un ouvrage clair et précis pour aborder la question du big data et du Machine Learning. Bien qu'il soit sous-titré aux légitimes fins commerciales "Le guide du Data Scientist", ce livre est à mon avis plutôt destiné aux responsables techniques, les DSI par exemple pour ne citer que ceux-ci. Ils l'utiliseront comme un outil d'auto-formation et seront mieux armés pour piloter le projet, ou plus simplement pour envisager son éventualité dans les meilleurs conditions...

Big Data et Machine Learning
Les concepts et les outils de la data science
Pirmin Lemberger, Marc Batty,...
Dunod  
272 pages
Dispo :
www.amazon.fr & Format Kindle


Un deuxième ouvrage pratique pour mieux comprendre et exploiter les ressources du Big Data. Ce thème est nécessairement très technique et s'adresse aux professionnel-les maitrisant un tant soit peu la programmation et impérativement l'outil statistique. Pour les débutants qui souhaitent une vision plus généraliste, il est préférable de se reporter aux ouvrages 4 et 5 de cette liste...

Data science : fondamentaux et études de cas
Machine Learning avec Python et R
Éric Biernat, Michel Lutz
Eyrolles  
272 pages
Dispo :
www.amazon.fr & Format Kindle


Un livre court mais précis pour résister aux mythe et mieux comprendre la réalité et les enjeux du Big Data et du "monde des algorithmes"...

A quoi rêvent les algorithmes : Nos vies à l'heure des big dataÀ quoi rêvent les algorithmes
Nos vies à l'heure des big data
Dominique Cardon
La république des idées
105 pages
Dispo :
www.amazon.fr


Une bonne introduction au Big Data. Les auteurs exposent dans un langage clair toutes les facettes de la problématique et dessinent les perspectives et les mutations qui nous attendent déjà. ce livre est un best-seller de sa catégorie aux États-Unis...

Big Data
La révolution des données est en marche
Kenneth Cukier, Viktor Mayer-Schoenberger
Robert Laffont  
296 pages
Dispo :
www.amazon.fr & Format Kindle


La référence du processus décisionnel en entreprise. Les nouveaux tableaux de bord des managers, le projet Business Intelligence clés en main, l'ouvrage de référence auprès des managers, consultants, chefs de projets décisionnels, formateurs et enseignants...

Nouveaux tableaux de bordLes nouveaux tableaux de bord des managers
Le projet décisionnel en totalité
Alain Fernandez   Eyrolles  6ème édition
495 pages
Dispo :
www.amazon.fr, www.eyrolles.com
& PDF ou ePub   Format Kindle



À découvrir...

Formation Business IntelligenceFormation Business Intelligence
Formation BI. La Business Intelligence (BI) désigne l'ensemble d'outils et de techniques destinés à délivrer les informations pertinentes à chaque manager de l'entreprise pour une prise de décision plus efficace, cet article vous propose un cours en 5 temps et 75 fiches pratiques. 



Le mot du jour

Pollution
L'air de Paris est si mauvais que je le fais toujours bouillir avant de respirer.
Eric Satie


Partagez cet article...

Envoyer le lien de cet article par e-mail   
(total partages cumulés > 65)

           



Tous les articles