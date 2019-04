L 'importance de la qualité des données collectées n'est plus à démontrer. Avec la croissance exponentielle du nombre de données générées, collectées, stockées, analysées et échangées, cette question est toujours plus sensible. S'il est en effet désormais techniquement possible de stocker et de traiter d'incommensurables masses de données, il serait plutôt dommageable de se risquer à prendre des décisions en se fiant à des données erronées. Et pourtant... GIGO Garbage In, Garbage Out dit-on. Autrement dit, si l'on rentre dans le système des données loin d'être nickel il ne faudra pas être surpris du résultat obtenu.

La gestion qualité des données est au coeur du projet BI

La gestion qualité des données est la clé de voûte du projet Business Intelligence et Big Data.

Il s'agit de décider...

Comment estimer la réussite d'un projet Business Intelligence si ce n'est en évaluant l'apport au processus de décision global de l'organisation ? Avez-vous déjà essayer de décider, de vous engager, de prendre des risques en vous fondant exclusivement sur des informations plus que douteuses ? La gestion de la qualité des données est bien le pilier central ou la clé de voûte, pour rester dans les métaphores architecturales, du projet de Business Intelligence.

Toutes les données ne sont pas logées à la même enseigne

Plusieurs statistiques relèvent que bien des données de l'entreprise, aussi essentielles que les références clients ou les données produits, sont truffées d'erreur. La vérification et la mise en conformité des données est une opération longue et particulièrement coûteuse (même si le coût de ces travaux sera toujours inférieur au coÙt de correction des erreurs induites par des données erronées).

Aussi faut-il la réserver aux données essentielles, et admettre un certain pourcentage d'erreurs pour des données moins importantes qui ne perturberont pas les processus de l'entreprise, qu'ils soient de production, administratifs ou décisionnels.

Par exemple, quelques erreurs de comptage des visites d'un site en ligne ne sont pas un drame. Noyées dans la masse des données collectées, elles ne fausseront pas les statistiques. Rien à voir en tout cas avec une erreur au niveau de la prise de commande (référence, localisation stocks, disponibilité, coordonnées clients, tarifs...)

Une erreur de 0,1% sur les 500.000 clics de visiteurs clients de la journée représente : 500 clics erronés. C'est statistiquement insignifiant.

Une erreur de 0,1% sur les 50.000 fiches clients de la société : 50 fiches erronées. Ce peut être particulièrement grave.

Comment définir la qualité des données décisionnelles ?

Accessible Une donnée de qualité doit être présente dans le système d'information et accessible par les processus et utilisateurs qui l’utilisent.

Une donnée de qualité doit être présente dans le système d'information et accessible par les processus et utilisateurs qui l’utilisent. Valide La donnée ne porte pas une valeur aberrante, elle se maintient dans la plage des valeurs acceptables

La donnée ne porte pas une valeur aberrante, elle se maintient dans la plage des valeurs acceptables Consistante Si la donnée est redondante et présente en plusieurs endroits à la fois, elle porte toujours la même valeur à un instant donné

Si la donnée est redondante et présente en plusieurs endroits à la fois, elle porte toujours la même valeur à un instant donné Précision Elle est jugée suffisamment précise pour l’usage que l’on en attend.

Elle est jugée suffisamment précise pour l’usage que l’on en attend. Utile Elle répond parfaitement au besoin et à l’usage que l’on en attend.

La qualité des données peut être simplement définie selon les caractéristiques suivantes :Ce sont les axes à suivre pour accéder à une meilleure qualité des données.

Gestion qualité des données, les ressources

