Qualité des données et Big data ?

Il est aujourd’hui reconnu que l’exploitation des données par les technologies Big Data offre aux entreprises de nouvelles perspectives. Elle constitue un sujet bien connu des entreprises et traité jusqu’à présent avec les technologies de Business Intelligence, des démarches et des modèles de gouvernance appropriées. Cependant la qualité de données est une problématique qui persiste. Ce sujet avait trouvé réponse très en amont de la chaîne d’exploitation dans le retraitement des interfaces de saisie des données. Aujourd’hui, l’afflux de données et l’immaturité autour des nouvelles technologies Big Data nous amène trop souvent à ignorer dans les traitements, les données jugées incomplètes ou erronées. Mais ces données “non-pertinentes” à première vue le sont-elles vraiment ? Ne sont-elles pas tout autant porteuses de valeur qui se retrouve inexploitée du fait de leur manque de fiabilité?

Données imprécises : les identifier pour mieux les exploiter

L’explosion des technologies autour des Big Data en entreprise nous offre la possibilité de faire face à la multiplication des sources d’informations, tels les réseaux sociaux, systèmes de géo-localisation, données personnelles, web logs… afin d’accroitre le niveau de connaissance de l’entreprise sur, par exemple,  les comportements clients ou l’usage de leur produits.

Cependant, malgré l’engouement pour le Big Data et selon une étude menée dans 5 pays européens, 70% des entreprises interrogées estiment que leurs données comportent des erreurs et 46% considèrent ce manque de qualité comme un frein à leurs activités. Les « Datarati », entreprises matures dans les technologies Big Data, sont elles-mêmes 62% à identifier des données imprécises dans leurs résultats de recherche et 45% ne disposent d’aucun procédé pour s’assurer de la qualité de leurs datas.

Pour les entreprises sondées, ces « Bad data » ont un impact négatif et peuvent être un véritable frein pour le développement de leurs activités. Avec la sécurité, la qualité de leurs données est l’une de leurs principales préoccupations. Les bad data doivent être également transformées pour les amener au même niveau de qualité que les autres données. Mais pour cela, encore faut-il être capable de les récupérer, de les nettoyer et de les structurer.

——————————————————–

Les Smart data : la véracité des données interrogée

Il apparaît qu’une entreprise sur 4 possède une solution avancée de gestion des données, et que la majorité d’entre elles (61%) applique encore une approche en silo dans la gestion de ses données.

Selon nous, cet état de fait provient d’une double lacune :

  • en moyen de traitement de masse,
  • en transversalité des processus de traitement des données.

 

Pour beaucoup d’entreprises, il faut se débarrasser des données « inexploitables » (données manquantes, adresses non mises à jour, produit acheté inconnu du catalogue, fausse adresse email ou erreur dans la saisie d’un formulaire…). Mais ces données déstructurées peuvent elles aussi constituer des sources d’informations utiles à votre entreprise.

Faire parler les « mauvaises données »

Pour Jems, il n’est pas question de « mauvaises données » : il ne s’agit pas tant de « qualité » des données que d’exploiter ces Bad data qui recèlent elles-mêmes des informations exploitables. « Nous n’allons pas revenir à un contrôle fin de la donnée [comme pratiqué dans une démarche en Business Intelligence]» indique Vianney Leclercq, expert intégration de données chez Jems.

La solution consiste à fiabiliser ces mauvaises données en supprimant les doublons, en redressant celles qui sont mal formées ou incomplètes pour les amener au même niveau de qualité que les autres. Mêlées aux autres données, elles formeront alors l’ensemble sur lequel pourront s’appliquer les requêtes métier de leurs utilisateurs.

Il est alors utile de pouvoir qualifier le niveau de qualité des données dans un flux alimentant la data platform d’une entreprise pour séparer les bad data des autres, leur appliquer les traitements de fiabilisation ad’hoc et les intégrer dans la plateforme avec les autres afin de disposer d’une source d’information plus importante à analyser.

Les données de référence de l’entreprise sont les premières auxquelles appliquer ces principes de fiabilisation. En effet, transverses par essence, elles se retrouvent dans tous les modèles et ensemble de données de l’entreprise. Pour assurer un pilotage performant de la donnée, la mise en place un système de la gestion des données de référence (MDM – Master Data Management) constitue un préalable au traitement massif des données à l’aide des technologies Big Data.

En conclusion, il ne faut pas nécessairement bannir d’entrée de jeu certaines données (ici les « Bad data ») de la stratégie d’association des flux d’informations. Il faut savoir comment établir un lien avec ces nombreuses sources d’informations et les données de référence du métier concerné.

Partager :
Partager sur Twitter
Partager sur LinkedIn
Partager par email