Comment optimiser vos R&D grâce au Big Data ?

L’explosion du volume de données et la multiplication de leurs sources peuvent constituer aujourd’hui des contraintes qui freinent vos avancées en Recherche et Développement. Collecte, organisation, recoupage d’informations… Ces étapes ne doivent pas ralentir vos chercheurs.

Une bonne utilisation de ces données permet d’identifier plus facilement les incertitudes scientifiques, et de réaliser des économies tout en acquérant de nouvelles connaissances.

Voici un exemple d’optimisation de données en R&D à travers une solution de data lake modélisé pour un de nos clients.

Les problématiques liées aux données

Notre client était confronté à plusieurs problématiques dans leur processus de R&D :

  • Le partage des données: chaque site hébergeant des laboratoires et regroupant plusieurs dizaines de chercheurs, il est difficile d’avoir une vue globale sur l’ensemble des travaux et mesure recueillies, d’analyser et de déceler des corrélations dans les résultats. De même, les chercheurs ne disposaient pas d’un accès à toutes les sources collectées sur un sujet à un instant T. Par exemple : les chercheurs n’étaient pas en mesure de visualiser toutes les combinaisons réalisées en interne entre les différentes matières premières dans tous les centres de recherche.
  • La perte de temps: les data-scientists perdaient énormément de temps à préparer des données issues de tests avant de pouvoir les analyser. Il arrivait même que des tests déjà effectués soient de nouveau réalisés, entraînant une perte de temps considérable !

Pour répondre à ces 2 problématiques, notre client avait pour ambition de créer un data lake pour sa R&D. Ainsi, toutes les données seraient mises en commun et consultables par tous les utilisateurs. Avant de se lancer dans la mise en œuvre, nous avons dû définir conjointement les objectifs de ce Data Lake :

  • gérer de très gros volumes de données
  • croiser ces informations (pour obtenir une vue sur tous les tests entre chaque étape et permettre d’anticiper les échecs par exemple).
  • Casser les silos de données afin de ne pas se restreindre aux seules données d’une phase du process de R&D, mais croiser les données de plusieurs phases
  • Favoriser l’agilité des données: pouvoir en ajouter rapidement, et disposer d’une application utilisateur.

La solution : un data lake pour mutualiser les données existantes

Établir des corrélations entre les informations était l’enjeu majeur afin de permettre la détection de tests déjà existants, d’éviter les doublons en filtrant les données et de s’appuyer sur une documentation plus riche afin de mener des recherches toujours plus pointues.

Une modélisation en phase avec l’utilisateur

Pour répondre aux besoins de mutualisation des données de recherche du client, nous avons choisi la solution d’un cluster MapR et l’intégration de données sous Talend.

Aux vues des très nombreuses sources de données internes (compte-rendu, applications, capteurs,…), il était nécessaire d’adopter une approche méthodologique et fonctionnelle pour bien appréhender les usages des utilisateurs.

« Pour valoriser les données, nous avons pensé à un outil proche des habitudes des utilisateurs (en recherche R, MatLab, Spotfire…), puis nous avons implanté un moteur de recherche interne pour pouvoir sélectionner les fichiers nécessaires à un test, les fusionner pour ensuite les valoriser. Les sources clients ont été enrichies sémantiquement avec les métadonnées et les données de référence avant leur intégration dans le data lake. » explique Cyrille Coqueret, Directeur Technique

Construire des datasets intelligents pour gagner du temps

Les données « source » étant principalement des fichiers texte ou des tableaux de mesures non structurés, il était nécessaire de passer par une phase de  structuration pour que les utilisateurs puissent travailler dessus et les interroger ensuite.

Nous avons d’abord opté pour une structure de dataset simple, facile à requêter grâce des indicateurs en colonne. Cependant, la solution n’était pas évolutive en cas d’ajout d’un nouveau capteur et donc d’un nouvel indicateur. C’est pourquoi, nous avons choisi de passer les indicateurs en colonne afin que l’ajout d’un nouvel indicateur n’impacte pas la structure du dataset.

Les bénéfices d’organiser les données en smart data

Le choix de la mise en place d’un datalake permet à notre client d’obtenir la mise à disposition rapide de tout l’historique des données de recherche, d’obtenir une visibilité totale sur l’ensemble des données de recherche, avec la possibilité d’intégrer de nouvelles données au fil du temps. Enfin, il peut dorénavant facilement croiser les données et ainsi casser les silos des données de recherche.

Partager :
Partager sur Twitter
Partager sur LinkedIn
Partager par email