La modélisation des données dans le datalake – Qu’est-ce que la modélisation à la demande ?

Pour vos projets de Big Data, mettre en place un data lake en déposant vos données pour pouvoir en tirer profit n’est pas suffisant. Vous devez également les organiser de manière efficace. Pour cela, plusieurs méthodes existent. La modélisation des données est une étape indispensable dans votre processus de Big Data qui ne peut être efficace que grâce à une réflexion en amont. Il vous faut choisir la méthodologie qui convient le mieux à votre activité, à vos objectifs et à vos besoins.
Pour nous, la modélisation des données à la demande ou modélisation a posteriori reste la meilleure solution à adopter, alors même qu’elle est en rupture avec la BI traditionnelle. Voici quelques explications.

La modélisation des données à la demande, une rupture nécessaire avec la BI traditionnelle

Auparavant, avec la BI traditionnelle, tout était modélisé a priori, tel que l’on souhaitait analyser les données (c’est à dire que les besoins étaient anticipés, et il fallait imaginer ce que cela allait donner). La modélisation permettait donc de piloter les entreprises à partir d’informations choisies.
Or, le Big data ne poursuit pas les mêmes objectifs. Il permet de :

o Manipuler de très gros volumes de données tout en préservant la performance
o Croiser des informations internes et externes à l’entreprise
o Favoriser l’agilité :
• Dans les données : c’est à dire de pouvoir rajouter des informations rapidement dans ces données.
• Dans les analyses : il s’agit ici de pouvoir effectuer les analyses voulues à n’importe quel moment.
Il y a donc bien là une rupture et pour répondre à ces nouveaux besoins : permettre aux utilisateurs de modéliser les données à la demande est la solution innovante que nous vous conseillons d’adopter.

Même si d’autres méthodes existent (comme Merise par exemple ), elles ne permettent pas de répondre aussi efficacement à ces problématiques.

Créer son propre data set grâce à la modélisation à la demande

Hadoop vous donne l’opportunité de concevoir vos propres jeux de données (datasets) pour leur analyse spécifique.

Mais comment se concrétise la modélisation à la demande ?
1- En amont, un cabinet de conseil tel que JEMS Datafactory vous prépare les données afin que vous puissiez les analyser lorsque vous le souhaitez.
2- La seconde étape est la mise à disposition des informations de détail dans les datasets.
3- Puis, les datasets sont enrichis selon notre méthodologie d’enrichissement de données. Le but ici est de simplifier autant que possible le croisement de données (tous les éléments seront ainsi mis à votre disposition pour pouvoir les croiser)
4- Les datasets ainsi construits sont mis à la disposition des utilisateurs
En favorisant une modélisation évolutive (grâce notamment aux fichiers json qui sont autoporteurs de leurs structures) le dataset pourra intégrer plus facilement de nouvelles sources de données pour pouvoir par la suite les mettre à disposition de toutes les personnes concernées.

Enrichir et structurer les datasets

Comment faciliter l’utilisation de la modélisation à la demande ?

Le but de la modélisation à la demande est d’avoir une plus grande agilité dans les analyses. Pour que celle-ci soit abordable par le plus grand nombre, Il faut aussi que vous ayez à disposition un outil accessible, sans avoir besoin de faire des requêtes compliquées, et qui plus est dans un environnement technologique que vous ne connaissez pas forcément.

Pour cela, plusieurs solutions existent et peuvent participer à son installation dans vos systèmes :
o Vous pouvez par exemple indexer les données dans un moteur de recherche pour favoriser l’identification des datasets nécessaires à une analyse, à la manière de Google : au moment de l’extraction, vous allez saisir les données dans une recherche full text.

o Vous avez également la possibilité d’utiliser un outil de préparation de données qui va vous permettre de créer vos propres jeux de données à partir d’une interface très graphique permettant la visualisation d’un échantillon des données que vous serez en train de créer. Cet outil vous permettra ainsi d’enrichir vos données, de faire des jointures ou encore de récupérer uniquement les données dont vous aurez besoin.

o Vous pouvez aussi utiliser un outil de data management permettant de définir avec vos utilisateurs les concepts métier que vous souhaitez manipuler, et ensuite de les rattacher à vos données. Enfin, les utilisateurs pourront générer leur propre dataset grâce à des requêtes écrites en langage « semi naturel »

Si la mise en place d’une solution de Big Data au sein de votre société offre de nombreux avantages, faire le choix d’un système de modélisation des données à la demande est ce qui vous en procurera le plus, même s’il est difficile à mettre en place.
Pour que cela s’effectue dans de bonnes conditions vous devez réfléchir en amont à la bonne méthode à appliquer en fonction des problématiques métiers de votre secteur d’activité et de vos besoins. Nous vous conseillons ainsi d’avoir une approche méthodologique et fonctionnelle plutôt que de partir sur une vision technologique des Big Data.

 

Partager :
Partager sur Twitter
Partager sur LinkedIn
Partager par email