Les 3 avantages de privilégier un ELT à un ETL pour vos projets de Big Data

Avec le Big Data, les entreprises ont trouvé une façon plus efficace d’analyser leurs données avec comme objectif d’être toujours plus performants. Le Big Data est avant tout un nouvel environnement technologique pour les datascientists et les développeurs avec de nouvelles bonnes pratiques à écrire. Chez JEMS datafactory, nous pensons qu’avec cette rupture technologique, il ne faut surtout pas effacer tout ce que nous avons pu mettre en place en BI, comme nous ne devons pas non plus reproduire les mêmes bonnes pratiques que celles mises en place en BI : le big data doit être l’occasion de rechallenger tous ces choix et ces bonnes pratiques.

Une des bonnes pratiques par exemple que nous pouvons challenger est l’utilisation ou non d’un ETL ou d’un ELT ?

Big Data ELT/ETL

Du Big Data sans outil ?

Développer dans un environnement big data sans outil signifie en fait écrire des scripts comme on pouvait le faire à l’origine de la BI en développant des procédures stockées. L’écosystème hadoop contenant en plus des langages très différents (Hive, PIG,  Spark, scala, Python, etc.), la procédure sans outil revient à multiplier encore plus tous ces traitements et tous ces développements manuels.

Les entreprises qui font ce choix vont à un moment ou un autre de la vie de leur projet rencontrer un problème de maintenance. Par expérience, il existe de gros risques de régression qui peuvent être engendrées en cas de modification car rien n’est centralisé. La chaîne d’intégration de la donnée n’est pas maîtrisée.

SI l’on souhaite passer son projet en production, le développement de script n’est pas adapté car il met en risque l’intégrité des données à moyen terme.

L’ETL, indispensable en BI

Le processus ETL (Extract – Transform (traitement) – Loading) accède à de multiples sources de données dont le but est leur intégration dans une base cible. Le process est simple :

  • un connecteur extrait les données d’une source de données,
  • les données sont nettoyées, traitées, agrégées par le moteur de l’ETL
  • le résultat est enfin rechargé dans l’espace de stockage cible

Les avantages en BI sont certains :

  • Centraliser tous les traitements et les métadonnées (descriptifs des sources et des cibles, connections aux bases de données…)
  • Faciliter les études d’impact (les ETL sont en effet dotés d’un module qui permet de savoir où se situe une source ou une donnée dans tous les traitements que vous allez effectuer. Cela est très utile par exemple dans le cas où une source change : on est alors capable de connaître tous les traitements qui sont impactés très contrairement au scripting.
  • Faciliter la maintenance et le transfert de connaissance (au lieu des fichiers texte avec de nombreuses lignes de code, l’ETL propose des outils plus graphiques et plus simples).

En Big Data, comme tous les ETL du marché possèdent leur connecteur Big Data, on pourrait penser que l’utilisation d’un ETL serait pertinent… Cependant, cela n’est pas forcément le cas.

Les 3 avantages à privilégier un ELT à un ETL pour vos projets de Big Data

Un ELT extrait les données de la source, les charge dans la cible et seulement ensuite effectue la transformation des données (en utilisant le moteur de transformation de la cible : SGBDR dans un projet BI, cluster Hadoop dans un projet Big Data).

Si la finalité entre les procédés ETL et ELT reste la même, la manière d’arriver au résultat diffère.

Chez JEMS datafactory, nous souhaitons mettre en avant l’ELT car nous sommes persuadés que d’une manière générale, il faut amener le calcul à la donnée et non la donnée au calcul. Pour nous, cela peut faire la différence entre un projet de Big Data raté et un succès.

Voici les trois raisons principales :

1.    L’ELT est plus performant pour traiter de gros volumes de données

L’ELT, contrairement à L’ETL utilise la puissance du cluster pour transformer les données. Etant donné qu’une des caractéristiques d’un cluster est la puissance de calcul, la performance du traitement est donc assurée. .

2.    Un gain de temps et de technologie

Dans un environnement Big Data qui est mouvant, il est très compliqué et coûteux de faire bénéficier les anciens développements des nouveautés technologiques :

  • comment migrer par exemple tous mes développements MapReduce en Spark qui est plus performant ?
  • Si tout a été développé sous forme de script, la seule façon de migrer est de re développer les anciens scripts dans le nouveau langage.

En choisissant un ELT qui s’adapte aux nouvelles technologies matures du marché et dont la roadmap prévoit un rythme de release qui correspond à l’évolution de l’écosystème Big Data, s’adapter aux nouvelles technologies devient plus facile, moins coûteux et plus sûr.

Pour Cyrille Coqueret de JEMS datafactory, sur un des projets du groupe, l’ELT a permis de passer aisément d’une première version qui générait du MapReduce (langage de traitement hadoop) à une seconde, un an plus tard avec le nouveau langage, Spark beaucoup plus performant.

« Grâce à l’ELT qui s’est adapté, en seulement quelques clics, on a pu migrer tous nos traitements de MapReduce vers Spark. On a ainsi gagné un temps de développement considérable ! Si on avait utilisé du scripting, on aurait été obligé de tout re développer à la main. »

  • L’ELT permet ainsi un gain de temps de développement et de migration.

3.    Un cout réduit d’infrastructure

Avec l’ELT, tous les développements sont centralisés sur le serveur ELT. Mais celui-ci aura au final besoin de moins de capacité de calcul qu’un serveur ETL car les calculs les plus coûteux sont faits directement dans le cluster Hadoop.

Le marché ETL/ELT actuel

A l’heure actuelle, l’outil qui s’adapte le mieux au Big Data est Talend : il est le seul pour le moment qui permet d’industrialiser une chaîne d’intégration de données dans un environnement Big Data de la collecte des données à l’exposition des données aux différentes applications :

  • En faisant bénéficier les traitements de la performance du cluster,
  • Et en ayant un rythme de versions en phase avec le marché du Big Data.

C’est pourquoi nous avons choisi de travailler ensemble

Pour résumer :

ETL/ELT en Big Data

En dehors de ces avantages évoqués ensemble, si nous allons plus loin, il s’agit d’une logique de réutilisation, d’utilisation de ses propres systèmes et de répartition des charges qui tend à se développer de plus en plus dans les systèmes informatiques d’aujourd’hui.  L’approche en elle-même est donc intéressante et pourra garantir le succès de votre projet Big Data.

Utiliser le bon outil au bon endroit, en fonction des besoins et des données que vous traitez, c’est notre credo. Il n’y a pas de règle, cela dépend du projet que vous mettez en place.

Il est possible de coupler les deux approches pour tirer parti des deux avantages. Par exemple d’une manière globale, si vous avez de petits fichiers à traiter tels que des relevés de capteurs par exemple, il est plus performant de commencer le traitement par un ETL, puis lorsque les fichiers sont plus volumineux, privilégier l’ELT.

 

 

Partager :
Partager sur Twitter
Partager sur LinkedIn
Partager par email

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *