Optimiser le Big Data en temps réel avec Talend et Spark.

Évoquer le Big Data se traduit généralement par l’association d’Hadoop, de MapReduce ou Spark, et des bases de données NoSQL. Une association délicate, qui nécessite de nombreuses compétences pour maîtriser le code de ses composants. Des compétences parfois difficiles à mobiliser pour de nombreuses entreprises. La nécessité d’une plateforme d’intégration des données, chargée de simplifier l’utilisation des outils complexes du Big Data, se fait donc sentir.

Big Data : des outils qui ont fait leurs preuves et des nouveaux entrants

Rappelons-le, un projet de Big Data est d’abord un projet d’intégration de données dans un cluster – un ensemble de serveurs reliés entre eux où sont stockées les données – destiné à composer un ‘datalake’, un lac de données au format HDFS*. Viennent s’ajouter à cette infrastructure des composants destinés à piloter, rechercher, consolider, afficher et à analyser les données, de nombreux produits généralement issus de la communauté Hadoop et de la data-science pour les analytiques. Nous sommes dans un milieu d’ingénierie qui appelle à la programmation et à des compétences, ce qui explique pourquoi le Big Data brut et les analytiques ne sont pas accessibles à tous.

Dans la sphère Apache Hadoop, le cœur original est composé de HDFS pour le stockage des bases de données SQL et NoSQL en cluster, et de MadReduce pour la transformation, le nettoyage et le traitement des données, associé à Yarn le gestionnaire de ressources d’Hadoop. Evidemment, beaucoup d’autres éléments composent Hadoop et gravitent autour de ce noyau… Un nouvel entrant, en particulier, a fait son apparition : Apache Spark, un framework dont l’ambition est de remplacer MapReduce, ce dernier se révélant plutôt lourd. Spark est un compagnon d’Hadoop, qui lui est parfois opposé car il peut également être une solution autonome, largement adopté depuis son apparition. Sa réputation, Spark la doit aux performances de son moteur de traitement des données, présentées comme 100 fois supérieures à MapReduce. Quant à Spark Streaming, cette version plus récente permet de traiter des flux de données en continu, nous dirons alors en temps réel, et d’accélérer les temps d’exécution, là où Spark se limite au traitement de données figées en mode batch. Spark Streaming est plus particulièrement adapté au traitement des données provenant des mobiles ou des capteurs (dont l’Internet des Objets et les objets connectés).

Hadoop se démocratise, mais nécessite des compétences parfois difficiles à acquérir

Après la création du datalake, vient le second niveau d’un projet Big Data, la centralisation de la gestion des ressources, des développements et des versions. La démarche est incontournable, car un projet est avant tout un développement collaboratif. Qui nécessite un socle commun composé d’outils pour l’administration centralisée, la gestion des droits des développeurs sur le projet, le versioning, l’intégration et l’exécution. S’y ajoute l’adoption de démarches agiles et flexibles, et bien évidemment plus rapides, pour le développement : nous parlerons alors de DevOps.

Les projets Big Data, au départ très communautaires, se démocratisent avec l’explosion des attentes autour de la donnée et sa capacité à accompagner la prise de décision. Toutes ces attentes nécessitent de bénéficier d’un accès plus ouvert à des outils qui simplifient la tâche du développeur, de l’intégrateur et au final de l’utilisateur. Si l’architecture Hadoop est retenue par la majorité des solutions de Big Data, elle n’en reste pas moins peu accessible aux développeurs et à leurs entreprises (hors celles qui auront su recruter tôt et fidéliser les talents et les compétences, ou inviter un bon partenaire).

 

Une plateforme pour répondre à la nécessité de simplifier

D’où l’idée d’appliquer aux Big Data une plateforme d’intégration et de traitement des données, et de génération de code natif. Cette plateforme doit être opérationnelle avec Hadoop, Spark, Spark Streaming et les bases de données SQL et NoSQL, à la fois pour accéder aux Big Data, pour optimiser leur performance jusque dans le cloud, et protéger les investissements via une architecture durable. C’est là qu’intervient la brique ‘plateforme d’intégration’, pour se connecter aux bases classiques (SQL) et aux bases NoSQL, dans le cadre d’Hadoop, afin de générer différentes exécutions sur le cluster.

L’utilisation d’une plateforme dédiée et reconnue, comme Talend Big Data Integration, simplifie et automatise l’intégration Big Data via des assistants et des outils graphiques. Spark Streaming vient également compléter la plateforme en lui apportant le modèle temps réel. Le streaming permet de rester connecté tout le temps à la donnée, de l’avaler et la manipuler au fil de l’eau. Intéressant également pour les services web en temps réel, qui fonctionnent sans être branchés en permanence sur les sources de données.

Les 5 avantages du Big Data et de la plateforme Talend

La simplification et l’automatisation de l’intégration des données via la plateforme Talend Big Data apportent 5 avantages tournés vers la rentabilité des projets liés aux données :

·         Rapidité et évolutivité avec Hadoop et Spark

·         Dimension temps réel avec Spark Streaming

·         Tous les utilisateurs peuvent accéder aux Big Data et les nettoyer tout en gouvernant leur utilisation

·         Optimisation de la performance Big Data dans le Cloud

·         Protection des investissements grâce à une architecture durable

Les équipes de développement Big Data, via des assistants et des outils graphiques Talend qui génèrent du code natif, peuvent être immédiatement opérationnelles avec Apache Hadoop, Spark, Spark Streaming et des bases de données NoSQL. Le traitement performant des données en mémoire rapide permet à l’entreprise de transformer, en temps réel, davantage de données en décisions.

Des promesses en termes d’accélération des développements

L’intérêt de disposer d’une brique ‘plateforme d’intégration’ dédiée au Big Data dans le cadre d’Hadoop est de pouvoir se connecter aux bases (dont NoSQL), et de générer graphiquement du code Spark et Spark Streaming sans nécessiter de disposer de connaissances approfondies de ce code. La plateforme Talend Big Data offre par exemple aux développeurs des composants similaires à ceux qui permettent de faire du Spark, et de se concentrer sur leur savoir-faire d’intégration des données. C’est d’autant plus important que Spark est limité à l’ouverture du fichier, et nécessite un apprentissage et affiche une certaine complexité dans sa mise en œuvre et son paramétrage. Des difficultés résolues par la capacité de la plateforme à se connecter au cluster Hadoop. La DSI dispose également de toute la plateforme d’intégration et de développement, avec la capacité, pour les entreprises sensibles au développement d’applications et de services dans une démarche DevOps, de paramétrer les contextes d’exécution afin de cloisonner les développements. De même, la plateforme se révèle importante pour centraliser et versioner l’ensemble des développements. C’est toute la dimension de professionnalisation et d’accélération du développement via une architecture durable, reconnue par l’écosystème du développement applicatif et de l’intégration, qui vient appuyer les projets Big Data des organisations.

*HDFS (Hadoop File System) est un système de fichier, un élément indispensable à une architecture informatique qui a la charge de reconnaître les fichiers, leurs formats et le stockage. C’est ce qui a permis le succès de Hadoop dès le démarrage du Big Data, apportant une infrastructure ‘universelle’ d’indexation de données, structurées ou non (NoSQL), internes ou externes aux organisations.

 

 

 

JEMS datafactory présente sa nouvelle édition du JEMS data connect, mercredi 21 juin de 9h30 à 15h à l’hôtel Park Hyatt Paris Vendôme.

Une journée de conférences 100% Big Data pour connaître les bonnes pratiques et les dernières tendances du secteur.  Vous aurez l’occasion d’échanger avec JEMS datafactory et ses partenaires éditeurs :  MapR, Talend, Vertica, Outscal, Datastax, NetApp.

Pour s’inscrire, remplissez ce formulaire : https://docs.google.com/forms/d/1-PL5BqPnE5WDPOjq3S1OL735WL8-wM7Th8SUFCG0FkY/edit

#JEMSdataconnect

Partager :
Partager sur Twitter
Partager sur LinkedIn
Partager par email

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *