Comment fonctionne Hadoop et son environnement ?

Dans l’univers du Big Data, Hadoop est particulièrement prisé par les spécialistes. Principale infrastructure de traitement massif de données, Hadoop fonctionne en open source.

Toutefois, selon une étude récente du Gartner, cette infrastructure serait en perte de vitesse.
54% des entreprises sondées par le Gartner rapportent n’avoir aucun projet d’investissement qui concernerait Hadoop.

Pour contrebalancer cette étude les différents distributeurs du framework répondent en mettant en avant la progression assez conséquente de leur chiffre d’affaire. A lire dans cet article :

Mais qu’est-ce qu’Hadoop, comment fonctionne-t-il et comment en tirer le meilleur parti ?

Panorama d’Hadoop

Qu’est-ce qu’Hadoop ?

01_Hadoop_full

Hadoop est un framework Apache Open Source en Java conçu pour réaliser des traitements sur des volumes de données massifs, de l’ordre de plusieurs petaoctets. Il met à disposition de ses utilisateurs plusieurs briques essentielles que nous verrons dans la suite de cet article.

Principes de fonctionnement :

L’infrastructure applique le principe de la grille de calcul. Elle répartit l’exécution d’un traitement sur plusieurs nœuds ou grappes de serveurs.

Les quatre principaux éditeurs de distribution Hadoop

Quatre solutions leaders sur le marché se partagent Hadoop : Cloudera, Hortonworks, MapR, Amazon Elastic Map Reduce (EMR).

Cloudera est une plateforme Big Data mature aujourd’hui. Elle est composée de 2 éditions : l’offre express et l’offre entreprise (la version commerciale). Son grand atout reste son interface unifiée de gestion.

Hortonworks est la solution dont vous aurez besoin pour bénéficier d’un support d’entreprise tout en bénéficiant d’une technologie 100% open source.

En tant que cabinet de conseil, JEMS datafactory a pris le parti de travailler avec MapR : son système de fichiers MapR-Fdécuple la vitesse d’écriture et de lecture des données. MapR a aussi l’avantage d’être compatible avec les solutions cloud du marché comme Amazon ou Google, régulièrement ou ponctuellement utilisées par un grand nombre d’entreprises.

Conçue pour répondre aux exigences qualitatives des grandes entreprises en matière de Big Data, la plateforme de MapR est renommée pour éliminer bon nombre de limitations génériques d’Hadoop ainsi que des actions qui ne sont pas nécessaires à la mise en œuvre au quotidien de projets Big Data. Elle possède nativement des fonctions avancées de haute disponibilité, de snapshot et de mirroring qui sont essentielles pour la sauvegarde et la sécurisation des grandes bases de données.

Quelles sont ses utilisations ?

Les réseaux sociaux comme Facebook, Twitter, LinkedIn… sont les premiers à avoir des besoins d’exécution d’informations de gros volumes. Hadoop répond donc à ces besoins.

Les sites e-commerce comme Ebay, l’utilisent (sur leur frontal Web), tout comme les services de cloud computing.

Hadoop permet encore d’autres utilisations telles que l’analyse de log de connexion et de trafic.

L’analyse de données marketing en gros volume est un autre exemple de l’utilisation que vous pouvez faire d’Hadoop.

L’IoT ou l’internet des objets (récupération de données de capteurs par exemple) est aussi un exemple de traitement de gros volumes de données et donc d’utilisation de ces plateformes.

Et la liste n’est pas exhaustive !

Dans environ 40 % des cas, MapR explique que sa distribution est employée comme datalake ou data hub, autrement dit comme emplacement de stockage unique de données que l’entreprise ne conservait auparavant pas. Auprès de 20 % de la base installée, le framework est employé dans l’analyse de logs (web, de sécurité…), applications générant d’importants volumes de données semi-structurées. Enfin, les applications opérationnelles en temps réel concerneraient encore 20 % de la base installée de l’éditeur.

En dehors d’Hadoop, vous aurez le choix d’opter pour d’autres solutions comme par exemple les appliances. Pour en savoir plus sur le sujet, nous vous conseillons de consulter cet article sur le sujet.

Les composants d’Hadoop, une nécessité pour le framework

 

Capture d’écran 2016-01-13 à 14.54.52

L’écosystème Hadoop contient en effet d’autres projets Apache. Voici une liste non exhaustive :

  • Un système de fichiers en cluster conçu pour stocker de très gros volumes de données : HDFS (Hadoop Distributed File System)
  • MapReduce, qui permet de distribuer le traitement des données entre les nœuds
  • Un système de gestion de base de données non relationnelle distribué et écrit en Java : HBase
  • HCatalog
  • Hive et Pig, deux langages conçus pour simplifier le travail des utilisateurs d’Hadoop
  • Oozie, un système de workflow/coordination dont la mission est de gérer les tâches Hadoop
  • ZooKeeper, un service distribué qui permet de coordonner l’ensemble des processus distribués sur le cluster.

 

Nous verrons plus en détails dans un prochain article chacune de ces briques et nous mettrons en exergue ceux que nous considérons comme les plus importants à mettre en place dans votre société.

Hadoop est en gestion open source et de ce fait, en constante évolution, tant sur son cœur (HDFS, MapReduce) que son écosystème. Cela est dû au fait que le framework fonctionne en mode batch.  Des outils alternatifs de streaming sont en train d’émerger et ne manqueront pas de faire de l’ombre à Hadoop (Spark, Kudu, etc). Il est donc nécessaire de rester en éveil et ouvert sur les nouveautés à venir.

Partager :
Partager sur Twitter
Partager sur LinkedIn
Partager par email