[Retour d’expérience] Prédire le rendement et la qualité des blés avec le Big Data

Un retour d’expérience d’Olivier Descroizette, Directeur Services Agro-Environnement, SMAG (groupe InVivo), client de JEMS datafactory.

logo_smag_jemsdatafactory


♦ Quels étaient les besoins initiaux et les objectifs du projet ? 

SMAG, leader des systèmes d’information et du web agricoles et filiale du premier groupe coopératif français InVivo, opère un pivot de son modèle économique en mettant en place une architecture Big Data. L’objectif est ambitieux : mettre en place une stratégie data-driven pour ses clients et développer une gamme de nouveaux services à très haute valeur ajoutée pour le monde agricole, basés sur la valorisation qu’offrent les technologies Big Data.

JEMS datafactory, leader français des solutions Big Data, nous a naturellement accompagné dans le développement et le déploiement de DATA CROP, premier projet d’une telle envergure et répondant à plusieurs objectifs technologiques et fonctionnels :

Développer le premier service français de prédiction de rendement et de qualité du blé

Industrialiser un algorithme de haute complexité de prédiction de rendement et de qualité des cultures à partir de données internes et externes

Proposer une solution avec une répercussion économique forte pour les acteurs de la filière


♦ Pourquoi le choix de JEMS datafactory ?

Le choix s’est rapidement porté sur JEMS datafactory du fait de l’adéquation entre leur offre et nos besoins.

Nous recherchions un acteur capable de nous accompagner de bout-en-bout dans la mise en œuvre d’une plateforme Datalake. Celle-ci constitue désormais le socle de la fouille de données et des traitements algorithmiques pour nos Data Scientists. L’expertise de JEMS datafactory nous a permis de mettre en place une plateforme inédite dans le monde agricole.

Par ailleurs, notre ambition est de devenir le pionnier de la Data Agricole en France et à l’international. Il nous faut anticiper les usages et services de demain, basés sur des données de plus en plus nombreuses et complexes à analyser. Fort d’une solide expertise sur l’hébergement et l’exploitation de plateformes Cloud, nous avons identifié JEMS datafactory comme le partenaire de projet capable de nous hisser vers cet objectif.

En prenant en compte tous ces aspects nous avons sélectionné JEMS datafactory sur la base de leur proposition de valeur. Leur démarche globale structurait notre projet sur une réponse évolutive pour construire un Data Lake répondant immédiatement à nos besoins de services, et prenant en compte les objectifs business majeurs. JEMS datafactory nous a aidé à adresser les sujets primordiaux de supervision, sécurisation et gouvernance de la donnée.


♦ Quels défis stratégiques et technologiques ?

Le secteur agricole opère une mutation d’ampleur depuis plusieurs années : le taux d’équipements technologiques des agriculteurs est en forte hausse, les données générées sont d’une grande variabilité et la quantité de données produites explose.

Les principaux défis technologiques du projet sont d’industrialiser et de mettre en production dans un contexte innovant :

– Récupérer des données volumineuses de sources internes et externes à l’entreprise

– Consolider ces données dans une plateforme unique et les mettre à disposition des utilisateurs finaux et aux datas scientistes

– Calculer un algorithme de prédiction de rendement complexe sur des données volumineuses

– Rendre accessible aux Data Scientists la fouille et la manipulation de données, ainsi que l’élaboration et l’optimisation des algorithmes

– Mettre en place une chaîne d’intégration de données performante, de l’acquisition des données jusqu’à leur exposition



♦ Une solution sur-mesure  ?

Pour répondre à ces défis technologiques, nous avons mis en place une plateforme de Data Manufacturing organisée en plusieurs couches :

– Une couche « data_lake » dans laquelle sont stockées toutes les données brutes en fonction du propriétaire de la source de données

– Une couche « data_products » dans laquelle sont stockés les résultats des algorithmes organisés par produit

– La couche « data_labs » : environnement type « bac à sable » pour permettre des analyses et des tests sur les données et les regroupements de données

– Une couche « data_view » permettant le requêtage et la visualisation des données par les utilisateurs finaux


♦ Quels sont les résultats et perspectives à ce jour  ? 

Le socle du premier Datalake agricole est mis en place pour l’entreprise. Le modèle DATA CROP est en production sur des clients pilotes et réalise une montée en charge et couvre déjà :

– Près de 30 000 exploitations agricoles

– Plus de 160 000 parcelles de blé

– Une surface d’environ 1 million d’hectares (20% de la production française)

Les données satellites sont intégrées et traitées quotidiennement avec des résolutions d’images de 10 mètres. La prévision des rendements est affinée chaque jour sur l’ensemble des parcelles et les résultats sont exportés pour chaque client.

Pour ce modèle pilote, nous traitons à ce jour plus de 320 Go de données / jour avec l’ambition de passer à 1 To / jour d’ici la fin de l’année 2017 par l’intégration de nouveaux clients, et de nouvelles sources de données.

Les perspectives du modèle sont fortes avec de multiples retombées attendues pour la filière :

– Pour les organismes de collecte de céréales, DATA CROP permet d’optimiser les coûts de stockage et de gestion logistique, et d’organiser les plans de moisson

– Pour le trading agricole, il permet d’anticiper les productions et donc la volatilité des prix de vente des céréales françaises sur les marchés mondiaux

– Pour les exploitants agricoles, il optimise les itinéraires culturaux (fertilisation, gestion des traitements phytosanitaires, gestion de la récolte et de sa commercialisation)

L’expansion internationale de SMAG et les opportunités offertes par le réseau du groupe InVivo permettront d’accéder à de nouveaux marchés potentiels : semences, agrofourniture, biocontrôle, logistique des grains, assurances agricoles, trading.


Télécharger le guide du Big Data

Ci-dessous, la vidéo réalisée sur le projet DATA CROP, qui a reçu le prix « Best value-added Reseller »  lors de la cérémonie des Talend Data Masters Awards organisée annuellement par Talend, partenaire de JEMS datafactory.

Partager :
Partager sur Twitter
Partager sur LinkedIn
Partager par email