Le métier de data scientist : de nouveaux paradigmes à prendre en compte

4,4 millions d’emplois liés au secteur des Big Data devraient être créés dans le monde d’ici 2015 d’après le cabinet d’études Gartner.

Deux métiers portent le phénomène : les ingénieurs informatique et les data scientists.

Le Syntec Numérique prévoit la création de 2 000 postes de data scientists d’ici à 2018. La demande envers ces métiers est de plus en plus forte, suite à l’expansion de l’implémentation des systèmes de Big Data dans les entreprises.

Mais qu’est-ce qu’un data scientist ? Est-ce que les formations répondent vraiment au besoin des entreprises ou y-a-t-il une rupture ? Comment palier ce déficit de compétence ? Voici nos conseils :

Qu’est-ce qu’un data scientist ?

Le terme même a été créé en 2008 par deux ingénieurs chez Facebook et LinkedIn.

Il se réfère au spécialiste de la science des données. Le data scientist analyse les datas (qui concernent les clients, les prospects, les employés, etc.) que l’entreprise récupère par différents canaux et les restitue sous forme de prospectives, de conseils, d’améliorations du produit, du service, de la formation en interne, de l’efficacité de l’entreprise et de sa performance. Il part généralement d’une problématique et définit les données dont l’entreprise aurait besoin pour la résoudre.

La science des données quant à elle recouvre des réalités différentes en fonction de leurs origines et du mode de production. De nombreuses méthodes utilisées par les data scientists sont « transférables » d’un domaine à l’autre. Toutefois le contexte technologique de mise en œuvre modifie considérablement les choix, sur la façon d’architecturer et de paralléliser les stockages et les calculs, donc les choix de méthodes et d’algorithmes et les compétences requises. Pour devenir un bon data scientist, une formation en Master sera ainsi parfois beaucoup moins importante qu’une expérience en recherche et développement par exemple.

Que recouvre le métier de data scientist ?

  • Un bon data scientist doit avoir une connaissance pointue des outils/langages dédiés à la science des données (R, SPARK, Python, JAVA, HADOOP, Mapreduce, NoSQL etc.).
  • Il sera confronté quotidiennement a des données complexes et volumineuses qu’il devra analyser en adoptant une méthode adaptée.
  • Il devra appréhender les contraintes imposées par les différentes ressources dont il dispose (en termes de choix de méthode ou d’optimisation).
  • Il devra aussi bien disposer de connaissances algorithmiques, de techniques d’apprentissage et de méthodologie.
  • Enfin, un savoir-faire métier dans le secteur d’application des données analysées seront essentielles à la qualité des résultats pour la mise en œuvre des niveaux de méthode et de préparation de la donnée.

Sciences des données : quels sont les nouveaux paradigmes ?

Selon Gwenaël Maillard, Data Scientist chez Jems datafactory, plusieurs nouveaux paradigmes entrent désormais en ligne de compte :

  • Un nombre d’informations de plus en plus important. Pour répondre à cela :
  • Les méthodes statistiques évoluent par l’introduction, entre autres, de phases de sélection de variables.
  • Le développement des mathématiques permet désormais de prendre aussi en compte la variété et la vélocité des données.
  • Les données sont plus volumineuses : les entreprises devront ainsi mettre en balance les coûts induits par les erreurs de prévision et le coût de calcul des serveurs afin de faire le choix le plus pertinent possible.
  • Un décloisonnement des mathématiques et des statistiques.

A ce jour, nous ne pouvons pas soutenir qu’il s’agit d’une révolution. Certaines méthodes anciennes sont toujours pertinentes dans un contexte d’analyse de gros volumes de données. Les algorithmes ont évolué et ont désormais de bonnes propriétés de scalabilité. Les avancées majeures restent liées aux fondamentaux en mathématique, informatique et statistique mais les frontières entres ces disciplines se décloisonnent.

Les défis du data scientist portent davantage sur les questions technologiques que sur la méthodologie.

Voici les grandes familles de compétences demandées pour bien répondre aux besoins du métier de data scientist:

  • data management,
  • développement,
  • algorithmie et BI traditionnelle (exploitation, data visualisation et le domaine de la statistique).

Or, ces compétences ne sont normalement pas portées par les mêmes profils.

Un data scientist devra pouvoir répondre à tout cela et avoir plusieurs casquettes, or on constate que ce genre de profil n’existe pas aujourd’hui. Les formations proposées en école d’ingénieur ne répondent pas encore à ces nouveaux besoins, même si elles y tendent de plus en plus. 

Quelles solutions sont alors envisageables pour palier à cela ?

Quelles sont les solutions préconisées par JEMS datafactory ?

Pour Nicolas Laroche, Jems datafactory « la solution est de créer ses propres cursus et de faire monter en compétence ses collaborateurs afin d’obtenir son équipe de data scientist. »

Un autre problème que Jems datafactory a identifié est que malheureusement en règle générale, les entreprises ne dépassent pas les POC, qui ne donnent pas l’expérience ou les bonnes pratiques voulues. Or, pour avoir des retours d’expérience, il faut concrétiser les projets et aller au-delà des POC.

Pour faire monter en compétence ses collaborateurs, JEMS datafactory a mis en place des partenariats avec des éditeurs. Les collaborateurs sont envoyés auprès d’eux, dans leur professional services, notamment aux Etats-Unis, afin d’intervenir sur des projets où ils sont confrontés à ces problématiques métiers, afin d’importer les bonnes pratiques acquises sur le terrain et ainsi les partager en interne.

Si l’on s’arrache en ce moment les data scientists, il s’agit d’une denrée rare, faute de formations adéquates disponibles pour le moment. Chez Jems datafactory, nous avons pris le parti de devancer l’offre et de créer nous-même en interne nos propres data scientists afin de répondre à nos demandes croissantes.

D’autres métiers liés aux Big Data sont concernés et arrivent sur le marché. On pense notamment aux Data Manager ou Chef de Projet Big Data, aux Chief Data Officer, aux Architectes Big Data, aux Développeurs Big Data ou encore aux Data Visualizer que nous évoquerons dans un autre article.

 

 

**CEP Numérique de juillet 2013

Partager :
Partager sur Twitter
Partager sur LinkedIn
Partager par email