La data science est un sujet qui ne cesse de faire couler de l’encre depuis quelques années. Ce domaine, à la fois complexe et transversal, qui surfe sur les applications les plus révolutionnaires de l’intelligence artificielle a fini par se frayer une place à travers les médias et sur le marché du travail. L’obsession du monde de l’entreprise devient le data-centrisme.

Depuis quelques années, les entreprises ont concentré leurs efforts sur la compréhension des apports des différents cas d’applications possibles. Et c’est normal. Le sujet étant relativement nouveau, les moyens se devaient d’être déployés sur l’expérimentation. D’où la demande élevée en experts en data science. Ce dernier expérimente, émet des intuitions et crée des modèles pour valider ces intuitions. Il doit faire sens de la donnée. Il valide les cas d’applications les plus pertinents. Il prépare et nettoie la donnée pour la rendre exploitable (47% de son temps d’après Gartner), jongle dans l’écosystème pour trouver les meilleurs jeux de données, entraîne ses algorithmes et affine le résultat de ses modèles. C’est une pièce maîtresse de l’échiquier de la donnée sans aucun doute.

Mais cette pièce ne suffit pas. En effet, si on observe la chaîne de valeur de la donnée en entreprise, les experts en data science ont besoin d’un support opérationnel en amont pour l’acquisition, la manipulation, le traitement (mise en place de pipelines) puis le stockage des données exploitables et également en aval pour la mise en production des modèles. Ce support est assuré par un profil qui se révèle être de plus en plus indispensable : le data engineer. Ce dernier, est un expert de l’architecture réseau et data. Il intervient dans la création des bases de données et des différents outils de flux de données qui servent à toutes les autres parties prenantes d’un projet data.

Les entreprises ont tant concentré tous leurs efforts sur la production de nouveaux insights et cas d’applications qu’elles en ont oublié la gestion des processus qui permettent à ces applications d’être produites à grande échelle. « Aujourd’hui les entreprises souhaitent industrialiser les processus qui leur permettront de générer de la valeur à long terme et se concentrent sur l’ère post POC » explique Laurent Wlodarczyk, CTO chez Axionable. Et cela ne peut se faire sans une bonne équipe de data engineers.

Leur recrutement n’est chose aisée : ils/elles se font rares et, elles, encore plus, en effet, le peu de profils féminins rendent d’autant plus fragiles la mixité/parité des équipes techniques » explique Charlène Deloison, DRH chez Axionable pourtant « chaque projet requiert au moins quatre data engineers pour un data scientist » poursuit Laurent.

Une des solutions envisagées est de permettre à de nombreux data scientists de se former à quelques notions de data engineering afin de devenir plus autonome dans la gestion de leurs projets. C’est l’émergence du machine learning engineering. Cela permet de revaloriser les compétences clés à l’aboutissement d’un projet de data science tout en palliant le problème du recrutement de nouveaux profils techniques en entreprise.

Harvard Business Review titrait en 2012, « Data scientist: the sexiest job of the 21st century ». Il se peut qu’être sexy ne suffise plus désormais…