Avis d'expert

La face cachée du Data Scientist : le Data Hermétique

Feb 04, 6:06 AM

Tanguy Le Nouvel, Directeur Data Science chez Micropole, nous livre son point de vue sur les néo Data Scientists.

Kaggle : site proposant des concours de data science, soumis par des entreprises / organismes, à tous les data scientists de la planète. Données anonymisées et problématique souvent liées à la prédiction d’un évènement par des données du passé. Récompenses allant en général de 5000 à 100 000 €, à répartir parmi les lauréats.

Nous observons une déviance dans les pratiques du fait que nombre de néo-data-scientists considèrent que les solutions gagnantes développées par les lauréats des concours Kaggle constituent l’état de l’art en matière de data science.

On ne s’intéresse plus à la compréhension du sujet, ses enjeux, son contexte, on ne s’intéresse plus non plus aux données et par conséquent à tous les indicateurs pertinents que l’on aurait pu construire (les données sont anonymisées, déjà préparées et agrégées) ni aux contraintes d’industrialisation de la solution dans le SI du donneur d’ordre.

Et je ne parle pas de l’interprétation des résultats, rendue impossible par l’anonymisation des données et par l’aspect totalement boite noire des algorithmes et approches utilisés.

La fin justifie les moyens ! Le gain de 15°000 $ (en moyenne par vainqueur, estimée avec la méthode ALL : à la louche J) peut justifier de produire des stratégies de modélisation d’une complexité sans équivalent si celles-ci permettent de gagner quelques places au « leaderbord » (classement online mis à jour en temps réel à chaque soumission de participant) et d’empocher la mise.

Mais dans la vraie vie, ces stratégies se révèlent inexploitables (CF concours NetFlix, BnpParibas et tous les « use case » qui ne seront jamais industrialisés…). Et les néo-data-scientists picousés à Kaggle sont souvent déboussolés lorsqu’ils doivent évaluer eux-mêmes la performance de leurs résultats sur de vrais projets. Et oui, lorsque l’on est seul à construire un modèle prédictif, il n’y a pas moyen de s’étalonner avec des milliers d’autres contributeurs… et de savoir si on est dans le « vrai » ou non.

En reléguant à l’arrière-plan le discernement, l’esprit critique, l’expertise métier et l’interprétation au profit d’un bourrinage en règle (certains gagnants proposent des solutions qui agrègent les prédictions de plusieurs milliers de modèles), les data scientists sont en train de se tirer une balle dans le pied et se préparent à des lendemains sans emploi. Quelle valeur ajoutée par rapport à une machine puissante pseudo-intelligente ? Aucune !

Et que dire des formations de master2 qui, en guise de projet, demandent à leurs étudiants de faire un concours de data science sur les données anonymisées d’un concours Kaggle ? Au secours !

Face aux data hermétiques qui montent des usines à gaz pour des gains epsilonesques et des data engineers qui s’engouffrent dans la brèche à la première occasion pour justifier leur industrialisation en langage Scala : la clairvoyance, le pragmatisme et l’agilité vont se révéler indispensables pour ne pas anéantir les bénéfices que les entreprises pourraient engranger dès aujourd’hui.

Mes équipes et moi-même sont là pour s’en porter garants !