mercredi 27 mars 2019

[AVIS D'EXPERT] La Data, l’oubliée de la Data Science

Par Hadrien CHICAULT, Data Scientist senior chez Micropole.

 

Depuis quelques années, le big data et la datascience sont positionnés comme LE nouvel Eldorado des entreprises. Spark, Hadoop, Deep learning… les buzzwords fusent! Tous font en effet référence à la partie hautement technique du métier de Data Scientist, voire ne s’appuient que sur la partie « scientist », souvent galvaudée et parfois confondue avec les compétences d’un informaticien. Et la partie Data dans tout ça ?

 

Comme il est plus difficile d’évaluer la valeur de la data que son coût pour l’entreprise, elle est souvent reléguée au second plan, laissant le champ aux prouesses techniques de la « science ». Et pourtant, le fuel quotidien des analyses de machine learning se compose bien avant tout d’un savant mélange de data et de savoir-faire. 

 

Au sein d’une entreprise, l’un des constats établi concernant la data est que désormais l’information tend à se désiloter. En effet, si on met de côté le RGPD, la facilité d’accès à des technologies de stockage de l’information sous forme « clef | valeurs » et la centralisation au sein d’un datalake rendent les données de l’entreprise plus facilement accessibles et rapidement disponibles. Il est, par exemple, de plus en plus facile d’obtenir puis de croiser aisément les données issues du CRM historique, des campagnes marketings réalisées, et celles du log d’utilisation ou géographiques.  À partir du moment où la donnée est correctement documentée et que le petit gap technologique est passé, les data scientists ont alors aisément accès à la quasi-totalité des données de l’entreprise et c’est une bonne chose !

 

LA DATA : VECTEUR DE VALEUR

Aujourd’hui, beaucoup de projets en datascience arrivent à utiliser correctement les données internes de l’entreprise. Et bien que les outils soient de plus en plus performants en termes de temps de traitement et de mesure de qualité statistique, la disruption n’est pas toujours au rendez-vous, surtout lorsqu’il s’agit de passer en production. 


Certains domaines bien particuliers (où l’utilisation des logs et des données d’IOT permettent de construire un nouvel écosystème) profitent pleinement de l’essor des données. Et ce, contrairement aux domaines plus classiques et traditionnellement consommateurs d’analyse de machine learning, qui pour leur part commencent seulement depuis peu à se tourner vers l’open data.


Les télécoms par exemple, utilisent les logs du réseau afin de le monitorer dans le but d’anticiper une éventuelle panne et assurer la continuité du service. Le secteur automobile quant à lui utilise les logs issus des véhicules connectés, ce qui permettrait potentiellement à terme de créer des services complémentaires à tarification différenciée (sur le modèle américain).

 

L’OPEN DATA, UNE SOURCE D’INFORMATION À NE PAS NEGLIGER

Lorsque l’on parle d’open data, on pense naturellement aux données issues d’organismes publics tels que l’INSEE, ou Météo France, ... Pour autant, les data de l’INSEE, bien que d’une qualité remarquable, ne sont pas simples à identifier. La fréquence de mise à jour de ces données ne correspond pas toujours au temps d’analyse demandé et l’historique n’est pas toujours au rendez-vous. Conséquence : la granularité des données de l’entreprise ou du référentiel n’est pas toujours garantie.

 

L’utilisation de l’open data demande donc une certaine pugnacité afin de trouver des sources exploitables dans le cadre des projets, mais malgré ses quelques limites, l’open data reste cependant une source d’information à ne pas négliger. Il permet d’enrichir la compréhension et la qualité statistique, de traiter de nouveaux sujets jusqu’alors non envisagés par l’entreprise et d’ouvrir le business à de nouveaux débouchés et à des opportunités de création de valeur.

 

L’OPEN DATA UNE NOUVELLE SOURCE A EXPLOITER

Les équipes expertes en datascience de Micropole mettent en place chez leurs clients différentes stratégies concernant la récolte d’open data, dans le but d’apporter toujours plus de valeur à la data de l’entreprise. Cela passe par : 

 

La mise en place d’une méthodologie basée sur le web scraping permettant d’historiser en interne les données potentielles, ce qui nécessite un investissement conséquent en matière de suivi.
L’intégration uniquement des données disponibles à date, en se privant d’informations potentielles et la construction de la data au « fil de l’eau » en fonction des projets.
Faire appel à des sociétés externes qui archivent, nettoient et mettent à disposition de l’information qualifiée. Il est cependant rare de pouvoir tester l’intérêt de ces données sans avoir à payer avant même de connaitre la valeur.
 
Dans tous les cas, ces données devront être travaillées avant l’intégration au sein des SI par les data scientists car le sujet n’est pas uniquement celui de l’intégration mais bien principalement celui de la valeur.

* L’open data est une donnée dite « ouverte », c’est-à-dire une donnée publique brute accessible par tous.

Contact : HCHICAULT@micropole.com