Avis d'expert

Le Machine Learning pour vaincre la non-qualité des données

Jun 06, 6:11 AM

Depuis quelques années déjà, la qualité des données est au cœur de parutions régulières dans les articles spécialisés. De nombreuses études démontrent les carences effrayantes de la qualité des données au sein des entreprises, ainsi que les impacts négatifs sur les travaux des analystes et les décisions des dirigeants. Au-delà de chiffres « chocs » souvent présentés, quelles sont aujourd’hui les raisons qui font de cette problématique un écueil majeur pour l’essor digital des entreprises ? Quel est l’état des lieux des solutions curatives ou préventives mises en œuvre ? Et comment peut-on s’appuyer sur nos savoir-faire en data science pour (enfin) atteindre le niveau de qualité de données souhaité ?

Les référentiels de données d’entreprise, des briques fondamentales de votre projet

Au cœur de la problématique sur la qualité des données se trouvent les référentiels de données d’entreprises – qui évoluent en même temps que son activité – tels que le recensement et la description des produits, clients, RH, ressources… Piliers de la vie digitale d’une entreprise, ils lui permettent d’ancrer l’ensemble de ces traitements de données à son contexte et à sa réalité.
Si ces référentiels de données sont incomplets ou erronés, toutes les initiatives data ou digitales que l’organisation réalisera, qu’elles soient basiques ou élaborées, traditionnelles ou disruptives, fourniront des résultats incomplets ou erronés, et ce, quel que soit le niveau d’investissement réalisé dans ces différents projets.

Ainsi et pour exemples :

Des flux inter-applicatifs ne pourront pas permettre de faire communiquer efficacement vos applicatifs de gestion ;
Votre site e-commerce ne pourra pas booster efficacement et de manière durable votre activité commerciale ;
Vos initiatives datascience ou big data ne pourront pas venir révolutionner votre approche analytique.

Une prise de conscience de la part des entreprises

La plupart des entreprises ont aujourd’hui conscience de ce constat et certaines d’entre elles ont même initié des campagnes de mise en qualité de leurs référentiels de données. Celles-ci sont généralement basées sur des processus de gouvernance entre le service IT, qui a accès aux environnements techniques hébergeant les référentiels, et les experts métiers qui quant à eux, possèdent les connaissances pour améliorer la qualité des données.

Longues et laborieuses, ces démarches fonctionnent car elles « obligent » des experts métiers à passer du temps sur des tâches correctives manuelles. Elles ne garantissent cependant pas le maintien de la qualité dans le temps, les actions ne sont en effet pas effectuées à la source lors de la création des données, mais a posteriori, lorsque la donnée est déjà dans le système d’information.

Certaines entreprises investissent dans des outils de data quality management, qui ont pour objectif d’industrialiser les règles métiers de mise en qualité des données. Là aussi cela fonctionne bien, les outils sont matures, mais ils ne peuvent corriger que les données pour lesquelles une règle métier existe, et encore faut-il que les données sur lesquelles s’appuient ces règles soient elles-mêmes renseignées et de qualité.

Même pour les entreprises qui réalisent ces démarches, une part importante des données reste donc souvent non redressée, et donc d’une qualité ne permettant pas d’atteindre les enjeux que nous avons évoqués préalablement.

Data Quality factory, la solution qui révolutionne la mise en qualité

Forts de ce constat, nous avons mis au point une solution en phase avec le marché et les attentes de nos clients : Data Quality Factory. L’objectif de cet outil non intrusif, simple de mise en place et d’utilisation est de résoudre les problématiques de qualité de données en utilisant toute la puissance des algorithmes de machine learning spécifiquement développés par nos équipes.

Nous avons conçu cette solution comme un outil qui analyse massivement les données du référentiel traité, et qui fournit à l’analyste métier ses prédictions sur les données manquantes, détecte les potentielles anomalies qui ne pourraient être détectées autrement, et lui indique les actions à mener pour accélérer significativement la correction du référentiel.

Au-delà des campagnes correctives, la solution est aussi conçue pour pouvoir ensuite être implémentée en mode préventif, en capitalisant sur l’apprentissage acquis lors des premières campagnes de correction. Il devient ainsi possible de l’intégrer dans le système informatique afin de pérenniser la mise en qualité des données à la source, dès leur création.

Et le résultat est probant ! Dans le cadre d’un programme d’envergure chez un client, sollicitant à la fois l’équipe IT et les métiers, nous avons pu ainsi accélérer la démarche de mise en qualité des données du référentiel produit, avec un retour sur investissement de 9 mois de temps projets gagné !