Valorisez vos données en optant pour le data scrubbing

Publié le 01/08/2019 par Caroline Rousseau et Thomas LaMonte

Partager cet article

Mettez en valeur vos données, optez pour le data scrubbing

Imaginez-vous une seconde recevoir ce compliment lors d’une réunion professionnelle : « Votre base de données a bonne mine. C’est idéal pour le data scrubbing ! »

Il y a des chances que vous ne sachiez pas quoi répondre et n’osiez pas admettre que vous ignorez tout de ce fameux data scrubbing.

Nous sommes là pour vous aider. Le data scrubbing, ou nettoyage des données, désigne le processus de vérification des données commerciales. L’objectif est d’identifier les informations erronées, dupliquées, obsolètes ou incomplètes. Le data scrubbing élimine tout ce qui rend les données peu fiables ou inutilisables pour les logiciels de business intelligence et les analyses de données.

Après tout, tout comme les objets du quotidien, il faut bien nettoyer les données de temps en temps si on ne veut pas que ce soit le chaos. Et si vous avez un animal de compagnie, le data scrubbing va vous parler : car les données, tout comme un chat ou un chien, ça déteste le bain. Si vous repoussez l’échéance, vous finirez dans le premier cas avec un animal dont l’odeur risque de vous faire pleurer. Et avec les données, les conséquences d’une telle négligence sont bien pires : vous mettez votre entreprise en péril.

Si vous aimez le chaos, mauvaise nouvelle : ce sont les données les mieux organisées qui l’emportent

IBM estime qu’en 2016, la mauvaise qualité des données a coûté plus de
3,1 milliards de dollars aux entreprises américaines. Environ 50 % du temps des spécialistes de la gestion des connaissances est dédié au traitement et à la correction des données, que ce soit sur un CRM, un outil de marketing ou dinformatique décisionnelle.

Utiliser des données corrompues pour réaliser des analyses revient à verser de l’essence dans le réservoir d’une voiture diesel. Non seulement votre entreprise fonctionnera moins bien, mais en plus, vous risquez d’endommager le moteur.

Vous prendrez des décisions fondées sur des bases incorrectes et dont les conséquences pourraient bien être sévères.

Se passer d’une routine de nettoyage des données reviendrait à se passer de votre douche quotidienne. Et pourtant, 66 % des entreprises françaises n’ont aucune approche centralisée en place et considèrent que 19 % de leurs données sont de mauvaise qualité. Autrement dit, 19 % de ces données ne sont ni intègres, ni exactes, ni sécurisées.

En vous permettant de calibrer la qualité des données, le nettoyage des données est le point le plus difficile et crucial de l’analyse de données.

Ce n’est pas un hasard si les plus grandes entreprises déploient des efforts colossaux pour organiser leurs données. Il ne s’agit pas seulement de limiter les conséquences d’une mauvaise qualité des données, mais aussi d’utiliser des données propres pour obtenir des informations précises sur les innovations métier.

Si vous êtes plus à l’aise dans le désordre, il va falloir prendre de bonnes résolutions : les données les mieux organisées sont celles qui prévalent.

Qu’est-ce que le data scrubbing ?

Tout le monde possède des données qui pourraient bénéficier d’un petit récurage. Mais par où commencer ?

Google identifie trois expressions correspondant au nettoyage des données :

  • Data scrubbing
  • Data cleaning
  • Data cleansing

Mais y a-t-il une réelle différence entre ces trois expressions ?

Il s’agit davantage d’une question de nuances, car toutes les trois désignent le même processus et les mêmes stratégies dans le contexte de purification des données pour les analyses.

Que vous l’appeliez par un nom ou un autre, dans tous les cas, le data scrubbing, cleaning ou cleansing désigne :

  1. La modification, la correction, la fusion et l’élimination de données corrompues, incomplètes, obsolètes ou inexactes.
  2. Les stratégies de sécurisation, de mise aux normes et d’enrichissement des données pour ajouter de la valeur à l’entreprise.

Pourquoi le data scrubbing est-il  important ?

En moyenne, les erreurs coûtent aux entreprises environ 10 à 20 % de leur budget d’implémentation.

Sans surprise, il est plus judicieux de corriger les informations saisies au fur et à mesure que d’attendre d’avoir un volume de données ingérable. Actuellement, 40 à 50 % du budget temps d’un projet est dédié à la modification des données.

Il faut également se rappeler que chacun d’entre nous génère un volume affolant de données. L’Internet des objets contribue de façon majeure à ce problème. On ne peut même plus commander un café sans utiliser de données.

Toutes les entreprises, quelle que soit leur taille, devraient intégrer le nettoyage de données dans leurs processus informatiques, car elles produisent chaque jour des volumes astronomiques de données. La politique de gestion des données doit être clairement définie et figurer parmi les processus cruciaux de l’entreprise.

Mettez en valeur la qualité de vos informations pour une gestion des données stratégique

On pourrait penser qu’il suffit de procéder à un grand nettoyage de printemps dans sa base de données, mais il est probable que cela ne suffise pas. Considérez plutôt le data scrubbing comme une tâche en arrière-plan.

LA SOLUTION :  Utilisez la checklist suivante pour définir votre initiative de nettoyage de données, extraire des informations de qualité pour prendre des décisions, et vous assurer de ne manquer aucun dépôt de données.

Infographie data scrubbing : la checklist

Partager cet article


This article may refer to products, programs or services that are not available in your country, or that may be restricted under the laws or regulations of your country. We suggest that you consult the software provider directly for information regarding product availability and compliance with local laws.