Logiciel de déduplication de données

Le propre d’un logiciel de déduplication de données est d’aller plus loin qu’un rapprochement sur des données similaires.
Les technologies exploitées sont donc nombreuses pour être intelligemment tolérantes aux écarts.

Méthodologie du dédoublonnage & déduplication de données

Le dédoublonnage consiste en une recherche de doublons au sein d’une même et unique base de données. On parle de déduplication de données lorsque le logiciel doit rechercher des doublons intra et inter-fichiers.

La confrontation des fichiers avec le logiciel sat.MATCH va attribuer un “poids de rapprochement” pour déterminer la présence de doublons, triplons, quadruplons, … Le poids de rapprochement correspond à un score de véracité pour que deux adresses soient des doublons.

Véracité des doublons

Le « poids de rapprochement » est calculé en fonction de nombreuses règles de comparaison. Ces règles sont appelées « grammaire de déduplication » de données. Chaque règle a une note (potentiellement pondérée). La somme des notes déterminant alors le poids de rapprochement, et donc la probabilité de doublons. On parle aussi de seuil de véracité.

Plus le poids de rapprochement est élevé, plus la probabilité de doublon est forte.  Par exemple, un poids de rapprochement  à 100 veut dire que deux adresses sont 100% similaires.

Doublons douteux, transitivité

Lors d’une déduplication de données, les doublons proches du seuil de véracité sont appelés « doublons douteux ». La notion de doublon dans ce cas est assez subjective : DuponT et DuponD dans le même immeuble sont-ils doublons ?

Ainsi, sat.MATCH intègre de nombreuses astuces et technologies métiers pour limiter drastiquement le nombre de doublons douteux.

Le logiciel de dédoublonnage sat.MATCH permet également de gérer la transitivité dans les groupes de doubles, problème récurrent des projets Master Data Management.

En cas de doublons, le logiciel permet de paramétrer l’adresse « 1ère de groupe » (celle qui sera conservée) selon différents critères paramétrables.

L’outil de déduplication permet aussi de ne pas perdre des données, en consolidant et fusionnant les informations présentes sur les lignes doubles (email, téléphone, date, montant d’achat, …).

Les différents modes de rapprochement

Plus classiquement, le logiciel de déduplication de données sat.MATCH peut dédoublonner vos bases de données sous différents modes :

Dédoublonnage foyer : identifier les membres d’un même foyer dans un même groupe de doubles.

Dédoublonnage individu : Utilise le prénom comme clé différenciante au sein d’un doublon foyer.

Dédoublonnage Raison Sociale (BtoB) : détecter des doublons de sociétés au sein d’un fichier d’entreprises.

Dédoublonnage contact (BtoB) : Ce dédoublonnage est le ‘cousin’ du dédoublonnage individu : il sert dans un contexte BtoB à trouver les doublons de personnes au sein d’une même entreprise.

Particulièrement personnalisable sat.MATCH peut répondre aux règles métiers les plus exigeantes d’un Référentiel Client Unique.

DÉCOUVREZ TOUTES NOS SOLUTIONS POSTALES

Contactez l’équipe 76310