MÉTHODOLOGIE DU DÉDOUBLONNAGE & DÉDUPLICATION DE DONNÉES
Le dédoublonnage consiste en une recherche de doublons au sein d’une même et unique base de données. On parle de déduplication de données lorsque le logiciel doit rechercher des doublons intra et inter-fichiers.
La confrontation des fichiers avec le logiciel sat.MATCH va attribuer un “poids de rapprochement” pour déterminer la présence de doublons, triplons, quadruplons, … Le poids de rapprochement correspond à un score de véracité pour que deux adresses soient des doublons.
VÉRACITÉ DES DOUBLONS
Le « poids de rapprochement » est calculé en fonction de nombreuses règles de comparaison. Ces règles sont appelées « grammaire de déduplication » de données. Chaque règle a une note (potentiellement pondérée). La somme des notes déterminant alors le poids de rapprochement, et donc la probabilité de doublons. On parle aussi de seuil de véracité.
Plus le poids de rapprochement est élevé, plus la probabilité de doublon est forte. Par exemple, un poids de rapprochement à 100 veut dire que deux adresses sont 100% similaires.
DOUBLONS DOUTEUX, TRANSITIVITÉ…
Lors d’une déduplication de données, les doublons proches du seuil de véracité sont appelés « doublons douteux ». La notion de doublon dans ce cas est assez subjective : DuponT et DuponD dans le même immeuble sont-ils doublons ?
Ainsi, sat.MATCH intègre de nombreuses astuces et technologies métiers pour limiter drastiquement le nombre de doublons douteux.
Le logiciel de dédoublonnage sat.MATCH permet également de gérer la transitivité dans les groupes de doubles, problème récurrent des projets Master Data Management.
En cas de doublons, le logiciel permet de paramétrer l’adresse « 1ère de groupe » (celle qui sera conservée) selon différents critères paramétrables.
L’outil de déduplication permet aussi de ne pas perdre des données, en consolidant et fusionnant les informations présentes sur les lignes doubles (email, téléphone, date, montant d’achat, …).
LES DIFFÉRENTS MODES DE RAPPROCHEMENT
Plus classiquement, le logiciel de déduplication de données sat.MATCH peut dédoublonner vos bases de données sous différents modes :
Particulièrement personnalisable sat.MATCH peut répondre aux règles métiers les plus exigeantes d’un Référentiel Client Unique.