Il problema del record linkage tra dataset: un approccio probabilistico

Keywords

Statistics
Author(s):
Cremaschi, Andrea ; Ziller, Stefano
Title:
Il problema del record linkage tra dataset: un approccio probabilistico
Date:
Friday 24th July 2009
Advisor:
Paganoni, A. M.
Advisor II:
Co-advisor:
Ieva, F.
Download link:
Abstract:
Questo elaborato di tesi si ha come scopo il vaglio delle diverse tecniche di record linkage proposte in letteratura, con particolare attenzione alle tecniche di tipo probabilistico. Il problema del record linkage sorge nel momento in cui si abbia esigenza di integrare dataset diversi, in cui vi siano più record riferiti al medesimo individuo, ma non vi sia una chiave identificativa univoca che consenta di ricondurgli tutti i record che gli competono. Il record linkage probabilistico si propone dunque di identificare un insieme di possibili proposte (l insieme dei match) che andranno vagliate e per le quali andrà individuata una regola di decisione ottimale che consenta di stabilire se i record in questione vadano o meno attribuiti ad un determinato individuo. L elaborato si suddivide in quattro capitoli: nel primo capitolo si presenta il problema e si descrive il modello matematico alla base della teoria del record linkage; nel secondo capitolo si descrive il metodo di calcolo delle quantità rilevanti per l applicazione degli algoritmi, preceduto da un introduzione teorica all algoritmo Expectation-Maximizatio (EM); nel terzo capitolo si applicano le tecniche presentate ad un dataset reale e se ne verificano l efficienza e la validità; nell ultimo capitolo infine si considerano gli ambiti di applicazione del record linkage probabilistico e il supporto che può provenire dall utilizzo di questa tecnica. Seguono, in appendice, tutti gli algoritmi Matlab implementati.