Detective Gadget

Frameword di Entity Resolution per Applicazioni Mission Critical

Introduzione

Con l'aumentare del volume dei dati, l'inferenza e la definizione delle relazioni semantiche tra le singole entità diventa sempre più complessa. Questo, spesso, rappresenta una barriera alla capacità delle organizzazioni di comprendere appieno il valore dei dati in loro possesso, ad esempio per il loro utilizzo nell'analisi predittiva finalizzata ad ottimizzare il targeting, il thresholding o la gestione delle risorse.

Uno dei problemi che maggiormente riguarda la gestione di una grossa mole di dati è la possibilità che essi possano inavvertitamente contenere riferimenti distinti alla stessa entità del mondo reale: il processo di unificazione di questi riferimenti, e dunque di miglioramento qualitativo del dato, è la 'entity-resolution'.

Detective Gadget è uno strumento innovativo, sviluppato da Svelto!, per svolgere le azioni di entity-resolution su grandi moli di dati anche non 'puliti'.

Tradizionalmente, i tasks principali da realizzare nel processo di entity-resolution sono: l'individuazione dei dati ripetuti, il collegamento dei record che fanno riferimento alla stessa entità e la conversione di dati, con più di una possibile rappresentazione, in una forma standard.

Con Detective Gadget è possibile ottimizzare il processo grazie alle sue caratteristiche peculiari:

Flessibilità

Detective Gadget adotta un approccio non specifico alla entity-resolution, cioè utilizza una varietà di funzioni di match per stabilire se due record corrispondono l'uno all'altro. Questo consente la massima flessibilità nell'utilizzare la maggior parte delle tecniche note per velocizzare la fase iniziale di entity-resolution;

Integrazione

Detective Gadget non prevede una fase preventiva di pulizia dei dati prima dell’avvio della entity-resolution. Al contrario, gestisce la pulizia dei dati e la entity-resolution in modo integrato;

Rapidità

Detective Gadget utilizza un algoritmo di match molto veloce in grado di sfruttare al meglio i feedback positivi e negativi in modo estremamente veloce. L'algoritmo si basa su una nuova tecnica, l’alias-based hashing che consente di velocizzare il processo.

L’approccio combinato di queste tre caratteristiche del nostro strumento rivoluzionano le attività di entity-resolution rispetto al modo tradizionale di fare!