Title:

UDRB: Uma Nova Heurística Eficaz para Deduplicação de Referências Bibliográficas

Category:

Short Papers

Topics of interest:

Deduplicação de Referências, Desambiguação

Abstract:

Publicações científicas normalmente contêm referências bibliográficas a trabalhos anteriores. Tais referências são usadas como fonte de informação para bibliotecas digitais, contribuindo com recursos de busca, navegação e estimativa de qualidade das obras. Neste contexto, frequentemente ocorre um problema que consiste em identificar se duas referências representam uma mesma publicação, conhecido como deduplicação de referências bibliográficas (DRB). Soluções para DRB podem ser divididas em supervisionadas (dependem de um conjunto de treinamento) e não supervisionadas (baseados em heurísticas). Com objetivo de evitar o acentuado custo manual de criação de um conjunto de treinamento, propomos neste trabalho uma heurística não supervisionada para DRB, denominada UDRB. Os experimentos em bases reais mostraram que a heurística proposta alcançou ganhos de mais de 7% em relação ao método não supervisionado estado-da-arte, e eficácia similar as de métodos supervisionados na maioria dos casos, sem a necessidade da dispendiosa tarefa de rotulação manual.

Author(s):

Sérgio Canuto, Guilherme Dal Bianco, Marcos Gonçalves, Jussara M. Almeida, Thierson Couto

Baixar o PDF