Title:

Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

Category:

Short Papers

Topics of interest:

Web oculta, Recuperação de Informações, Eliminação de Ruídos Web

Abstract:

Um dos problemas da extração de dados na web é a remoção de ruídos existentes nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruídos pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruídos em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coletados dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas.

Author(s):

João Adolfo Lutz, Carlos A. Heuser

Baixar o PDF