Title:

SGProv: Mecanismo de Sumarização para Múltiplos Grafos de Proveniência

Category:

Short Papers

Topics of interest:

Sistemas de Gerência de Workflows Científicos, Grafos de Proveniência, Proveniência de Dados

Abstract:

Os Sistemas de Gerência de Workflows Científicos (SGWfC) têm o objetivo de automatizar a construção e execução de experimentos científicos. Várias execuções de workflows são necessárias para realizar um experimento. O rastro de proveniência, coletado pelos SGWfC durante estas execuções, é importante para que os cientistas possam compreender, reproduzir e analisar seus experimentos. Um rastro de proveniência contém o histórico da derivação dos dados, assim, pode ser representado sob a forma de um grafo direcionado e acíclico. Cada execução de um workflow gera um grafo de proveniência. Após várias execuções, por exemplo, explorando parâmetros, inúmeros grafos são gerados. A base de proveniência, portanto, requer um espaço de armazenamento considerável e consultá-la envolve a manipulação de um grande volume de grafos. Consultas típicas de proveniência percorrem os diversos grafos para obter o caminho de derivação (linhagem) dos dados da consulta. Este trabalho propõe um mecanismo de sumarização para grafos de proveniência (SGProv), usando um banco de dados de grafos para armazenar e consultar esses grafos. O objetivo é gerar um único grafo sumário que represente todos os grafos de proveniência gerados durante um experimento, mas com tamanho reduzido e eliminando dados repetidos. Esta abordagem de sumarização visa reduzir o tempo de processamento de consultas de proveniência utilizando apenas o grafo sumário para respondê-las sem precisar reconstruir os grafos originais. Consultas típicas sobre dados de proveniência de execução de workflows mostraram o potencial da nossa solução.

Author(s):

Daniele El-Jaick, Marta Mattoso, Alexandre Assis

Baixar o PDF