Title:

Distribuição de Bases de Dados de Proveniência na Nuvem

Category:

Short Papers

Topics of interest:

Workflow, Proveniência de Dados, Projeto de Distribuição

Abstract:

Dados de proveniência no contexto de workflows científicos são peças fundamentais, pois, por meio deles, os experimentos são passíveis de reprodução e validação. O histórico da execução dos workflows é fundamental também para a gerência da execução de novos workflows uma vez que possibilitam às máquinas de workflow realizar predições sobre desempenho ou custo financeiro de nuvens de computadores. Workflows, com dados em larga escala, executados em nuvens, são com frequência alocados em máquinas virtuais distribuídas fisicamente. As soluções existentes coletam os dados de proveniência de forma distribuída e os armazenam de modo centralizado em único repositório, após o término da execução do workflow. Além da capacidade de reprodução, dados de proveniência permitem um acompanhamento refinado por parte do cientista, quando disponibilizados à medida que são gerados, durante a execução do workflow. Porém, quando os dados de proveniência só estão disponíveis para consulta após a execução do workflow, seu uso fica limitado. Para permitir consultas durante a execução do workflow, o acesso ao banco de dados de proveniência deve estar em sintonia com a máquina de execução distribuída de workflows. Este artigo discute aspectos de projeto de distribuição de dados de proveniência, levando em consideração o esquema de representação de proveniência do W3C, aspectos de processamento distribuído de consultas em nuvens de computadores e considerando a execução distribuída do workflow. A estratégia aqui adotada trouxe melhoria de desempenho para as consultas que submetemos em tempo de execução dos workflows aumentando assim a eficiência dos workflows científicos testados.

Author(s):

Edimar Santos, Vanessa Assis, Flavio Costa, Daniel de Oliveira, Marta Mattoso

Baixar o PDF