Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotações Semânticas e Informações sobre o Ambiente de Execução

Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotações Semânticas e Informações sobre o Ambiente de Execução

O uso de plataformas de alto desempenho é um requisito para a execução de atividades que lidam com grandes volumes de dados. Um conjunto de atividades interligadas, modeladas como um workflow, pode ter sua execução controlada por um Sistema de Gerenciamento de Workflows (SGWfs). O paralelismo de dados pode diminuir o seu tempo total de execução, contudo, os SGWfs não exploram isso de maneira automática. Este trabalho propõe o uso de anotações semânticas para a criação automática de um modelo paralelo para a execução das atividades. Em experimentos com um workflow que lida com 5,8 milhões de objetos de dados, a paralelização obtida das anotações reduziu em 88,37% o tempo de execução do workflow e em 10,35% o custo financeiro.

ERAD 2016

583e920a7e9238a1c21e923025f8f641?s=128

Elaine Naomi

August 05, 2016
Tweet

Transcript

  1. Explorando o Paralelismo em Workflows Intensivos em Dados com o

    Uso de Anotações Semânticas e Informações sobre o Ambiente de Execução Elaine N. Watanabe e Profa Dra Kelly R. Braghetto Departamento de Ciência da Computação Instituto de Matemática e Estatística Universidade de São Paulo, São Paulo, Brasil {elainew,kellyrb}@ime.usp.br Escola Regional de Alto Desempenho de São Paulo - 2016
  2. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Roteiro 1 Introdução 2 Estratégia Proposta para Paralelização 3 Experimentos e Resultados Obtidos 4 Considerações Finais ERAD–SP 2016 2 / 16
  3. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Workflows intensivos em dados Objetivo Contexto Aplicação distribuída: Workflows intensivos em dados Plataforma de alto desempenho: Nuvem Gerenciamento de execução distribuída: Sistema de Gerenciamento de Workflows (SGWf) Repositório de dados: Bancos de dados A B C D E F G ERAD–SP 2016 3 / 16
  4. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Workflows intensivos em dados Objetivo Objetivo Criar um modelo para a execução paralela das atividades, de maneira automática, a partir de: anotações semânticas sobre o modelo do workflow informações sobre o ambiente de execução ERAD–SP 2016 4 / 16
  5. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Anotações sobre o Tipo de Processamento Anotações sobre Atributos dos Objetos de Dados Reestruturação do workflow Anotações sobre o Tipo de Processamento Processamento por Objeto (PO): indica que uma atividade processa cada objeto de dados de entrada individualmente Processamento por Grupo de Objetos (PG): indica que uma atividade processa os objetos de dados de entrada em grupos; os grupo são definidos por meio de atributo(s) agrupador(es) Estratégias para distribuição dos objetos de dados podem ser aplicadas conforme as anotações sobre o tipo de processamento ERAD–SP 2016 5 / 16
  6. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Anotações sobre o Tipo de Processamento Anotações sobre Atributos dos Objetos de Dados Reestruturação do workflow Anotações sobre Atributos dos Objetos de Dados Seleção de Atributos (SA): lista de atributos de um objeto de dados necessários para uma atividade Ordenação de Objetos (OO): lista de atributos usados para a ordenação dos objetos de dados As anotações sobre atributos permitem: Definição de índices para ordenação Seleção somente dos atributos necessários ERAD–SP 2016 6 / 16
  7. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Anotações sobre o Tipo de Processamento Anotações sobre Atributos dos Objetos de Dados Reestruturação do workflow Reestruturação do workflow ... ... F_m F_1 F_2 E_n G A B C D E_1 E_2 ERAD–SP 2016 7 / 16
  8. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Ambiente de Execução Cenários avaliados Resultados Ambiente de execução Total de objetos de dados manipulados: 5,8 milhões Banco de dados Relacional: PostgreSQL Banco de dados NoSQL: MongoDB SGWf: Pegasus WMS Plataforma de computação: Google Cloud Total de execuções: 5 vezes Nível de confiança: 95% ERAD–SP 2016 8 / 16
  9. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Ambiente de Execução Cenários avaliados Resultados Arquitetura de um Cluster MongoDB ERAD–SP 2016 9 / 16
  10. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Ambiente de Execução Cenários avaliados Resultados Cenários avaliados Workflow SGBD Uso das anotações No Partições No Réplicas No Máq. SGBD No Nós Execução W-01 PostgreSQL Não 1 1 1 1 W-02 PostgreSQL Não 1 1 1 3 W-03∗ PostgreSQL Sim 1 1 1 3 W-04 MongoDB Não 1 1 1 1 W-05 MongoDB Não 1 1 1 3 W-06∗ MongoDB Sim 1 1 1 3 W-07 MongoDB Não 1 3 9 3 W-08∗ MongoDB Sim 1 3 9 3 W-09 MongoDB Não 3 3 15 9 W-10∗ MongoDB Sim 3 3 15 9 W-11∗ MongoDB Sim 3 3 15 9 ∗Cenário envolvendo o uso de anotações semânticas no workflow. ERAD–SP 2016 10 / 16
  11. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Ambiente de Execução Cenários avaliados Resultados Makespan 0 1 2 3 4 5 6 7 8 9 10 W−01 W−02 W−03 W−04 W−05 W−06 W−07 W−08 W−09 W−10 W−11 Makespan (horas) PostgreSQL(1Part−1Rp) MongoDB(1Part−1Rp) MongoDB(1Part−3Rp) MongoDB(3Part−3Rp) ERAD–SP 2016 11 / 16
  12. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Ambiente de Execução Cenários avaliados Resultados Custo monetário 0 5 10 15 20 25 30 35 W−01 W−02 W−03 W−04 W−05 W−06 W−07 W−08 W−09 W−10 W−11 Custo monetário (em dólares) PostgreSQL(1Part−1Rp) MongoDB(1Part−1Rp) MongoDB(1Part−3Rp) MongoDB(3Part−3Rp) ERAD–SP 2016 12 / 16
  13. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Resultados Estratégia proposta resultou em: Redução de até 88,4% do makespan em um sistema NoSQL Redução do makespan de até 74,4% e do custo financeiro de até 10,35% em cenários com as mesmas configurações e número de máquinas virtuais. ERAD–SP 2016 13 / 16
  14. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Trabalhos futuros Definição de novas anotações e estratégias de paralelismo de dados Avaliação de outros sistemas NoSQL Análise do impacto da leitura de réplicas de dados Experimentos para identificar relação entre número de partições e nós de execução ERAD–SP 2016 14 / 16
  15. Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações

    Finais Muito obrigada! elainew@ime.usp.br Essa pesquisa foi financiada pela CAPES e pelo NAPSoL-PRP-USP. Os autores agradecem também ao Google pelos créditos concedidos para o uso de sua plataforma de nuvem. ERAD–SP 2016 15 / 16
  16. Bibliografia Mohammad Islam et. al. Oozie: Towards a Scalable Workflow

    Management System for Hadoop. Proceedings of the 1st ACM SIGMOD Workshop on Scalable Workflow Execution Engines and Technologie, p. 4:1–4:10, 2012. C.L. Philip Chen and Chun-Yang Zhang. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. Information Sciences, v.275, p.314-347, 2014. Douglas E. M. de Oliveira et. al. Avaliação da Localidade de Dados Intermediários na Execução Paralela de Workflows BigData. Proceedings of 30th Brazilian Symposium on Databases, p.29-40, 2015. ERAD–SP 2016 16 / 16