Slide 1

Slide 1 text

Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotações Semânticas e Informações sobre o Ambiente de Execução Elaine N. Watanabe e Profa Dra Kelly R. Braghetto Departamento de Ciência da Computação Instituto de Matemática e Estatística Universidade de São Paulo, São Paulo, Brasil {elainew,kellyrb}@ime.usp.br Escola Regional de Alto Desempenho de São Paulo - 2016

Slide 2

Slide 2 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Roteiro 1 Introdução 2 Estratégia Proposta para Paralelização 3 Experimentos e Resultados Obtidos 4 Considerações Finais ERAD–SP 2016 2 / 16

Slide 3

Slide 3 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Workflows intensivos em dados Objetivo Contexto Aplicação distribuída: Workflows intensivos em dados Plataforma de alto desempenho: Nuvem Gerenciamento de execução distribuída: Sistema de Gerenciamento de Workflows (SGWf) Repositório de dados: Bancos de dados A B C D E F G ERAD–SP 2016 3 / 16

Slide 4

Slide 4 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Workflows intensivos em dados Objetivo Objetivo Criar um modelo para a execução paralela das atividades, de maneira automática, a partir de: anotações semânticas sobre o modelo do workflow informações sobre o ambiente de execução ERAD–SP 2016 4 / 16

Slide 5

Slide 5 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Anotações sobre o Tipo de Processamento Anotações sobre Atributos dos Objetos de Dados Reestruturação do workflow Anotações sobre o Tipo de Processamento Processamento por Objeto (PO): indica que uma atividade processa cada objeto de dados de entrada individualmente Processamento por Grupo de Objetos (PG): indica que uma atividade processa os objetos de dados de entrada em grupos; os grupo são definidos por meio de atributo(s) agrupador(es) Estratégias para distribuição dos objetos de dados podem ser aplicadas conforme as anotações sobre o tipo de processamento ERAD–SP 2016 5 / 16

Slide 6

Slide 6 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Anotações sobre o Tipo de Processamento Anotações sobre Atributos dos Objetos de Dados Reestruturação do workflow Anotações sobre Atributos dos Objetos de Dados Seleção de Atributos (SA): lista de atributos de um objeto de dados necessários para uma atividade Ordenação de Objetos (OO): lista de atributos usados para a ordenação dos objetos de dados As anotações sobre atributos permitem: Definição de índices para ordenação Seleção somente dos atributos necessários ERAD–SP 2016 6 / 16

Slide 7

Slide 7 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Anotações sobre o Tipo de Processamento Anotações sobre Atributos dos Objetos de Dados Reestruturação do workflow Reestruturação do workflow ... ... F_m F_1 F_2 E_n G A B C D E_1 E_2 ERAD–SP 2016 7 / 16

Slide 8

Slide 8 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Ambiente de Execução Cenários avaliados Resultados Ambiente de execução Total de objetos de dados manipulados: 5,8 milhões Banco de dados Relacional: PostgreSQL Banco de dados NoSQL: MongoDB SGWf: Pegasus WMS Plataforma de computação: Google Cloud Total de execuções: 5 vezes Nível de confiança: 95% ERAD–SP 2016 8 / 16

Slide 9

Slide 9 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Ambiente de Execução Cenários avaliados Resultados Arquitetura de um Cluster MongoDB ERAD–SP 2016 9 / 16

Slide 10

Slide 10 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Ambiente de Execução Cenários avaliados Resultados Cenários avaliados Workflow SGBD Uso das anotações No Partições No Réplicas No Máq. SGBD No Nós Execução W-01 PostgreSQL Não 1 1 1 1 W-02 PostgreSQL Não 1 1 1 3 W-03∗ PostgreSQL Sim 1 1 1 3 W-04 MongoDB Não 1 1 1 1 W-05 MongoDB Não 1 1 1 3 W-06∗ MongoDB Sim 1 1 1 3 W-07 MongoDB Não 1 3 9 3 W-08∗ MongoDB Sim 1 3 9 3 W-09 MongoDB Não 3 3 15 9 W-10∗ MongoDB Sim 3 3 15 9 W-11∗ MongoDB Sim 3 3 15 9 ∗Cenário envolvendo o uso de anotações semânticas no workflow. ERAD–SP 2016 10 / 16

Slide 11

Slide 11 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Ambiente de Execução Cenários avaliados Resultados Makespan 0 1 2 3 4 5 6 7 8 9 10 W−01 W−02 W−03 W−04 W−05 W−06 W−07 W−08 W−09 W−10 W−11 Makespan (horas) PostgreSQL(1Part−1Rp) MongoDB(1Part−1Rp) MongoDB(1Part−3Rp) MongoDB(3Part−3Rp) ERAD–SP 2016 11 / 16

Slide 12

Slide 12 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Ambiente de Execução Cenários avaliados Resultados Custo monetário 0 5 10 15 20 25 30 35 W−01 W−02 W−03 W−04 W−05 W−06 W−07 W−08 W−09 W−10 W−11 Custo monetário (em dólares) PostgreSQL(1Part−1Rp) MongoDB(1Part−1Rp) MongoDB(1Part−3Rp) MongoDB(3Part−3Rp) ERAD–SP 2016 12 / 16

Slide 13

Slide 13 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Resultados Estratégia proposta resultou em: Redução de até 88,4% do makespan em um sistema NoSQL Redução do makespan de até 74,4% e do custo financeiro de até 10,35% em cenários com as mesmas configurações e número de máquinas virtuais. ERAD–SP 2016 13 / 16

Slide 14

Slide 14 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Trabalhos futuros Definição de novas anotações e estratégias de paralelismo de dados Avaliação de outros sistemas NoSQL Análise do impacto da leitura de réplicas de dados Experimentos para identificar relação entre número de partições e nós de execução ERAD–SP 2016 14 / 16

Slide 15

Slide 15 text

Introdução Estratégia Proposta para Paralelização Experimentos e Resultados Obtidos Considerações Finais Muito obrigada! [email protected] Essa pesquisa foi financiada pela CAPES e pelo NAPSoL-PRP-USP. Os autores agradecem também ao Google pelos créditos concedidos para o uso de sua plataforma de nuvem. ERAD–SP 2016 15 / 16

Slide 16

Slide 16 text

Bibliografia Mohammad Islam et. al. Oozie: Towards a Scalable Workflow Management System for Hadoop. Proceedings of the 1st ACM SIGMOD Workshop on Scalable Workflow Execution Engines and Technologie, p. 4:1–4:10, 2012. C.L. Philip Chen and Chun-Yang Zhang. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. Information Sciences, v.275, p.314-347, 2014. Douglas E. M. de Oliveira et. al. Avaliação da Localidade de Dados Intermediários na Execução Paralela de Workflows BigData. Proceedings of 30th Brazilian Symposium on Databases, p.29-40, 2015. ERAD–SP 2016 16 / 16