Slide 1

Slide 1 text

Departamento de Ciência da Computação Instituto de Matemática e Estatística Universidade de São Paulo Elaine Watanabe [email protected] Kelly Braghetto [email protected] Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Intensivos em Dados

Slide 2

Slide 2 text

Motivação Dilúvio de Dados Áreas científica e de negócios Workflows Intensivos em Dados Ambientes distribuídos NoSQL Sistemas de Gerenciamento de Workflows Automação da execução Atividades são caixas-pretas

Slide 3

Slide 3 text

Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador Nós de Execução Repositório de Dados

Slide 4

Slide 4 text

Nem sempre é um especialista em computação paralela e distribuída USUÁRIO Define o paralelismo na descrição do workflow NoSQL

Slide 5

Slide 5 text

Objetivos Caracterizar semanticamente o tipo de processamento das atividades do workflow Criar estratégias que ampliem o paralelismo do workflow

Slide 6

Slide 6 text

Método Proposto

Slide 7

Slide 7 text

Adiciona anotações semânticas no modelo do workflow USUÁRIO

Slide 8

Slide 8 text

A B C D E G F PROCESSAMENTO POR OBJETO Indica que a atividade processa cada objeto de dados individualmente

Slide 9

Slide 9 text

A B C D E G F PROCESSAMENTO POR GRUPO DE OBJETOS (L) Indica que a atividade processa os objetos de entrada em grupos definidos pelo(s) atributo(s) agrupador(es) em L

Slide 10

Slide 10 text

A B C D E G F Indica os atributos L dos objetos de entrada serão processados SELEÇÃO DE ATRIBUTOS (L)

Slide 11

Slide 11 text

A B C D E G F Informa que os objetos devem ser ordenados por L ORDENAÇÃO DE OBJETOS (L)

Slide 12

Slide 12 text

Modifica o workflow e o banco de dados conforme as anotações e informações sobre o ambiente SciWonC-Dataflow Toolkit

Slide 13

Slide 13 text

A B C D ... ... G E 2 E 1 E n F 2 F m F 1 PROCESSAMENTO POR OBJETO Criação de n réplicas da atividade, sendo n o total de nós de execução

Slide 14

Slide 14 text

A B C D ... ... G E 2 E 1 E n F 2 F m F 1 PROCESSAMENTO POR GRUPO DE OBJETO (L) Criação de m réplicas, sendo m o mínimo entre o total de grupos e o total de nós de execução

Slide 15

Slide 15 text

ORDENAÇÃO DE OBJETOS (L) Criação de índices para ordenação de dados Repositório de Dados

Slide 16

Slide 16 text

AVALIAÇÃO DO MÉTODO

Slide 17

Slide 17 text

Workflow avaliado ➔ 5,8 milhões de objetos de dados ➔ Identificação dos tipos de eventos em um cluster do Google que consumiram mais memória e CPU Dados disponíveis em: https://git.io/vPG6w

Slide 18

Slide 18 text

A B C D E G F ORDENAÇÃO DE OBJETOS ("id") SELEÇÃO DE ATRIBUTOS ("event type", "memory request", "cpu request") ORDENAÇÃO DE OBJETOS ("id") SELEÇÃO DE ATRIBUTOS ("event type", "ratio cpu memory") PROC. POR GRUPO DE OBJETO ("event type") PROCESSAMENTO POR OBJETO

Slide 19

Slide 19 text

11 cenários avaliados, centralizados e distribuídos Nível de confiança dos resultados: 95%

Slide 20

Slide 20 text

Workf. Nós SGWf SGBD Partições Réplicas W-01 1 Postgres 1 1 W-02 3 W-03* W-04 1 MongoDB 1 1 W-05 3 W-06* W-07 3 MongoDB 1 3 W-08* W-09 9 MongoDB 3 3 W-10* W-11*

Slide 21

Slide 21 text

POSTGRES (1P - 1Rp) MONGODB (1P - 1Rp) MONGODB (3P - 3Rp) MONGODB (1P - 3Rp) CONFIG SERVERS MONGOS ROUTER CONFIG SERVERS MONGOS ROUTER

Slide 22

Slide 22 text

Tempo Total da Execução (em horas) * indica que o workflow foi modificado pelo método proposto MONGODB (3P - 3Rp) MONGODB (1P - 3Rp) POSTGRES (1P - 1Rp) MONGODB (1P - 1Rp)

Slide 23

Slide 23 text

Custo Monetário da Execução (em dólares) * indica que o workflow foi modificado pelo método proposto MONGODB (3P - 3Rp) MONGODB (1P - 3Rp) POSTGRES (1P - 1Rp) MONGODB (1P - 1Rp)

Slide 24

Slide 24 text

Redução de até 88,4% do tempo total de execução e, em cenários com a mesma infraestrutura, redução do custo monetário de até 10,4% Considerações Finais

Slide 25

Slide 25 text

Contribuições ● Método que combina anotações semânticas e informações do ambiente de execução para aumentar, de forma automática, o paralelismo no acesso aos dados na execução de workflows ● Anotações que não dependem de conhecimento de programação paralela e que melhoram o tempo e o custo monetário da execução dos workflows

Slide 26

Slide 26 text

Muito obrigada! Agradecimentos à CAPES e ao NAPSoL-PRP-USP pelo financiamento a esta pesquisa e ao Google pelos créditos concedidos para uso de sua plataforma de nuvem Disponível em: http://git.io/v6sTV