Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Um Método para Paralelização Automática de Workflows Intensivos em Dados

Um Método para Paralelização Automática de Workflows Intensivos em Dados

A análise de dados em grande escala é um dos grandes desafios computacionais atuais e está presente não somente em áreas da ciência moderna mas também nos setores público e industrial. Nesses cenários, o processamento dos dados geralmente é modelado como um conjunto de atividades interligadas por meio de fluxos de dados – os workflows. Devido ao seu alto custo computacional, diversas estratégias já foram propostas para melhorar a eficiência da execução dos workflows intensivos em dados, tais como o agrupamento de atividades para a minimizar a transferência de dados e a paralelização do processamento, de modo que duas ou mais atividades sejam executadas ao mesmo tempo em diferentes recursos computacionais. O paralelismo nesse caso é definido pela estrutura descrita em seu modelo de composição de atividades. Em geral, os Sistema de Gerenciamento de Workflows, responsáveis pela coordenação e execução dessas atividades em um ambiente distribuído, desconhecem o tipo de processamento a ser realizado e por isso não são capazes de explorar automaticamente estratégias para execução paralela. As atividades paralelizáveis são definidas pelo usuário em tempo de projeto e criar uma estrutura que faça uso eficiente de um ambiente distribuído não é uma tarefa trivial. Este trabalho tem como objetivo prover execuções mais eficientes de workflows intensivos em dados e propõe para isso um método para a paralelização automática dessas aplicações, voltado para usuários não-especialistas em computação de alto desempenho. Este método define nove anotações semânticas para caracterizar a forma como os dados são acessados e consumidos pelas atividades e, assim, levando em conta os recursos computacionais disponíveis para a execução, criar automaticamente estratégias que explorem o paralelismo de dados. O método proposto gera réplicas das atividades anotadas e define também um esquema de indexação e distribuição dos dados do workflow que possibilita maior acesso paralelo. Avaliou-se sua eficiência em dois modelos de workflows com dados reais, executados na plataforma de nuvem da Amazon. Usou-se um SGBD relacional (PostgreSQL) e um NoSQL (MongoDB) para o gerenciamento de até 20,5 milhões de objetos de dados em 21 cenários com diferentes configurações de particionamento e replicação de dados. Os resultados obtidos mostraram que a paralelização da execução das atividades promovida pelo método reduziu o tempo de execução do workflow em até 66,6% sem aumentar o seu custo monetário.

Defesa de mestrado

583e920a7e9238a1c21e923025f8f641?s=128

Elaine Naomi

August 22, 2017
Tweet

Transcript

  1. Um M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica

    de Workflows Intensivos em Dados Elaine Naomi Watanabe elainew@ime.usp.br Orientadora: Profa. Dra. Kelly Rosa Braghetto Defesa de Mestrado Departamento de Ciˆ encia da Computac ¸ ˜ ao Instituto de Matem´ atica e Estat´ ıstica Universidade de S˜ ao Paulo 22 de maio de 2017 Este trabalho foi financiado por uma bolsa da CAPES
  2. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Motivac ¸ ˜ ao Problema Objetivos Proposta Validac ¸ ˜ ao Roteiro 1 Introduc ¸ ˜ ao Motivac ¸ ˜ ao Problema Objetivos Proposta Validac ¸ ˜ ao 2 Fundamentac ¸ ˜ ao Te´ orica 3 Trabalhos Relacionados 4 M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows 5 Avaliac ¸ ˜ ao do M´ etodo Proposto 6 Considerac ¸ ˜ oes Finais Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 2 / 51
  3. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Motivac ¸ ˜ ao Problema Objetivos Proposta Validac ¸ ˜ ao Motivac ¸ ˜ ao An´ alise de GRANDES CONJUNTOS DE DADOS: Na ciˆ encia, ind´ ustria, administrac ¸ ˜ ao p´ ublica, etc Desafio computacional Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 3 / 51
  4. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Motivac ¸ ˜ ao Problema Objetivos Proposta Validac ¸ ˜ ao Motivac ¸ ˜ ao Fluxos de atividades conectadas para an´ alise de dados Processos como filtragens, transformac ¸ ˜ oes, agregac ¸ ˜ oes Foco em: WORKFLOWS INTENSIVOS EM DADOS Dependˆ encia de uma Plataforma de Alto Desempenho Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 4 / 51
  5. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Motivac ¸ ˜ ao Problema Objetivos Proposta Validac ¸ ˜ ao Soluc ¸ ˜ oes Existentes para Execuc ¸ ˜ ao de Workflows Modelos de Programac ¸ ˜ ao Orientada a Fluxo de Dados Exige conhecimento de computac ¸ ˜ ao de alto desempenho Ex.: MapReduce, Google Dataflow Sistemas de Gerenciamento de Workflows (SGWfs) Uso de modelo abstrato para descric ¸ ˜ ao Para usu´ arios n˜ ao-especialistas em computac ¸ ˜ ao paralela e distribu´ ıda Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 5 / 51
  6. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Motivac ¸ ˜ ao Problema Objetivos Proposta Validac ¸ ˜ ao Como melhorar a eficiˆ encia da execuc ¸ ˜ ao de Workflows Intensivos em Dados? Agrupamento de atividades para a reduc ¸ ˜ ao da transferˆ encia de dados [Singh et al., 2008] Uso de informac ¸ ˜ oes de localidade dos dados no escalonamento [de Oliveira et al., 2015] Modelos para paralelizac ¸ ˜ ao da execuc ¸ ˜ ao [Pautasso and Alonso, 2006] Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 6 / 51
  7. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Motivac ¸ ˜ ao Problema Objetivos Proposta Validac ¸ ˜ ao Problema Em geral, estrutura do workflow define o paralelismo SGWf desconhece o tipo de processamento do workflow Execuc ¸ ˜ ao paralela autom´ atica limitada Usu´ ario define a estrutura do workflow (fluxo dos dados) Estrutura deve fazer uso eficiente do ambiente distribu´ ıdo Tarefa n˜ ao-trivial Como aumentar a paralelizac ¸ ˜ ao de workflows intensivos em dados para reduzir seu tempo de execuc ¸ ˜ ao? Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 7 / 51
  8. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Motivac ¸ ˜ ao Problema Objetivos Proposta Validac ¸ ˜ ao Objetivos Paralelizar de forma autom´ atica as atividades de um workflow, sem a necessidade de um especialista em computac ¸ ˜ ao paralela e distribu´ ıda. Melhorar a eficiˆ encia de sua execuc ¸ ˜ ao, aumentando o processamento distribu´ ıdo e o acesso paralelo aos dados manipulados. Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 8 / 51
  9. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Motivac ¸ ˜ ao Problema Objetivos Proposta Validac ¸ ˜ ao M´ etodo Proposto Uso de anotac ¸ ˜ oes para caracterizar: A semˆ antica do processamento realizado por atividade A forma de apresentac ¸ ˜ ao dos dados ` as atividades O banco de dados utilizado Criac ¸ ˜ ao autom´ atica de estrat´ egias para paralelizac ¸ ˜ ao: Uso das anotac ¸ ˜ oes para caracterizac ¸ ˜ ao do workflow Uso das informac ¸ ˜ oes sobre o ambiente de execuc ¸ ˜ ao Reestruturac ¸ ˜ ao do workflow Modificac ¸ ˜ oes do banco de dados Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 9 / 51
  10. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Motivac ¸ ˜ ao Problema Objetivos Proposta Validac ¸ ˜ ao Validac ¸ ˜ ao Prot´ otipo implementado: Ferramenta Sciwonc-Dataflow SGWf: Pegasus SGBDs avaliados: PostgreSQL (Relacional) e MongoDB (NoSQL) Plataforma de execuc ¸ ˜ ao: Nuvem da AWS Execuc ¸ ˜ ao: 21 cen´ arios centralizados ou distribu´ ıdos Comparac ¸ ˜ ao de workflows com e sem o uso do m´ etodo Avaliac ¸ ˜ ao: Tempo de execuc ¸ ˜ ao e custo monet´ ario Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 10 / 51
  11. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Caracterizac ¸ ˜ ao e Execuc ¸ ˜ ao de Workflows Sistemas Gerenciadores de Bancos de Dados Roteiro 1 Introduc ¸ ˜ ao 2 Fundamentac ¸ ˜ ao Te´ orica Caracterizac ¸ ˜ ao e Execuc ¸ ˜ ao de Workflows Sistemas Gerenciadores de Bancos de Dados 3 Trabalhos Relacionados 4 M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows 5 Avaliac ¸ ˜ ao do M´ etodo Proposto 6 Considerac ¸ ˜ oes Finais Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 11 / 51
  12. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Caracterizac ¸ ˜ ao e Execuc ¸ ˜ ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac ¸ ˜ ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 12 / 51
  13. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Caracterizac ¸ ˜ ao e Execuc ¸ ˜ ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac ¸ ˜ ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 12 / 51
  14. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Caracterizac ¸ ˜ ao e Execuc ¸ ˜ ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac ¸ ˜ ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 12 / 51
  15. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Caracterizac ¸ ˜ ao e Execuc ¸ ˜ ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac ¸ ˜ ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 12 / 51
  16. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Caracterizac ¸ ˜ ao e Execuc ¸ ˜ ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac ¸ ˜ ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 12 / 51
  17. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Caracterizac ¸ ˜ ao e Execuc ¸ ˜ ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac ¸ ˜ ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 12 / 51
  18. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Caracterizac ¸ ˜ ao e Execuc ¸ ˜ ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac ¸ ˜ ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 12 / 51
  19. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Caracterizac ¸ ˜ ao e Execuc ¸ ˜ ao de Workflows Sistemas Gerenciadores de Bancos de Dados Sistema de Gerenciamento de Workflows Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 13 / 51
  20. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Caracterizac ¸ ˜ ao e Execuc ¸ ˜ ao de Workflows Sistemas Gerenciadores de Bancos de Dados Sistemas Gerenciadores de Bancos de Dados (SGBDs) SGBDs Relacionais Soluc ¸ ˜ ao bem sucedida para gerenciamento de dados Escalabilidade vertical Sistemas NoSQL Escalabilidade horizontal Replicac ¸ ˜ ao de dados Fator de replicac ¸ ˜ ao Qu´ orum de gravac ¸ ˜ ao Preferˆ encia de leitura Fragmentac ¸ ˜ ao de dados Distribuic ¸ ˜ ao baseada em Hashing ou Intervalo Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 14 / 51
  21. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Roteiro 1 Introduc ¸ ˜ ao 2 Fundamentac ¸ ˜ ao Te´ orica 3 Trabalhos Relacionados 4 M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows 5 Avaliac ¸ ˜ ao do M´ etodo Proposto 6 Considerac ¸ ˜ oes Finais Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 15 / 51
  22. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Trabalhos Relacionados Modelo de Programac ¸ ˜ ao Distribu´ ıda Ex. Hadoop, Oozie Paralelizac ¸ ˜ ao de Atividades Gerenciamento de Dados Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 16 / 51
  23. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Trabalhos Relacionados Modelo de Programac ¸ ˜ ao Distribu´ ıda Paralelizac ¸ ˜ ao de Atividades ´ Algebra para Workflows Cient´ ıficos (SciWfA) [Ogasawara et al., 2011] Operador foreach do Swift/T [Wilde et al., 2011, Wozniak et al., 2013] An´ alise do grafo que descreve o modelo do workflow [Deelman et al., 2015] Gerenciamento de Dados Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 16 / 51
  24. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Trabalhos Relacionados Modelo de Programac ¸ ˜ ao Distribu´ ıda Paralelizac ¸ ˜ ao de Atividades Gerenciamento de Dados Desempenho e custo monet´ ario de sist. de arquivos distribu´ ıdos x sist. de objetos na nuvem [Juve et al., 2012] PostgreSQL x Cassandra para dados de proveniˆ encia [Ferreira et al., 2014] Comparac ¸ ˜ ao do uso do PostgreSQL x HDFS para armazenamento de grandes volumes de dados [de Oliveira et al., 2014] Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 16 / 51
  25. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Roteiro 1 Introduc ¸ ˜ ao 2 Fundamentac ¸ ˜ ao Te´ orica 3 Trabalhos Relacionados 4 M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow 5 Avaliac ¸ ˜ ao do M´ etodo Proposto 6 Considerac ¸ ˜ oes Finais Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 17 / 51
  26. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow ANOTAC ¸ ˜ OES PROPOSTAS Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 18 / 51
  27. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Para melhor compreens˜ ao das anotac ¸ ˜ oes... Modelo de workflow fict´ ıcio PlayFlow: An´ alise de um log de execuc ¸ ˜ oes de m´ usicas de um usu´ ario Colec ¸ ˜ ao LogPlaylist: (Hor´ ario de In´ ıcio, Hor´ ario de T´ ermino, Usu´ ario, M´ usica, Artista, Durac ¸ ˜ ao da M´ usica) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 19 / 51
  28. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Colec ¸ ˜ oes de Entrada e de Sa´ ıda CE (NomeColec ¸ ˜ ao, DadosConex˜ ao [, Esquema] [, Particionado] [, Preferˆ enciaLeitura] ) CS (NomeColec ¸ ˜ ao, DadosConex˜ ao [, Esquema][, Consistˆ enciaEscrita] ) Atividade A: Calcula o total de objetos da colec ¸ ˜ ao LogPlaylist Salva esse total na colec ¸ ˜ ao Status Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 20 / 51
  29. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Selec ¸ ˜ ao de Atributos SA (ListaAtributos) Atividade A: Seleciona apenas os atributos Hor´ ario de In´ ıcio e Hor´ ario de T´ ermino dos objetos da colec ¸ ˜ ao LogPlaylist Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 21 / 51
  30. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Ordenac ¸ ˜ ao dos Objetos OO(ListaAtributos) Atividade B: Identifica as 5 m´ usicas mais longas de LogPlaylist Ordena os objetos pelo atributo Durac ¸ ˜ ao da M´ usica Salva a lista na colec ¸ ˜ ao Top5M´ usicasMaisLongas Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 22 / 51
  31. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Processamento por Objeto de dados PO Atividade C: Para cada objeto, verifica se a m´ usica foi executada at´ e o final ou apenas parcialmente Atividade D: Verifica qual ´ e o perfil de execuc ¸ ˜ ao predominante a partir dos dados da atividade C Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 23 / 51
  32. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Processamento de Grupos de Objetos PG (ListaAtributosAgrupadores) Atividade E: Conta o total de m´ usicas por artista Atividade F: Identifica o artista preferido Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 24 / 51
  33. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Processamento de Janelas de Tempo PJT(AtributoSeparador, TamanhoJanela, UnidadeTempo) Atividade G: Conta o total de execuc ¸ ˜ oes por dia Atividade H: Calcula a m´ edia de execuc ¸ ˜ oes por dia em um mˆ es Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 25 / 51
  34. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Processamento por Valor Distinto PVD(Atributo) Atividade I: Identifica a lista de m´ usicas ´ unicas de LogPlaylist Atividade J: Conta o total de m´ usicas ´ unicas Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 26 / 51
  35. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Transformac ¸ ˜ oes Baseadas nas Anotac ¸ ˜ oes REESTRUTURAC ¸ ˜ AO DO WORKFLOW Criac ¸ ˜ ao de r´ eplicas de uma atividade anotada como Processamento por: Objetos (PO) Grupos (PG) Janelas de Tempo (PJT) Associac ¸ ˜ ao de subconjuntos de objetos/grupos/janelas a cada r´ eplica Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 27 / 51
  36. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Transformac ¸ ˜ oes Baseadas nas Anotac ¸ ˜ oes Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 27 / 51
  37. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Transformac ¸ ˜ oes Baseadas nas Anotac ¸ ˜ oes Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 27 / 51
  38. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Transformac ¸ ˜ oes Baseadas nas Anotac ¸ ˜ oes Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 27 / 51
  39. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Transformac ¸ ˜ oes Baseadas nas Anotac ¸ ˜ oes MODIFICAC ¸ ˜ OES NO BANCO DE DADOS Criac ¸ ˜ ao de ´ ındices de suporte para as anotac ¸ ˜ oes: OO (ListaAtributos) PG (ListaAtributosAgrupadores) PJT (AtributoSeparador, TamanhoJanela, UnidadeTempo) PDV (Atributo) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 27 / 51
  40. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Transformac ¸ ˜ oes Baseadas nas Anotac ¸ ˜ oes MODIFICAC ¸ ˜ OES NO BANCO DE DADOS Definic ¸ ˜ ao do tipo de particionamento de colec ¸ ˜ oes intermedi´ arias: An´ alise de dependˆ encia entre atividades Anotac ¸ ˜ oes PO, PG e PJT Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 27 / 51
  41. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Anotac ¸ ˜ oes sobre o Workflow Transformac ¸ ˜ oes baseadas na Semˆ antica do Workflow Transformac ¸ ˜ oes Baseadas nas Anotac ¸ ˜ oes Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 27 / 51
  42. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Roteiro 1 Introduc ¸ ˜ ao 2 Fundamentac ¸ ˜ ao Te´ orica 3 Trabalhos Relacionados 4 M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows 5 Avaliac ¸ ˜ ao do M´ etodo Proposto Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia 6 Considerac ¸ ˜ oes Finais Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 28 / 51
  43. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 29 / 51
  44. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Experimento 1: Workflow para An´ alise de Logs Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 30 / 51
  45. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia DataSet Escolhido: Registros de eventos relativos ` a execuc ¸ ˜ ao de tarefas em um cluster do Google [Reiss et al., 2011] Modelo de Workflow Implementado: Avaliac ¸ ˜ ao do perfil das tarefas executadas por tipo de evento Categorizac ¸ ˜ ao de tarefa como intensivas em CPU, em mem´ oria ou balanceadas para cada tipo de evento. Colec ¸ ˜ ao de entrada: + 2,8 milh˜ oes de objetos Total de objetos manipulados: + 3,5 milh˜ oes de objetos. Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 31 / 51
  46. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 32 / 51
  47. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 32 / 51
  48. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 33 / 51
  49. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 33 / 51
  50. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 33 / 51
  51. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 33 / 51
  52. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 33 / 51
  53. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 33 / 51
  54. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Custo Monet´ ario (d´ olares) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 34 / 51
  55. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Atividade F - PG - Tempo de Execuc ¸ ˜ ao (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 35 / 51
  56. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Atividade G - PO - Tempo de Execuc ¸ ˜ ao (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 36 / 51
  57. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Atividade H - PG - Tempo de Execuc ¸ ˜ ao (segundos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 37 / 51
  58. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Experimento 2: Workflow para An´ alise de Edic ¸ ˜ oes da Wikip´ edia Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 38 / 51
  59. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia DataSet Escolhido: Registros de edic ¸ ˜ oes de p´ aginas da Wikip´ edia Modelo de Workflow Implementado: Identificac ¸ ˜ ao do usu´ ario com o maior n´ umero de edic ¸ ˜ oes por sess˜ ao Workflow baseado no pipeline TopWikipediaSessions do Google Cloud Dataflow. Uma sess˜ ao ´ e um conjunto de edic ¸ ˜ oes com intervalos inferiores a uma hora Colec ¸ ˜ ao de entrada: + 19,4 milh˜ oes de objetos (edic ¸ ˜ oes) Total de objetos manipulados: + 20,4 milh˜ oes de objetos Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 39 / 51
  60. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 40 / 51
  61. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 40 / 51
  62. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 41 / 51
  63. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Custo monet´ ario (d´ olares) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 42 / 51
  64. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Atividade C - PG - Tempo de Execuc ¸ ˜ ao (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 43 / 51
  65. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Ambiente Experimental Experimento 1: Workflow para An´ alise de Logs Experimento 2: Workflow para An´ alise da Wikip´ edia Atividade D - PJT - Tempo de Execuc ¸ ˜ ao (segundos) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 44 / 51
  66. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Resumo Principais Contribuic ¸ ˜ oes Pesquisas Futuras Roteiro 1 Introduc ¸ ˜ ao 2 Fundamentac ¸ ˜ ao Te´ orica 3 Trabalhos Relacionados 4 M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows 5 Avaliac ¸ ˜ ao do M´ etodo Proposto 6 Considerac ¸ ˜ oes Finais Resumo Principais Contribuic ¸ ˜ oes Pesquisas Futuras Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 45 / 51
  67. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Resumo Principais Contribuic ¸ ˜ oes Pesquisas Futuras Resumo Objetivo: Execuc ¸ ˜ ao eficiente de workflows intensivos em dados Soluc ¸ ˜ ao mais utilizada: Paralelismo de dados para reduc ¸ ˜ ao do makespan Limitac ¸ ˜ ao: Exigˆ encia de um usu´ ario especialista em computac ¸ ˜ ao paralela e distribu´ ıda Proposta: Um m´ etodo que utiliza a semˆ antica do processamento para paralelizac ¸ ˜ ao autom´ atica Resultados: Reduc ¸ ˜ ao de at´ e 66,6% do makespan sem aumentar custo monet´ ario Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 46 / 51
  68. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Resumo Principais Contribuic ¸ ˜ oes Pesquisas Futuras Aspectos Negativos Uso do qu´ orum majorit´ ario para escrita Balanceamento de carga do MongoDB Desempenho da estrat´ egia aplicada ` a anotac ¸ ˜ ao PJT Aspectos Positivos Leitura e escrita de c´ opias prim´ arias: consistˆ encia Consistˆ encia de escrita em c´ opias prim´ arias: sem impacto no custo monet´ ario Modelos de workflows avaliados: viabilidade das anotac ¸ ˜ oes PO e PG para paralelizac ¸ ˜ ao Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 47 / 51
  69. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Resumo Principais Contribuic ¸ ˜ oes Pesquisas Futuras Principais Contribuic ¸ ˜ oes Proposta de nove anotac ¸ ˜ oes para caracterizac ¸ ˜ ao de modelos de workflows Um m´ etodo para execuc ¸ ˜ ao mais eficiente de workflows por meio da paralelizac ¸ ˜ ao autom´ atica baseada na semˆ antica, n˜ ao depende de conhecimento espec´ ıfico sobre programac ¸ ˜ ao paralela. Implementac ¸ ˜ ao do m´ etodo proposto como uma biblioteca em Python Avaliac ¸ ˜ ao do m´ etodo por meio de dois workflows reais em 21 cen´ arios e demonstrac ¸ ˜ ao de sua eficiˆ encia em cen´ arios distribu´ ıdos Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 48 / 51
  70. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Resumo Principais Contribuic ¸ ˜ oes Pesquisas Futuras Publicac ¸ ˜ ao dos resultados parciais nos Anais do XXXI Simp´ osio Brasileiro de Banco de Dados (SBBD 2016) Apresentac ¸ ˜ ao do m´ etodo na VII Escola Regional de Alto Desempenho de SP (ERAD-SP 2016) Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 49 / 51
  71. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Resumo Principais Contribuic ¸ ˜ oes Pesquisas Futuras Pesquisas Futuras Avaliac ¸ ˜ ao de novos workflows e sistemas NoSQL Comparac ¸ ˜ ao entre sistema NoSQL e um relacional escal´ avel (NewSQL) Experimentos para identificar a relac ¸ ˜ ao entre o n´ umero de partic ¸ ˜ oes do banco de dados em func ¸ ˜ ao do n´ umero de n´ os usados para a execuc ¸ ˜ ao Avaliac ¸ ˜ ao da execuc ¸ ˜ ao em ambientes heterogˆ eneos Heur´ ısticas para detecc ¸ ˜ ao autom´ atica da semˆ antica de uma atividade Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 50 / 51
  72. Introduc ¸ ˜ ao Fundamentac ¸ ˜ ao Te´ orica

    Trabalhos Relacionados M´ etodo para Paralelizac ¸ ˜ ao Autom´ atica de Workflows Avaliac ¸ ˜ ao do M´ etodo Proposto Considerac ¸ ˜ oes Finais Resumo Principais Contribuic ¸ ˜ oes Pesquisas Futuras Muito obrigada! elainew@ime.usp.br Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 51 / 51
  73. Implementac ¸ ˜ ao do M´ etodo I Elaine Naomi

    Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 1 / 4
  74. Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica

    de Workflows Intensivos em Dados 2 / 4
  75. de Oliveira, D. E. M., Boeres, C., Neto, A. F.,

    and Porto, F. (2015). Avaliac ¸ ˜ ao da localidade de dados intermedi´ arios na execuc ¸ ˜ ao paralela de workflows BigData. In Proceedings of 30th Brazilian Symposium on Databases, SBBD 2015, pages 29–40. de Oliveira, D. E. M., Boeres, C., and Porto, F. (2014). An´ alise de estrat´ egias de acesso a grandes volumes de dados. In Proceedings of 29th Brazilian Symposium on Databases, pages 27–36. Deelman, E., Vahi, K., Juve, G., Rynge, M., Callaghan, S., Maechling, P. J., Mayani, R., Chen, W., Ferreira da Silva, R., Livny, M., and Wenger, K. (2015). Pegasus: a workflow management system for science automation. Future Generation Computer Systems, 46:17–35. Ferreira, G. R., Jr, C. F., and de Oliveira, D. (2014). Uso de SGBDs NoSQL na gerˆ encia da proveniˆ encia distribu´ ıda em workflows cient´ ıficos. In Proceedings of the 29th Brazilian Symposium on Databases, SBBD 2014, pages 187–196. Juve, G., Deelman, E., Berriman, G. B., Berman, B. P., and Maechling, P. (2012). An evaluation of the cost and performance of scientific workflows on Amazon EC2. Journal of Grid Computing, 10(1):5–21. Ogasawara, E., Oliveira, D., Valduriez, P., Dias, J., Porto, F., and Mattoso, M. (2011). An algebraic approach for data-centric scientific workflows. Proceedings of the VLDB Endowment, 4(12):1328–1339. Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 3 / 4
  76. Pautasso, C. and Alonso, G. (2006). Parallel computing patterns for

    grid workflows. In Proceedings of the 6th Workshop on Workflows in Support of Large-Scale Science, WORKS ’06, pages 1–10. Reiss, C., Wilkes, J., and Hellerstein, J. L. (2011). Google cluster-usage traces: format + schema. Technical report, Google Inc., Mountain View, CA, USA. Revised 2014-11-17 for version 2.1. Posted at https://github.com/google/cluster-data. Singh, G., Su, M.-H., Vahi, K., Deelman, E., Berriman, B., Good, J., Katz, D. S., and Mehta, G. (2008). Workflow task clustering for best effort systems with pegasus. In Proceedings of the 15th ACM Mardi Gras Conference, MG ’08, pages 9:1–9:8. Wilde, M., Hategan, M., Wozniak, J. M., Clifford, B., Katz, D. S., and Foster, I. (2011). Swift: A language for distributed parallel scripting. Parallel Computing, 37(9):633 – 652. Wozniak, J. M., Armstrong, T. G., Wilde, M., Katz, D. S., Lusk, E., and Foster, I. T. (2013). Swift/t: Large-scale application composition via distributed-memory dataflow processing. In The 13th IEEE/ACM International Symposium on Cluster, Cloud, and Grid Computing, pages 95–102. Elaine Naomi Watanabe (IME-USP) Paralelizac ¸ ˜ ao Autom´ atica de Workflows Intensivos em Dados 4 / 4