Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Improving Bioinformatic Methods via Enhancing and Scaling Up Workflows

SciTech
March 17, 2016

Improving Bioinformatic Methods via Enhancing and Scaling Up Workflows

Workflows have proved to be an excellent medium for representing scientific methods in general and especially also in the areas life sciences and chemistry. In the last 20 years quite a few mature workflow engines and workflow editors with diverse foci and strength have been developed to support communities in managing workflows. More recent trends for enhancements of workflow systems address the usability of workflows and optimizations of their efficiency. The talk will go into detail for three methods and concepts concerned with these topics. The first topic consists of meta-workflows for quantum-chemical applications applied in the project MoSGrid (Molecular Simulation Grid) and its science gateway developed on top of WS-PGRADE. The second one addresses scaling up bioinformatic workflows with dynamic job expansion and our case study using Galaxy and Makeflow. The talk concludes with a model for balancing thread-level and task-level parallelism for data-intensive workloads on clusters and clouds on the example of aligners for next-generation sequencing data.

SciTech

March 17, 2016
Tweet

More Decks by SciTech

Other Decks in Technology

Transcript

  1.   Sandra  Gesing   Center  for  Research  Compu6ng   [email protected]

        16  March  2016   Improving  Bioinforma6c  Methods   via  Enhancing  and  Scaling  Up   Workflows    
  2. University  of  Notre  Dame   Sandra  Gesing      

                                               2   hKp://chartsbin.com/view/1124   hKp://chartsbin.com/view/1124   •   In  the  middle  of  nowhere  of  northern  Indiana      (1.5  h  from  Chicago)   •   4  undergraduate  colleges     •   ~35  research  ins6tutes    and  centers   •   ~12,000  students  
  3. University  of  Notre  Dame   Sandra  Gesing      

                                               3  
  4. Center  for  Research  Compu6ng   Sandra  Gesing      

                                         4   •   SoVware  development  and  profiling   •   Cyberinfrastructure/science  gateway  development   •   Geographical  Informa6on  Systems   •   Visualiza6on  Support   •   Computa6onal  Scien6st  support   •   Collabora6ve  research/    grant  development         •   System  administra6on/    design  and  acquisi6on   •   ~40  researchers,      research  programmers,      HPC  specialists   CRC  and  OIT  building   hKp://crc.nd.edu  
  5. Center  for  Research  Compu6ng   Sandra  Gesing      

                                               5   •   Computa6onal  resources:  25,000  cores+   •   Storage  resources:  3  PB   •   Visualiza6on  systems     •   Systems  for  virtual  hos6ng     •   Prototype  architectures    e.g.,  Docker,  OpenStack   •   Access  and  interface  to   •  XSEDE     •  Open  Science  Grid     •  Blue  Waters       CRC  HPC  Center  (old  Union  Sta6on)  
  6. Bioinforma6cs   Sandra  Gesing            

                                         6   •  Genomics   •  Proteomics   •  Metabolomics   •  Immunomics   •  System  biology   •  Molecular  simula6ons   •  Docking   •  Epidemiology   •  …   Black  Swallowtail  –     larvae  and  buKerfly  
  7. The  Genomics  Boom   Sandra  Gesing        

                                             7   February  16,  2001    biotech  company  Celera     February  15,  2001   The  Human  Genome  Project    
  8. The  Genomics  Boom   Sandra  Gesing        

                                             8   Craig  Venter  (leV)  and  Francis  Collins  (right)  
  9. Big  Data   Sandra  Gesing          

                                                           9   •   Explosion  in  the  quan6ty,  variety  and  complexity  of    data     •   Ques6ons  can  be  answered  impossible  to  even  ask    about  10  years  ago   •   Costs  far  reduced  (e.g.,  Human  Genome  project,  15    years,  ~$2  billion;  today  ~3  days,  $1000)  
  10. Big  Data   Sandra  Gesing          

                                                       10   hKp://www.genome.gov/images/content/cost_per_genome_oct2015.jpg  
  11. Analysis  of  data   Sandra  Gesing        

                                                         11   12181 acatttctac caacagtgga tgaggttgtt ggtctatgtt ctcaccaaat ttggtgttgt 12241 cagtctttta aattttaacc tttagagaag agtcatacag tcaatagcct tttttagctt 12301 gaccatccta atagatacac agtggtgtct cactgtgatt ttaatttgca ttttcctgct 12361 gactaattat gttgagcttg ttaccattta gacaacttca ttagagaagt gtctaatatt 12421 taggtgactt gcctgttttt ttttaattgg gatcttaatt tttttaaatt attgatttgt 12481 aggagctatt tatatattct ggatacaagt tctttatcag atacacagtt tgtgactatt 12541 ttcttataag tctgtggttt ttatattaat gtttttattg atgactgttt tttacaattg 12601 tggttaagta tacatgacat aaaacggatt atcttaacca ttttaaaatg taaaattcga 12661 tggcattaag tacatccaca atattgtgca actatcacca ctatcatact ccaaaagggc 12721 atccaatacc cattaagctg tcactcccca atctcccatt ttcccacccc tgacaatcaa 12781 taacccattt tctgtctcta tggatttgcc tgttctggat attcatatta atagaatcaa Slide  copied  from:  Stuart  Owen  „Workflows  with  Taverna“   A  sequence  of  connected  steps  in  a  defined  order     based  on  their  control  and  data  dependencies  
  12. Analysis  of  data   Sandra  Gesing        

                                                         12   12181 acatttctac caacagtgga tgaggttgtt ggtctatgtt ctcaccaaat ttggtgttgt 12241 cagtctttta aattttaacc tttagagaag agtcatacag tcaatagcct tttttagctt 12301 gaccatccta atagatacac agtggtgtct cactgtgatt ttaatttgca ttttcctgct 12361 gactaattat gttgagcttg ttaccattta gacaacttca ttagagaagt gtctaatatt 12421 taggtgactt gcctgttttt ttttaattgg gatcttaatt tttttaaatt attgatttgt 12481 aggagctatt tatatattct ggatacaagt tctttatcag atacacagtt tgtgactatt 12541 ttcttataag tctgtggttt ttatattaat gtttttattg atgactgttt tttacaattg 12601 tggttaagta tacatgacat aaaacggatt atcttaacca ttttaaaatg taaaattcga 12661 tggcattaag tacatccaca atattgtgca actatcacca ctatcatact ccaaaagggc 12721 atccaatacc cattaagctg tcactcccca atctcccatt ttcccacccc tgacaatcaa 12781 taacccattt tctgtctcta tggatttgcc tgttctggat attcatatta atagaatcaa Slide  copied  from:  Stuart  Owen  „Workflows  with  Taverna“   A  sequence  of  connected  steps  in  a  defined  order     based  on  their  control  and  data  dependencies   Workflows!  
  13. Workflows   Sandra  Gesing            

                                     13   •   Different  workflow  concepts   •   Different  workflow  languages   •   Different  workflow  constructs         Taverna  
  14. Workflow  Editors   Sandra  Gesing          

                                       14   •   Different  technologies  (workbenches,  web-­‐based)     •   Different  look-­‐and-­‐feel    
  15. State  of  the  Art       Sandra  Gesing  

                                                 15   Data  and  compute-­‐   intensive  problems   High-­‐speed  networks   Users  generally  not   IT  specialists   Tools  and  workflow   engines   Web-­‐based     agile  frameworks   Distributed  data  and     compu6ng  infrastructures  
  16. Challenge  for  Developers     Sandra  Gesing      

                                           16   Data  and  compute-­‐   intensive  problems   High-­‐speed  networks   Tools  and  workflow   engines   Web-­‐based     agile  frameworks   Distributed  data  and     compu6ng  infrastructures   Users  generally  not   IT  specialists   Need  for  intui6ve  and  efficient  workflows!  
  17. Challenge  for  Developers     Sandra  Gesing      

                                           17   Data  and  compute-­‐   intensive  problems   High-­‐speed  networks   Tools  and  workflow   engines   Web-­‐based     agile  frameworks   Distributed  data  and     compu6ng  infrastructures   Users  generally  not   IT  specialists  
  18. Challenge  for  Developers     Sandra  Gesing      

                                           18  
  19. Usability   Sandra  Gesing            

                                     19       “AVer  all,  usability  really  just  means  that  making  sure   that  something  works  well:  that  a  person  …  can  use  the   thing  -­‐  whether  it's  a  Web  site,  a  fighter  jet,  or  a   revolving  door  -­‐  for  its  intended  purpose  without  geung   hopelessly  frustrated.”     (Steve  Krug  in  “Don't  make  me     think!:  A  Common  Sense  Approach   to  Web  Usability”,  2005)  
  20. Usability   Sandra  Gesing            

                                     20   ...  and  users  should  get  more  features  easily...  
  21. Workflow  Enhancements   Sandra  Gesing          

                                       21   •  Logical  level:  Meta-­‐workflows   Herres-­‐Pawlis,  S.,  Hoffmann,  A.,  Rösener,  T.,  Krüger,  J.,  Grunzke,  R.,  and  Gesing,  S.  “Mul6-­‐layer  Meta-­‐ metaworkflows  for  the  Evalua6on  of  Solvent  and  Dispersion  Effects  in  Transi6on  Metal  Systems  Using  the   MoSGrid  Science  Gateways”Science  Gateways  (IWSG),  2015  7th  Interna6onal  Workshop  on,  pp.47-­‐52,  3-­‐5  June   2015,  IEEE  Xplore,  doi:  10.1109/IWSG.2015.13     •  System  level:  Combina6on  of  strengths  of  workflow   systems   Hazekamp,  N.,  Sarro,  J.,  Choudhury,  O.,  Gesing,  S.,  ScoK  Emrich  and  Thain,  D.  “Scaling  Up  Bioinforma6cs   Workflows  with  Dynamic  Job  Expansion:  A  Case  Study  Using  Galaxy  and  Makeflow”,  e-­‐Science  (e-­‐Science),  2015   IEEE  11th  Interna6onal  Conference  on,  pp.332-­‐341,  Aug.  31  2015-­‐Sept.  4  2015   •  Predic6on:  Model  for  op6miza6on  of  tasks  and   threads   Choudhury,  O.,  Rajan,  D.,  Hazekamp,  N.,  Gesing,  S.,  Thain,  D.,  and  Emrich,  S.  “Balancing  Thread-­‐level  and  Task-­‐ level  Parallelism  for  Data-­‐Intensive  Workloads  on  Clusters  and  Clouds”,  Cluster  Compu6ng  (CLUSTER),  2015  IEEE   Interna6onal  Conference  on,  pp.390-­‐393,  8-­‐11  Sept.  2015,  doi:10.1109/CLUSTER.2015.60    
  22. Molecular  Simula6ons   Sandra  Gesing          

                                                                                       22   •   Predic6on  and  analysis  of  molecular  structures   •   Numerous  applica6ons,  e.g.     •   Materials  science   •   Drug  design         ligands   target   docking   ?  
  23. Molecular  Simula6ons   ligands   target   docking   binding

     energy   scoring  func6ons   binding   pocket   •   Predic6on  and  analysis  of  molecular  structure   •   Numerous  applica6ons,  e.g.     •   Materials  science   •   Drug  design       Sandra  Gesing                                                                                              23  
  24. MoSGrid  Science  Gateway   Molecular  Simula6on  Grid   •   

     Science  gateway  integrated  with  underlying    compute  and  data  management  infrastructure       •     Distributed  workflow  management   •     Data  repository   •     Metadata  management   Sandra  Gesing                                                                                              24  
  25. MoSGrid  Science  Gateway   User  Interface   WS-­‐PGRADE   Liferay

      DCI  Resources     Middleware  Layer   UNICORE   XtreemFS   High-­‐Level   Middleware   Service  Layer   gUSE   Sandra  Gesing                                                                                              25  
  26. MoSGrid  Science  Gateway   •  Three  domains  (QC,  MD,  Docking)

      •  Gaussian,  NWCHem,  Gromacs,  CADDSuite,  …   •  Compute  and  data  intensive   •  embarrassingly  parallel,  MPI  and  GPUs   •  Shared  workflows,  metaworkflows,  data  and   knowledge   •  Distributed  compu6ng  and  data  management  via   UNICORE  and  XtreemFS   Sandra  Gesing                                                                                              26  
  27. Quantum  Chemistry                

                          Sandra  Gesing                                              27  
  28. Quantum  Chemistry                

                          Sandra  Gesing                                              28  
  29. Molecular  Dynamics                

                          Sandra  Gesing                                              29  
  30. Docking                  

                        Sandra  Gesing                                              30  
  31. Visualiza6on                  

                        Tes6ng  of  ChemDoodle  and  MolCAD                                 web.chemdoodle.com   molcad.de   Sandra  Gesing                                              31  
  32. Science  Case:  Polymerisa6on  catalysts   Sandra  Gesing      

                                           32  
  33. Transla6on  into  Workflows   Sandra  Gesing        

                                         33  
  34. Transla6on  into  Workflows   Sandra  Gesing        

                                         34  
  35. Meta-­‐Workflows   Sandra  Gesing            

                                     35  
  36. Transla6on  into  Meta-­‐Workflows   Sandra  Gesing        

                                         36  
  37. Scaling  Up  Workflows     Sandra  Gesing      

                                                                                           37   #  Machines   #  Cores   Data   ParBBoning   Save  
  38. Scaling  Up  Workflows     Sandra  Gesing      

                                                                                           38   Galaxy  
  39. Scaling  Up  Workflows     Sandra  Gesing      

                                           39   Simple  Workflow  in  Galaxy   Problem:  As  Size  increases  so  does  Time  
  40. Scaling  Up  Workflows     Sandra  Gesing      

                                           40   Workflow  with  Parallelism  added  in  Galaxy   Problem:  Tools  must  be  updated  every   change  in  Parallelism/Relies  on  Scien6st  
  41. Scaling  Up  Workflows     Sandra  Gesing      

                                           41   Workflow  Dynamically  Expanded  behind  Galaxy  
  42. Scaling  Up  Workflows     Sandra  Gesing      

                                           42  
  43. Scaling  Up  Workflows     Sandra  Gesing      

                                           43  
  44. Scaling  Up  Workflows     Sandra  Gesing      

                                           44   Makeflow   •  Task  Structure   INPUTS  :  OUTPUTS    COMMAND     •  Directed  Acyclic  Graph  (DAG)   •  Programma6cally  Generated  
  45. Scaling  Up  Workflows     Sandra  Gesing      

                                           45  
  46. Scaling  Up  Workflows     Sandra  Gesing      

                                           46  
  47. Scaling  Up  Workflows     Sandra  Gesing      

                                           47   Job  Sandbox  –  Log  file  crea6on  for  cleanup  
  48. Scaling  Up  Workflows     Sandra  Gesing      

                                           48  
  49. Scaling  Up  Workflows     Sandra  Gesing      

                                           49   Using  Dynamic  Job  Expansion  we  were  able  to  scale  up  a  workflow     without  requiring  the  huge  amount  of  6me  to  process  it     Found  viable  solu6ons  for:   •  Using  Work  Queue  we  u6lized  100s  of  cores  from  a  Condor  Pool   •  Cleaning  Sandbox  using  knowledge  of  intermediates  and  logging   •  Explored  methods  to  transmit  needed  environments  such  as     executables  and  Java     61.5X  speed-­‐up  on  32  GB  dataset  u6lizing  these  methods  
  50. Thread-­‐level  and  Task-­‐level  Parallelism     Sandra  Gesing    

                                             50   •  Develop predictive performance models for an application domain •  Achieve acceptable performance the first time •  Optimize resource utilization •  Execution time •  Memory usage
  51. Thread-­‐level  and  Task-­‐level  Parallelism     •  WorkQueue master-worker framework

    •  Sun Grid Engine (SGE) batch system Sandra  Gesing                                              51  
  52. Thread-­‐level  and  Task-­‐level  Parallelism     Sandra  Gesing    

                                             52   1.  Applica6on-­‐level  model  for  6me: (,,)=  1​/ +  2   2.  Applica6on-­‐level  model  for  memory:     (,)=  γ1R  +γ2N   3.  System-­‐level  model  for  6me:     =1​/ +2(​/ +​/ )+3T(R,​/ ,)∗​/ +   4​/ +5​/      4.  System-­‐level  model  for  memory:     (,)=ϕ1R  +ϕ2Q  
  53. Thread-­‐level  and  Task-­‐level  Parallelism     Sandra  Gesing    

                                             53   7  data   points   (R)   7  data   points   (Q)   7  data   points   (N)   343  data   points   Data   CollecBon   Training   data   Regression     Model   Training   Accuracy   Test   MAPE   TesBng   Regression   Coefficient s   Tes6n g  data  
  54. Thread-­‐level  and  Task-­‐level  Parallelism     Sandra  Gesing    

                                             54   Avg.  MAPE =  3.1 MAPE  =  Mean  Absolute  Percentage  Error  
  55. Thread-­‐level  and  Task-­‐level  Parallelism     Sandra  Gesing    

                                             55   For the given dataset, K* = 90, N* = 4
  56. Result     Sandra  Gesing          

                                       56   # Cores/ Task # Tasks Predicted Time (min) Speedup Estimated EC2 Cost ($) Estimated Azure Cost ($) 1 360 70 6.6 50.4 64.8 2 180 38 12.3 25.2 32.4 4 90 24 19.5 18.9 32.4 8 45 27 17.3 18.9 32.4
  57. Challenges  –  Novel  and  Old...         Sandra

     Gesing              Science  Gateways                              57   …  require  novel  solu6ons!  
  58. EU  COST  Ac6on  cHiPSet  (IC1406)   Sandra  Gesing    

             Science  Gateways                              58   cHiPSet  –  High  Performance  Modeling  and  Simula6on     for  Big  Data  Applica6ons     •  April  2015  –  April  2019   •  15  countries  -­‐  12  COST,  3  non-­‐COST  (US,  China,  Australia)   •  37  reseach  organiza6ons/companies  (31  COST,  6  non-­‐ COST)             hKp://www.cost.eu/COST_Ac6ons/ict/Ac6ons/IC1406  
  59. EU  COST  Ac6on  cHiPSet   Sandra  Gesing      

           Science  Gateways                              59  
  60. cHiPSet  -­‐  Collabora6ons   Sandra  Gesing        

         Science  Gateways                              60   Partner  Projects   •  NESUS  (Network  for  Sustainable  Ultrascale   Compu6ng)     hKp://www.nesus.eu/   •  MPM4CPS  (Mul6-­‐Paradigm  Modelling  for  Cyber-­‐ Physical  Systems)     hKp://www.mpm4cps.eu/   And  maybe  YOU?        
  61. Acknowledgements   Sandra  Gesing            

     Science  Gateways                              61   Logical  level   •  Richard  Grunzke   •  Sonja  Herres-­‐Pawlis   •  Alexander  Hoffmann   •  Jens  Krüger   •  MTA  SZTAKI   •  University  of  Westminster     System  level  and  predic6on   •  Nicholas Hazekamp •  Olivia Choudhury •  Douglas Thain •  Scott Emrich •  Notre Dame Bioinformatics Lab •  The Cooperative Computing Lab, University of Notre Dame
  62. Sandra  Gesing              Science  Gateways

                                 62   [email protected]