Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Large Scale Data in Life Science

Large Scale Data in Life Science

大規模データ処理勉強会 〜「大きな」データと対峙する〜 @株式会社NTTデータ「ライフサイエンス分野の大規模データ 現場での課題とこれから」

Tazro Inutano Ohta

December 08, 2011
Tweet

More Decks by Tazro Inutano Ohta

Other Decks in Research

Transcript

  1. Update( new_suffix ) { current_suffix = active_point test_char = last_char

    in new_suffix done = false; while ( !done ) { if current_suffix ends at an explicit node { if the node has no descendant edge starting with test_char create new leaf edge starting at the explicit node else done = true; } else { if the implicit node's next char isn't test_char { split the edge at the implicit node create new leaf edge starting at the split in the edge } else done = true; } if current_suffix is the empty string done = true; else current_suffix = next_smaller_suffix( current_suffix ) } active_point = current_suffix } ΞϧΰϦζϜͷ࿩΍ٖࣅίʔυ΋ग़·ͤΜ
  2. Large-scale data in Life Science Contents fontin sans fonts by

    Jos Buivenga (exljbris). Thank You! -> www.exljbris.com
  3. %#$-4ʹ͍ͭͯɹੜ໋Պֶ෼໺Ͱͷσʔλϕʔεͱ͸ LARGE SCALE DATA LIFE SCIENCE NOW IS THE NEXT-GENERATION

    ੜ ໋ Պ ֶ ෼ ໺ Ͱ ͷ େ ͖ ͳ σ ʔ λ ɹ ྫ ͱ ಛ ௃ ʮ ࣍ ੈ ୅ ʯ σ ʔ λ ͱ ͦ ͷ ໰ ୊  Ξ ʔ Χ Π ϒ ͱ ղ ੳ ର ʮ ࣍ ੈ ୅ ʯ ɹ ݱ ঢ় ͱ ՝ ୊
  4. ϝλσʔλͷॏཁੑ ɹσʔλͷղੳʹ͸ͦͷσʔλΛग़࣮ͨ͠ݧͷ৘ใ͕ඞਢ ɹࡉ͔͍৔߹෼͚͕ඞཁͳ͜ͱ͕ଟ͘ɼϝλσʔλ͸؅ཧ΋ίετ͕ߴ͍ Ұൠతͳੜ໋Պֶܥͷσʔλͷಛ௃ ATGCATGCATGCATGCATGCATGC ATGCATGCATGCATGCATGCATGC ATGCATGCATGCATGCATGCATGC ATGCATGATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA

    TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCAGCATGCAT GCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCAT or or or or ? ? photo by Togopic, Licensed under CreativeCommons 2.1 JP Attribution
  5. ϝλσʔλͷॏཁੑ ɹσʔλͷ࠶ݱੑͷͨΊʹ͸ϝλσʔλͷҡ࣋؅ཧ͕ॏཁ ɹେن໛σʔλͷ%#ʹ͓͍ͯେ͖ͳ໰୊ͷ̍ͭͱͳ͍ͬͯΔ Ұൠతͳੜ໋Պֶܥͷσʔλͷಛ௃ ATGCATGCATGCATGCATGCATGC ATGCATGCATGCATGCATGCATGC ATGCATGCATGCATGCATGCATGC ATGCATGATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA

    TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCATGCATGCA TGCATGCATGCATGCAGCATGCAT GCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCAT Data ID : 000001 organism : mouse cell : nervous cell sequencer : 454 date : 2011 12 08 photo by Togopic, Licensed under CreativeCommons 2.1 JP Attribution
  6. Ԙج഑ྻͷ෮ݩ de novo assemble short read from NGS reference genome

    reference alignment ͭͷΞϓϩʔν EFOPWPBTTFNCMF SFGFSFODFBMJHONFOU
  7. Ԙج഑ྻͷ෮ݩ de novoBTTFNCMZ ୹͍഑ྻಉ࢜ͷॏͳΓ͋͏෦෼Λݩʹ ܨ͗߹ΘͤΔ͜ͱͰ෮ݩ ୠ͠ɼ୹͍഑ྻͷΈʹΑΔ׬શͳBTTFNCMF͸ݱঢ়ࠔ೉ de novo assemble short

    read from NGS reference genome reference alignment ՝୊ ݱࡏެ։͞Ε͍ͯΔπʔϧ͸ ϝϞϦཁٻੑ͕ඇৗʹߴ͍ Ϧʔυͷ௕͞ɼήϊϜαΠζʹൺྫͯ͠ ཁٻϝϞϦ͕૿͑Δ (#ϝϞϦ͘Β͍Ͱ͸શવ଍Γͳ͍ 
  8. Chr1 Chr2 Chr3 CPU1 CPU2 CPU3 ରࡦ ϚϧνίΞͷϚγϯͰ෼ࢄॲཧ ࢀর഑ྻΛછ৭ମ͝ͱʹ෼ׂ͠ɼ ͦΕͧΕΛ$16ʹׂΓ౰ͯΔ

    ՝୊ /(4Ͱ͸ྨࣅͷ୹͍Ԙج഑ྻ͕ େྔʹग़ΔҝɼޡͬͨྖҬʹ ΞϥΠϯϝϯτ͞ΕΔ γʔέϯαͷੑೳ޲্ͰϦʔυ௕͸ ௕͘ͳΓɼ·ͨ௕͍Ԙج഑ྻͷ ྆୺ΛಡΉͳͲͷ޻෉ʹΑͬͯղܾ