Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
Container, Cloud, and HPC
Tazro Inutano Ohta
March 13, 2018
Science
0
120
Container, Cloud, and HPC
DBCLSでのコンテナ・クラウド活用紹介 in 第一回 HPC-OPS 研究会
https://bit.riken.jp/2018/02/1st-hpc-ops-mtg/
Tazro Inutano Ohta
March 13, 2018
Tweet
Share
More Decks by Tazro Inutano Ohta
See All by Tazro Inutano Ohta
Standardization of biological sample information database
inutano
0
15
Describe data analysis workflow with workflow languages
inutano
4
440
Container virtualization technologies and workflow languages improve portability and reproducibility of data analysis environment
inutano
3
280
次世代シーケンサーによるメタゲノム解析:桜の花びらに付着した環境DNAを解析する
inutano
0
49
Workflows that run everywhere and where to run them
inutano
0
120
The Sequence Read Archive search system to make use of public high-throughput sequencing data
inutano
0
170
Improve portability of bioinformatics software across HPC and cloud infrastructures
inutano
1
71
shell-vs-genome
inutano
0
670
RDFization of biomedical databases
inutano
2
200
Other Decks in Science
See All in Science
離散微分形式による大規模流体音響解析
deepflow
0
180
LIBD_DS_TLDR
lcolladotor
0
510
My research talk for CCA promotion
dfm
1
550
Elix, CBI, フォーカストセッション, はじめてのAI創薬とElixにおける事例紹介
elix
0
170
統計的因果推論の勉強会@2022
arumakan
4
2.7k
資料科學哪有這麼可愛
line_developers_tw
PRO
0
2.3k
mROS 2:組込みデバイス向けのROS 2ノード軽量実行環境
takasehideki
0
320
事業会社における推薦システム開発事例 / recsys-in-wantedly-2022
yuya4
1
1.3k
2年ちょっとで18kg 減量した話
kazkanda
0
340
Освобождение Европы
vika97
0
140
回転座標系での古典場の方程式について。微分形式からの導出
deepflow
0
100
Use ParaView for ISEE NLFFF database (v1.1)
hsc_nagoya
0
1.2k
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
37
3.3k
Adopting Sorbet at Scale
ufuk
63
7.6k
Why You Should Never Use an ORM
jnunemaker
PRO
47
7.6k
Support Driven Design
roundedbygravity
87
8.6k
Typedesign – Prime Four
hannesfritz
34
1.4k
Making Projects Easy
brettharned
98
4.4k
How to name files
jennybc
40
63k
Fantastic passwords and where to find them - at NoRuKo
philnash
27
1.6k
Creatively Recalculating Your Daily Design Routine
revolveconf
207
10k
The Invisible Customer
myddelton
110
11k
Fontdeck: Realign not Redesign
paulrobertlloyd
73
4.1k
Scaling GitHub
holman
451
140k
Transcript
DBCLS でのコンテナ・ クラウド活用紹介 ライフサイエンス統合デー タベー スセンター (DBCLS) 大田達郎 @inutano
誰 ゲノムデー タの共有促進のための技術開発をしています twitter.com/iNut github.com/inutano speakerdeck.com/inutano 所属 ライフサイエンス統合デー タベー スセンター
(DBCLS) 生命科学研究に資する研究開発 デー タリソー ス、 インフラ
話すこと 話題提供 科学研究の現場におけるインフラについて 広く浅く キー ワー ド オンプレ (and|or) クラウド
HPC をクラウドで拡張する コンテナによるアプリケー ションの可搬性と再現性の向上
Topics 1. WebApp hosting: オンプレとクラウドの間 2. HPC x Cloud: 前処理から可視化まで
3. HPC x Container: セキュリティの問題と環境選択
WebApp hosting
WebApp hosting on DBCLS 約30 ほどのウェブアプリケー ション 従来は全て自前のウェブサー バで 計算機の管理コスト削減、
停電対策のため商用クラウド利用を開始 課題 コスト 長期に維持するならオンプレの方が安い場合も 特にストレー ジと転送料金が高い セキュリティ クラウド扱える人材 ベンダー ロックイン 何をクラウドで、 何をオンプレでホストするか?
事例: ChIP‑Atlas 世界中から集まる公開済み実験デー タを統一基準で再解析 http://chip‑atlas.org 再解析したデー タを使ったデー タ分析ツー ルを提供 ユー
ザデー タとの比較 関連するデー タの検索 デー タサイズが巨大 FTP サー バのファイル合計20TB 程度 毎月更新 現在70,000 件ほどの実験デー タを公開 NBDC のDB アー カイブを利用 研究デー タ公開用アー カイブサー ビス
事例: ChIP‑Atlas 毎月更新の処理とオンデマンド解析 in silico ChIP を NIG SC で
bed デー タ (20TB) は NBDC DB Archive から配信
HPC x Cloud
HPC x Cloud 遺伝学研究所スー パー コンピュー ター システム スパコン? でかいクラスタマシン
分散ジョブ実行システム (Univa Grid Engine) 大型共有ストレー ジ (lustre) と 共有メモリ (max 10TB) 商用クラウドと接続 混雑時に分散できる ウェブサー バが建てられる ゲノムブラウザ Jupyter notebook クラウドの料金はユー ザが負担 ( 請求書払いが可能) 興味のあるユー ザの方は問い合わせを
NIG SC to Cloud 1. ユー ザが reseller に登録すると IAM
ユー ザが作成される 2. ユー ザはNIG スパコンにログインしスクリプトを実行 3. デー タのコピー とEC2 へのログインが実行される
HPC x Container
Which container? 遺伝研スパコンテスト環境でdocker を試験 OS やドライバの問題があり本番環境には反映していない docker/udocker/shifter/singularity? 最終的な結論は出ていない 事例の少なさ OS
やドライバの制約 セキュリティ
Container metrics コンテナによる可搬性の向上により環境の選択肢が増える アプリケー ションごとに必要なスペックを知る必要がある github.com/inutano/docker‑metrics‑collector Telegraf/Fluentd/Elasticsearch+Kibana g i t
c l o n e & & d o c k e r - c o m p o s e u p Common Workflow Language との接続を実装中
Container metrics 1. Telegraf が同一ホスト上のコンテナによるリソー ス消費を記録 2. fluentd が elasticsearch
にログを貯める 3. CWL のワー クフロー メタデー タをelasticsearch にロー ド 4. kibana で可視化、elasticsearch でメタデー タの全文検索が可能
科学研究のためのインフラは何であるべきか
アカデミアにおけるインフラ開発整備のモチベー ション 世の研究者は時間がない 計算機をメンテする時間がない それクラウドで… ソフトウェアを都度インストー ルするのが面倒 それコンテナで… 新しい技術は導入のハー ドルが高い
研究者はインフラのことを1 秒も考えずに研究したい 「 気がついたら使っていた」 がベスト 研究者に時間を作ることの価値は計り知れない
Monthly Meetup の勧め 研究者の数に対してインフラを( やりたい| やれる| やる) 人は少ない 結託すべし 既に誰かが悩んだことで悩んではいけない
月に一度、 組織の垣根を超えて共同作業する日があるとよい SPARQLthon Galaxy meetup Workflow meetup 研究は競争かもしれないが、 インフラはオー プンに
まとめ オンプレとクラウドの使い分け、 その見極めが重要 HPC とクラウドの接続をユー ザに意識させない HPC におけるコンテナ利用の事例を積み上げて普及を 開発者同士の情報交換の場をつくる