Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Container, Cloud, and HPC
Search
Tazro Inutano Ohta
March 13, 2018
Science
0
180
Container, Cloud, and HPC
DBCLSでのコンテナ・クラウド活用紹介 in 第一回 HPC-OPS 研究会
https://bit.riken.jp/2018/02/1st-hpc-ops-mtg/
Tazro Inutano Ohta
March 13, 2018
Tweet
Share
More Decks by Tazro Inutano Ohta
See All by Tazro Inutano Ohta
Yevis: System to support building a workflow registry with automated quality control
inutano
0
140
Standardization of biological sample information database
inutano
0
83
Describe data analysis workflow with workflow languages
inutano
5
5.7k
Container virtualization technologies and workflow languages improve portability and reproducibility of data analysis environment
inutano
3
350
次世代シーケンサーによるメタゲノム解析:桜の花びらに付着した環境DNAを解析する
inutano
0
110
Workflows that run everywhere and where to run them
inutano
0
170
The Sequence Read Archive search system to make use of public high-throughput sequencing data
inutano
0
310
Improve portability of bioinformatics software across HPC and cloud infrastructures
inutano
1
120
shell-vs-genome
inutano
0
830
Other Decks in Science
See All in Science
ド文系だった私が、 KaggleのNCAAコンペでソロ金取れるまで
wakamatsu_takumu
2
1.8k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
170
機械学習 - K-means & 階層的クラスタリング
trycycle
PRO
0
1.2k
academist Prize 4期生 研究トーク延長戦!「美は世界を救う」っていうけど、どうやって?
jimpe_hitsuwari
0
460
PPIのみを用いたAIによる薬剤–遺伝子–疾患 相互作用の同定
tagtag
PRO
0
130
データマイニング - グラフ構造の諸指標
trycycle
PRO
0
230
Kaggle: NeurIPS - Open Polymer Prediction 2025 コンペ 反省会
calpis10000
0
310
なぜ21は素因数分解されないのか? - Shorのアルゴリズムの現在と壁
daimurat
0
250
会社でMLモデルを作るとは @電気通信大学 データアントレプレナーフェロープログラム
yuto16
1
470
MCMCのR-hatは分散分析である
moricup
0
550
データベース03: 関係データモデル
trycycle
PRO
1
330
機械学習 - 決定木からはじめる機械学習
trycycle
PRO
0
1.2k
Featured
See All Featured
The Curse of the Amulet
leimatthew05
0
6.5k
Leo the Paperboy
mayatellez
0
1.3k
Are puppies a ranking factor?
jonoalderson
0
2.6k
RailsConf 2023
tenderlove
30
1.3k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
115
100k
Building Applications with DynamoDB
mza
96
6.9k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
Speed Design
sergeychernyshev
33
1.5k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
96
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
180
Google's AI Overviews - The New Search
badams
0
880
Marketing to machines
jonoalderson
1
4.5k
Transcript
DBCLS でのコンテナ・ クラウド活用紹介 ライフサイエンス統合デー タベー スセンター (DBCLS) 大田達郎 @inutano
誰 ゲノムデー タの共有促進のための技術開発をしています twitter.com/iNut github.com/inutano speakerdeck.com/inutano 所属 ライフサイエンス統合デー タベー スセンター
(DBCLS) 生命科学研究に資する研究開発 デー タリソー ス、 インフラ
話すこと 話題提供 科学研究の現場におけるインフラについて 広く浅く キー ワー ド オンプレ (and|or) クラウド
HPC をクラウドで拡張する コンテナによるアプリケー ションの可搬性と再現性の向上
Topics 1. WebApp hosting: オンプレとクラウドの間 2. HPC x Cloud: 前処理から可視化まで
3. HPC x Container: セキュリティの問題と環境選択
WebApp hosting
WebApp hosting on DBCLS 約30 ほどのウェブアプリケー ション 従来は全て自前のウェブサー バで 計算機の管理コスト削減、
停電対策のため商用クラウド利用を開始 課題 コスト 長期に維持するならオンプレの方が安い場合も 特にストレー ジと転送料金が高い セキュリティ クラウド扱える人材 ベンダー ロックイン 何をクラウドで、 何をオンプレでホストするか?
事例: ChIP‑Atlas 世界中から集まる公開済み実験デー タを統一基準で再解析 http://chip‑atlas.org 再解析したデー タを使ったデー タ分析ツー ルを提供 ユー
ザデー タとの比較 関連するデー タの検索 デー タサイズが巨大 FTP サー バのファイル合計20TB 程度 毎月更新 現在70,000 件ほどの実験デー タを公開 NBDC のDB アー カイブを利用 研究デー タ公開用アー カイブサー ビス
事例: ChIP‑Atlas 毎月更新の処理とオンデマンド解析 in silico ChIP を NIG SC で
bed デー タ (20TB) は NBDC DB Archive から配信
HPC x Cloud
HPC x Cloud 遺伝学研究所スー パー コンピュー ター システム スパコン? でかいクラスタマシン
分散ジョブ実行システム (Univa Grid Engine) 大型共有ストレー ジ (lustre) と 共有メモリ (max 10TB) 商用クラウドと接続 混雑時に分散できる ウェブサー バが建てられる ゲノムブラウザ Jupyter notebook クラウドの料金はユー ザが負担 ( 請求書払いが可能) 興味のあるユー ザの方は問い合わせを
NIG SC to Cloud 1. ユー ザが reseller に登録すると IAM
ユー ザが作成される 2. ユー ザはNIG スパコンにログインしスクリプトを実行 3. デー タのコピー とEC2 へのログインが実行される
HPC x Container
Which container? 遺伝研スパコンテスト環境でdocker を試験 OS やドライバの問題があり本番環境には反映していない docker/udocker/shifter/singularity? 最終的な結論は出ていない 事例の少なさ OS
やドライバの制約 セキュリティ
Container metrics コンテナによる可搬性の向上により環境の選択肢が増える アプリケー ションごとに必要なスペックを知る必要がある github.com/inutano/docker‑metrics‑collector Telegraf/Fluentd/Elasticsearch+Kibana g i t
c l o n e & & d o c k e r - c o m p o s e u p Common Workflow Language との接続を実装中
Container metrics 1. Telegraf が同一ホスト上のコンテナによるリソー ス消費を記録 2. fluentd が elasticsearch
にログを貯める 3. CWL のワー クフロー メタデー タをelasticsearch にロー ド 4. kibana で可視化、elasticsearch でメタデー タの全文検索が可能
科学研究のためのインフラは何であるべきか
アカデミアにおけるインフラ開発整備のモチベー ション 世の研究者は時間がない 計算機をメンテする時間がない それクラウドで… ソフトウェアを都度インストー ルするのが面倒 それコンテナで… 新しい技術は導入のハー ドルが高い
研究者はインフラのことを1 秒も考えずに研究したい 「 気がついたら使っていた」 がベスト 研究者に時間を作ることの価値は計り知れない
Monthly Meetup の勧め 研究者の数に対してインフラを( やりたい| やれる| やる) 人は少ない 結託すべし 既に誰かが悩んだことで悩んではいけない
月に一度、 組織の垣根を超えて共同作業する日があるとよい SPARQLthon Galaxy meetup Workflow meetup 研究は競争かもしれないが、 インフラはオー プンに
まとめ オンプレとクラウドの使い分け、 その見極めが重要 HPC とクラウドの接続をユー ザに意識させない HPC におけるコンテナ利用の事例を積み上げて普及を 開発者同士の情報交換の場をつくる