Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BioPackathon2025 シングルセル解析プラットフォームShortCakeの紹介

BioPackathon2025 シングルセル解析プラットフォームShortCakeの紹介

More Decks by 中戸隆一郎(Ryuichiro Nakato)

Other Decks in Research

Transcript

  1. 2  Bioinformatics Application Noteに採択 (2025年)  First release (version

    1) は2020年  現在のバージョンはv3.4.0  新規性 < 実用性  長年使ってきた中で加えた様々な工夫が 入っています  本日の内容:  ShortCakeとは?  Dockerとは?  使い方?  何故ShortCakeを作ろうと思ったか?
  2. さまざまなシングルセル解析手法 3 Stuart and Satija, Nature Reviews, 2019 細胞内不均一性 Heterogeneity

    分化軌道推定 Trajectory Azizi et al., Cell, 2018 La Manno et al., Nature, 2018 マルチモーダル解析
  3. 課題  手法の多さ(単一のツールで完結しない)  複数のツールを試す必要がある  R・Python・コマンドライン  インストールで時間を取られる・あるいは諦めてしまうというのはもったいない 

    Developers: 作ったツールを使って欲しい  Users: 全て試すことはできない:少数の有名なツールだけ使う  パイプラインで壁(コスト)を削減  ユーザはより多くのツールをトライすることができる  デベロッパは使ってもらえると嬉しい 超えられない壁 5
  4. 異なるPCで 解析環境を共有 (再現性の確保) イメージをダウンロード (一度で良い) ユーザ1 ユーザ2 ShortCakeの Dockerイメージ (rnakato/shortcake)

    コンテナ 起動 (様々なDockerイメージが 登録されているWebサイト) 解析サーバ ノートPCなど オープンクロマチン 遺伝子発現 疑似時系列解析 空間的遺伝子発現 様々な解析が可能! ShortCake: Docker-based single-cell analysis platform https://hub.docker.com/r/rnakato/shortcake 6
  5. Docker image Share the environment among PCs PC2 … …

    <your account>/<image name>:<tag> Download the image (docker pull) ユーザ Build the image (docker build) Upload the image (docker push) PC1 コンテナ コンテナ上でコマンドを起動 (docker run) Docker:計算環境を複数ユーザ・計算機で共有する枠組み Dockerfile Image Image 7
  6. Docker imageのダウンロードと実行 # Start docker $ sudo service docker start

    # Download the ShortCake image $ docker pull rnakato/shortcake:3.4.0 # Excecute a command in ShortCake $ docker run --rm -p 8888:8888 -it rnakato/shortcake:3.4.0 <command> # Example: Jupyter notebook $ docker run --rm -p 8888:8888 -it rnakato/shortcake:3.4.0 jupyternotebook.sh # Example: Rstudio Server $ docker run --rm -p 8787:8787 -it rnakato/shortcake:3.4.0 rserver.sh 8787 # GPUを使う場合 $ docker run --rm -p 8888:8888 -it --gpus all rnakato/shortcake:3.4.0 jupyternotebook.sh 8
  7. Dockerコマンドの代替:Apptainer, Podmanなど # Apptainer $ apptainer build -F shortcake.sif docker://rnakato/shortcake

    $ apptainer exec shortcake.sif jupyternotebook.sh # GPUを使う場合 $ apptainer exec --nv shortcake.sif jupyternotebook.sh 9
  8. Micromambaを使ったPython仮想環境の構築 https://mamba.readthedocs.io/en/latest/user_guide/micromamba.html  Micromamba  C++で書かれたconda互換バイナリ  バイナリ形式で配布されている  Condaよりも高速・安定

     Python仮想環境  バージョンコンフリクトを防ぐことがで きる  環境が冗長化・イメージサイズが肥大化 しやすい  仮想環境をどの程度切り分けるかは悩み どころではある  Rツール群は全てlocal Rで使える 11
  9. 共用サーバ ユーザ1 コンテナ サーバ上でコンテナを起動 (Jupyter notebook) (Rstudio) サーバからのアクセス イメージを ダウンロード

    ユーザ2 ブラウザからアクセス (http://<サーバのIP>:8888/) (http://localhost:8888/) ローカルからリモートサーバの特定ポートへのトンネル ssh -N -f -L localhost:8888:localhost:8888 servername 14 ブラウザからアクセス (http://<サーバのIP>:8889/) (http://localhost:8889/)
  10. ShortCake flavors (フレーバー)  インストールされているツールは増え続ける  イメージサイズが大きくなりすぎると、アップロード・ダウンロードに時間がかかり、実用的でなくな る  ラップトップPCなどHDD容量やメモリサイズが小さい場合、ダウンロードそのものが困難になる場合

    もある  多くのユーザは全てのツールを利用する必要がない  とはいえ、仮想環境ごとにイメージを切り分けるのも管理が煩雑になる  「フレーバー」として、複数のイメージに分割 16
  11. ShortCakeは誰のためのものか・誰のためのものではないか  特に、解析の経験が浅い研究者に向けてデザインされている  インストールトラブルに慣れていない人  たとえば、新しくラボに入った学生など  様々なツールを試してみたい人向け 

    RとPythonを両方使いたい人(Seurat Wrappersやscverseとも異なる)  Seuratだけで完結するような用途には不要  同一ツールの異なるバージョンを比較したり、厳密なバージョンを要求する人には向いてい ない(上級者)  ワークフロー言語(NextFlow)の代替ではない  NextFlowはひとつの統一的なワークフローを構築するためのもの  ShortCakeは個人レベル・あるいは小グループで試行錯誤するための環境を提供する 19
  12. 計算環境をどう公開・共有するか?  Webサーバを構築してブラウザとして公開  サーバの維持管理は大変  サーバダウンしているとアクセスできない  個人検体データはコピーできないかも 

    ユーザ数が増えるとハングするかも  自動化しづらい(大量のクエリだと大変)  複数バージョンを置きづらい(異なるユーザが異なるバージョンを使っているとか)  各自が自由に新しいツールをインストールできないのはよくない  各研究所にサーバを配置  一人で管理するのは無理、環境がばらつく  トラブルシュートが困難  ツールとして公開  「解析環境の構築」が解析者の前に立ちはだかる最初の大きな壁になる  大量のツールをインストールすると、ライブラリのバージョンコンフリクトの問題が発生する 24
  13. オープンコミュニティとしてのパイプラインの試み  最適な手法は「場合による」  結果の解釈はユーザに委ねられている  どの手法から得られたデータが最も「確からしい」か?  経験知(の共有)が重要 

    最新のツール群のフィージビリティスタディ(使用感や適用結果の知見の共有)  Dockerパイプラインをを使うことで同一の環境が保証される  OSに依存しない  解析に関する知見の共有が容易  実データへの適用結果の共有の試み  1細胞解析のベストプラクティス、結果の解釈、失敗事例などの部分は論文化されにくく、情報が共有されない  細胞ダイバース内において1細胞解析の知見を共有することで研究を加速化する・ひいてはコミュニティに貢献  これはうまくいかない(情報提供側に具体的なメリットがない)  たとえば情報共有SNS(Slackなど)を立てても、質問者が出ても回答者が出なそう  実際には共同研究・あるいは研究プロジェクトなどの議論を通してしか知見は広まらないのでは 27