Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第28回 著者ゼミ:Identification of drug responsible gl...
Search
Tatsuya Koreeda
June 15, 2024
Research
480
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
第28回 著者ゼミ:Identification of drug responsible glycogene signature in liver carcinoma from meta-analysis using RNA-seq data
第28回 著者ゼミにて用いた資料になります。
Tatsuya Koreeda
June 15, 2024
More Decks by Tatsuya Koreeda
See All by Tatsuya Koreeda
Snowflake Summit Deep Dive: Apache Iceberg
ktatsuya
1
90
明治薬科大学講義_ビッグデータ解析を支えるデータベース技術とクラウドコンピューティング
ktatsuya
1
110
データマネジメント戦略Night - 4社のリアルを語る会
ktatsuya
2
770
【Data Superhero セッション 】 Snowflake基盤を途中からIaC化する:Terraform × Terragrunt × 環境分離設計
ktatsuya
1
460
Snowflake HCLS Meet Upヘルスケアユーザー会紹介
ktatsuya
0
97
ライフサイエンス研究を加速する~SPCS JobサービスとGPUコンテナの使い方~
ktatsuya
0
36
Streamlit in Snowflakeをざっくりと復習
ktatsuya
0
530
Snowflakeデータ基盤の信頼性をTerraformによるCI/CDとdbt testで高める
ktatsuya
0
26
大規模で多様な バイオデータ管理・解析のためのSnowflake データウェアハウス
ktatsuya
0
210
Other Decks in Research
See All in Research
AIで最適化を解けるか?
mickey_kubo
0
120
Cross-Media Information Spaces and Architectures
signer
PRO
0
300
東京大学工学部計数工学科、計数工学特別講義の説明資料
kikuzo
0
520
(SIGQS17) Frasco-VS:フラグメントに基づく薬剤候補化合物選抜の量子アニーリングによる実現
keisukeyanagisawa
PRO
0
130
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
480
[IR Reading 2026春 論文紹介] LLM-based Listwise Reranking under the Effect of Positional Bias (ECIR 2026) /IR-Reading-2026-Spring
koheishinden
PRO
0
140
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
640
Harness Engineering and Al Agent
kzinmr
3
1.7k
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
880
「車1割削減、渋滞半減、公共交通2倍」を 熊本から岡山へ@RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
1
1.2k
SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索
e869120_sub
6
3.5k
第64回CV・PRML勉強会 論文紹介:Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain Alignment
sokikatayama
0
110
Featured
See All Featured
Six Lessons from altMBA
skipperchong
29
4.3k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
200
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
How to build a perfect <img>
jonoalderson
1
5.7k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
210
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
170
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
950
The Invisible Side of Design
smashingmag
301
52k
How to train your dragon (web standard)
notwaldorf
97
6.7k
Building AI with AI
inesmontani
PRO
1
1.1k
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
Transcript
バイオインフォ初心者が 独学でバイオインフォを学んで 論文を出した話 2024年6月15日 21:00 著者ゼミ Tatsuya Koreeda
2 Agenda バイオインフォを学んだきっかけ 研究内容について 将来の展望 感想とTips
バイオインフォを学んだきっかけ
4 プログラミングの便利さに気づいた新卒 • プログラミングの便利さに気づく。 • せっかくなら生物学と情報学の間を取っ た学問をやりたい • バイオインフォを始める めっちゃ便利じゃん!
5 幅広いバイオインフォマティクス分野 • ゲノムシーケンシング • ゲノムアセンブリ • ゲノムアノテーション • RNAシーケンシング
(RNA-seq) • 遺伝子発現解析 • 代謝経路解析 • スプライシングバリアント解析 • タンパク質同定 • タンパク質発現解析 • タンパク質構造予測 • タンパク質相互作用解析 • 代謝物プロファイリング • 代謝パスウェイ解析 • メタボライト同定 • 系統樹推定 • 分子進化 • 集団遺伝学 • タンパク質構造モデリング • ドッキングシミュレーション • 分子動力学シミュレーション • 生物ネットワーク解析 • 統合オミクス解析 • モデル生物シミュレーション • 個別化医療 • バイオマーカー発見 • 疾患関連遺伝子解析 • エピジェネティック修飾解析 • クロマチン構造解析 • ヒストン修飾解析 • 次世代シーケンシングデータ解析 • 大規模データ解析 • マシンラーニングとAI応用 • データベース設計と管理 • 公共バイオデータベース利用 • データ統合と標準化 • 画像解析 • 3Dリコンストラクション • 生物イメージデータの量的解析 何からやればよいのかわからん。。。
6 バイオインフォマティクスといえばこの人 https://seeds.office.hiroshima-u.ac.jp/profile/ja.9a89391e544690f2520e17560c007669.html • バイオインフォマティクスのことを調べ ていると坊農先生にたどり着く • 坊農先生のバイオインフォマティクス に関する書籍で勉強を始めることにし た
7 最初に勉強した書籍 • 初心者にもわかりやすいPC解析環境 から、実践的なバイオインフォマティク ス解析まで網羅されたバイオインフォ 初心者本 • こちらの内容を一通りさらう感じで勉強 しました
https://www.amazon.co.jp/Dr-Bono-E3-81-AE-E7-94-9F-E5-91-BD-E7-A7-91- E5-AD-A6-E3-83-87-E3-83-BC-E3-82-BF-E8-A7-A3-E6-9E-90/dp/481573011 3/ref=dp_ob_image_bk https://www.amazon.co.jp/%E7%94%9F%E5%91%BD%E7%A7%91%E5%AD%A6%E8%80 %85%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AEDr-Bono%E3%83%87%E3%83 %BC%E3%82%BF%E8%A7%A3%E6%9E%90%E5%AE%9F%E8%B7%B5%E9%81%93% E5%A0%B4-%E5%9D%8A%E8%BE%B2%E7%A7%80%E9%9B%85/dp/4815701725/ref=p d_sim_d_sccl_4_3/356-7673021-0198244?pd_rd_w=feUAT&content-id=amzn1.sym.d68620 9d-8edb-4501-90de-4e255f5b32cf&pf_rd_p=d686209d-8edb-4501-90de-4e255f5b32cf&pf_rd _r=9TK49KJQF3DW8FP3SMSN&pd_rd_wg=0nnE3&pd_rd_r=b1b3c6d8-3c7c-4be8-8341-40 f645529706&pd_rd_i=4815701725&psc=1
8 やっぱりTogoTVは神 • ブラウザ上で何を操作すればよいのか動画で簡単に把握可能 • 最近はブラウザツールでだいぶいろいろと解析できるので、バイオインフォマティクスを 専門としない方でもおすすめ https://togotv.dbcls.jp/course.html?id=PL0uaKHgcG00YDVET14wC0-GhpI5l3y8T-
9 当時の勉強の記録
バイオインフォについてなんとなくわかった気がする! でも...何を研究すればよいのだろうか...
11 文献調査を開始 suzuki et al., 2021 坊農ラボ所属の広島大学院生の鈴木さん が出している「酸化ストレスおよび低酸素ス トレス応答遺伝子のメタ解析」に関する論文 を読む
12 論文の流れ 1. 酸化ストレスおよび低酸素ストレスに関する RNA-seqデータ839セットを収集 2. IkraでRNA-seqデータの取得、処理、定量化 3. ON_ratio(DEG)・ON_scoreの計測 4.
Metascapeでエンリッチメント解析 suzuki et al., 2021
これなら自分にもできそう
14 やる方法は決まったのであとは研究テーマ設定だ! • メタ解析ならとにかく公共データベースから大量のRNA-seqデータを取得すれば 力技でなんとかなりそう • DEGさえ取ってしまえばあとはエンリッチメント解析すれば結果が出る これならバイオインフォ初心者でも論文かけそうだ!!! 自分にもできそうと思った理由
研究内容について
16 糖鎖が司る生命現象 Thomas D et al., 2020
17 糖鎖生合成経路 Yoshiaki Nakayama et al., 2020
18 糖鎖関連遺伝子( glycogene) Theodore Groth et al., 2022
19 (仮説)glycogeneの変動を見ることで、糖鎖を対象とした 医薬品の効果を変動させることができるのでは? The image of medicine mix and antibody
is from TogoTV (© 2016 DBCLS TogoTV, CC-BY-4.0 https://creativecommons.org/licenses/by/4.0/deed.ja glycan therapy drug treatment glycogene↓↑ Alteration of glycan structure by drug treatment
20 研究デザイン koreeda et al., 2024 1. 公共データベースから肝臓がん細胞に薬 剤刺激されている RNA-seqデータを取得
する 2. RNA-seqデータの処理 3. RatioとScoreを計算 4. glycogene(399遺伝子)だけを抽出 5. PCA、エンリッチメント解析、 PPIネット ワーク解析をする
21 All Of gene Expression(AOE) • トランスクリプトームデータを横断的に探索できるサイト • 結果をJSONで返すAPIが公開されている
22 AOEの公開APIを叩いてリスト化 https://github.com/dogTK/GSEnumber_collecting 肝臓がんに関するワードを決める →リスト化 “liver cancer”, “hepatocel-lular carcinoma”, “cholangiocarcinoma”,
“hepatictumor”,“liver metastasis”, “hepatic neoplasm”, “hepatic lesions”, “liver disease.”
23 Overview of the properties of liver cancer cell-derived RNA-seq
data list koreeda et al., 2024 • SRAデータ:139 • データセット:86 • 肝臓がん細胞種:11 • 薬剤刺激:13
24 ikra v2.0.1 -RNAseq pipeline centered on Salmon- • 安水
良明さんを中心とした阪大医学部Python会の 皆様が開発 • RNA-seqデータのfastqファイルから一気通貫して Scaled TPM データを得ることができる優れもの →Macbook(Quad-Core Intel Core i7, Memory 32GB) 環境で約4ヶ月間ikraをずっと回し続けた yyoshiaki/ikra: ikra v2.0
25 UMAP plot of the characteristics of the liver cancer
cell-derived RNA-seq data list ・それぞれのデータセットごとにクラスターができることが確認された ・Glycogeneのほうがより明確にクラスターの分離を捉えている
26 PCA using glycogenes derived from liver cancer cells stimulated
by various compounds Score Plot ・HJP、HJP & CHI、CHI、およびAZDの薬剤がPC1と正の 相関を持つことが観察された。 ・HHTにおいて、PC1に沿った正から負への広範な分離ス ペクトルが見られた。 Loading Plot ・PC1-PC2プロットでは、POFUT、EXT2、ALG6、GLCE、 CHST12、POMGNT2が、HJP、CHI、およびAZDの分離 に寄与し、これらは第 4象限に向かって区別される。 ・PC1-PC3プロットでは、ST3GAL1、FUT6、HAS2がCF の分離に寄与し、これらは第 3象限に向かって区別され る。
27 Analysis of the nature of varying glycogenes in drug-stimulated
liver cancer cells using score koreeda et al., 2024 ・ScoreにおいてOGAが42で最高であり、PIGZが-33で最低であった。今回用 いた薬剤刺激で最も変動し易いglycogeneである。
28 Analysis of the nature of varying glycogenes in drug-stimulated
liver cancer cells using score koreeda et al., 2024 ・スコアを用いた PPIネットワーク解析。中心性スコアが高いノードを大きくしている。薄緑色がスコアで上位であった glycogeneを表している。 ・B4GALT1がアップレギュレーションの中で最も中心性スコアが高く、 GMDSはダウンレギュレーションの中で最も 中心性スコアが高かった。 ・これらglycogeneは薬剤刺激においてのハブ遺伝子になっている。
29 glyco-pathway listをキュレーションするのに使った論文 Theodore Groth et al., 2022
30 Glycopathway enrichment analysis using glycogenes from liver cancer cells
stimulated by various drugs koreeda et al., 2024 • HomoharringtonineおよびCHIR98014刺激は HepG2細胞においてglucuronidationが活性化 され、Hjp-6-171刺激によって抑制される。 • Tigecycline刺激はMHCC97H細胞において Fucosylationを活性化する。 • Homoharringtonine刺激はHepG2細胞におい てPOMGNT2 Type/O-Man pathwayを抑制す る。 • Cinobufagin刺激はcapping O-GalNAc pathwayに属するST3GAL1遺伝子を活性化す る。 • GDF11刺激はHepG2細胞においてHS sulfation PathwayのHS3ST3A1遺伝子発現を 抑制する。
31 ・8つの肝がん細胞株と 13種類の薬物を含む86のデータセットを公共データベースから取得。 399 のglycogeneを特定した。 ・PCA ではPOFUT、EXT2、ALG6、GLCE、CHST12、POMGNT2遺伝子が、HJP、CHI、AZDの 分離に寄与し、ST3GAL1、FUT6、HAS2がCinobufaginの分離に寄与していた。 ・ScoreにおいてOGAが42とトップであり、PIGZが-33で最も低かった。今回用いた薬剤刺激で最も 変動し易いglycogenesとなった。
・PPIネットワーク解析では、 B4GALT1がアップレギュレーションの中で最も中心性スコアが高く、 GMDSはダウンレギュレーションの中で最も中心性スコアが高かった。これら glycogeneは薬剤刺 激においてのハブ遺伝子になっている。 ・CHIR98014、Homoharringtonine、Tigecycline、Cinobufagin、GDF11はそれぞれ、 glucuronidation、てFucosylation、POMGNT2 Type/O-Man pathway、capping O-GalNAc pathway、HS sulfation Pathwayを変動させていた。 結果総括
32 ・薬剤刺激によるglycogeneシグネ チャを捉えることで糖鎖に関わるパス ウェイ変化やバイオマーカーとなりうる 遺伝子を絞ることができた ・肝臓がん細胞種によって薬剤の効き 方も変わってくることがわかった ・とはいえ、遺伝子レベルの話である ので、実際の細胞表面の糖鎖はどの ような状態かわからないという点に注
意が必要 考察と手法の限界 Homoharringtoninと各肝臓がん細胞種
将来の展望
34 糖鎖構造解析の難しさ ・質量分析、GC-MS、結合特異的グリコシ ダーゼ、NMRなど、収斂した実験技術が 必要。標準品も少ない ・基本全身に存在する物質なため気軽に glycogeneをKOできない(フェノタイプを捉 える根拠を絞るのが難しい) バイオインフォマティクスのアプローチで糖 鎖構造解析の負担を減らす
DNAやタンパク質と比較したときの糖鎖の構造多様性
35 LINCSを活用した glycogeneシグネチャの網羅的理解 LINCS ・さまざまな細胞タイプに対して薬物やその他の 生物学的因子を処理 ・1,000のランドマーク遺伝子を測定し、その結果 から全ゲノム発現プロファイルを推定している Glycogeneの発現量から細胞表面の糖鎖構 造を予測し操作できるようにする
36 ドラックリポジショニング ・既存の薬物を新しい治療用途に再利用 ・既存の薬物がすでにヒトでの安全性や薬物動態が確立されているため、従来の新薬開発に比べてコストと時 間を大幅に削減できる Various drug treatment Alteration of
glycan structure by drug treatment ・それぞれ化合物が各細胞種の glycogenesの発現をどのように変動させるかを予測するモデルを構築する →細胞表面の糖鎖構造を自在にアレンジできるようになり、 糖鎖を標的とした治療薬の効果を高める ことができる
感想とTips
38 在野研究で論文書いて良かったこと • 本業をやりながら、論文執筆を行う一通りの流れを体験できた ◦ 本業をやりながらでも研究業績を積む方法を自分の中で確立することができたの は大きい。 ◦ ポスドクをやるのは不安だったので、データエンジニアで安定した年収を稼ぎなが ら、研究活動をできるのは心理的な安心要素
• 研究テーマを自由に設定できる ◦ 基本自分のPC以外はお金がかからない。 ◦ 研究費などで成果発表の必要もない。
39 在野研究で論文書いて大変だったこと • ディスカッションする相手がいないので孤独。研究の方向性があっているかわからない。 ◦ 知り合いに声をかけて論文の感想を聞いたりしていた • Macbook(Quad-Core Intel Core
i7, Memory 32GB)環境で約4ヶ月間ikraをずっと回し 続けた ◦ これが一番ハードな作業。メタ解析はそこまで優しい研究ではなかった。 ◦ データが出すぎるので注目するポイントに絞らないと解析仕切らない
40 在野研究Tips • 英文翻訳と英文校正はChatGPTにまかせてOK ◦ 今回の論文は英語の質については特にレビュワーから指摘されることはなかった • Google の画像検索でライブラリ名ややりたい解析方法を調べるといい感じの可視化方法が 見つかる場合もある
41 バイオインフォマティクス Tips • バイオインフォマティクスはたくさんの書籍が出ているので やる気があれば全然独学でキャッチアップ可能 ◦ 今はChatGPTに聞きながらコードを作成することも容 易 •
どちらかというと、バイオインフォマティクスで出したグラフ の解釈の仕方を覚えるのが大変 ◦ PCAではどこまで主張できるのか、エンリッチメント解 析では何がわかるのか、など ◦ 論文を読んでこのグラフでは何を主張しているのかを 読んで覚えていく
42 本研究の流れはそのまま別の論文に応用できます • 今回、私が取り組んだのはglycogeneだったが、例えば脂質代謝や転写因子など自分 の興味ある遺伝子リストに絞れば、簡単に新規性を出すことができる • エンリッチメント解析のときにはglycogeneパスウェイをキュレーションしましたが、難しい ならMetascapeに投げるだけでもOK
43 肝臓がん細胞の薬剤刺激のデータセットは公開しています https://figshare.com/articles/dataset/Whole_Gene_Matrix_Drug-Induced_Liver_Cancer_Cell_RNA-seq_Data_of_All_Genes/23573871
最後に
45 Snowflake https://www.snowflake.com/blog/beyond-modern-data-architecture/ クラウドベースのAI・コンピュートリソースといったビックデータに関わるオール・インプラットフォーム
46 次回イベント登壇予定 Snowflakeで実現する All-in-One Bioinformatics: インシリコ創薬、疾患バリアント解析、シング ルセルRNA-seqまで というタイトルで登壇する予定です!!!こちらもぜひご参加ください! 上記QRコードを読み取るか、 https://biopackathon.connpass.com/event/320217/
へアクセスくだ さい
47 各種SNSフォローしていただけると嬉しいです X(Twitter):@cs_dev_engineer Medium:@t.koreeda LinkedIn:@tkoreeda Zenn:@t_koreeda Zennでの発信例
THANK YOU