第28回著者ゼミ：Identification of drug responsible glycogene signature in liver carcinoma from meta-analysis using RNA-seq data

バイオインフォ初心者が独学でバイオインフォを学んで論文を出した話 2024年6月15日 21:00 著者ゼミ Tatsuya Koreeda

2 Agenda バイオインフォを学んだきっかけ研究内容について将来の展望感想とTips

バイオインフォを学んだきっかけ

4 プログラミングの便利さに気づいた新卒 • プログラミングの便利さに気づく。 • せっかくなら生物学と情報学の間を取った学問をやりたい • バイオインフォを始めるめっちゃ便利じゃん！

5 幅広いバイオインフォマティクス分野 • ゲノムシーケンシング • ゲノムアセンブリ • ゲノムアノテーション • RNAシーケンシング
(RNA-seq) • 遺伝子発現解析 • 代謝経路解析 • スプライシングバリアント解析 • タンパク質同定 • タンパク質発現解析 • タンパク質構造予測 • タンパク質相互作用解析 • 代謝物プロファイリング • 代謝パスウェイ解析 • メタボライト同定 • 系統樹推定 • 分子進化 • 集団遺伝学 • タンパク質構造モデリング • ドッキングシミュレーション • 分子動力学シミュレーション • 生物ネットワーク解析 • 統合オミクス解析 • モデル生物シミュレーション • 個別化医療 • バイオマーカー発見 • 疾患関連遺伝子解析 • エピジェネティック修飾解析 • クロマチン構造解析 • ヒストン修飾解析 • 次世代シーケンシングデータ解析 • 大規模データ解析 • マシンラーニングとAI応用 • データベース設計と管理 • 公共バイオデータベース利用 • データ統合と標準化 • 画像解析 • 3Dリコンストラクション • 生物イメージデータの量的解析何からやればよいのかわからん。。。

6 バイオインフォマティクスといえばこの人 https://seeds.office.hiroshima-u.ac.jp/profile/ja.9a89391e544690f2520e17560c007669.html • バイオインフォマティクスのことを調べていると坊農先生にたどり着く • 坊農先生のバイオインフォマティクスに関する書籍で勉強を始めることにした

7 最初に勉強した書籍 • 初心者にもわかりやすいPC解析環境から、実践的なバイオインフォマティクス解析まで網羅されたバイオインフォ初心者本 • こちらの内容を一通りさらう感じで勉強しました
https://www.amazon.co.jp/Dr-Bono-E3-81-AE-E7-94-9F-E5-91-BD-E7-A7-91- E5-AD-A6-E3-83-87-E3-83-BC-E3-82-BF-E8-A7-A3-E6-9E-90/dp/481573011 3/ref=dp_ob_image_bk https://www.amazon.co.jp/%E7%94%9F%E5%91%BD%E7%A7%91%E5%AD%A6%E8%80 %85%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AEDr-Bono%E3%83%87%E3%83 %BC%E3%82%BF%E8%A7%A3%E6%9E%90%E5%AE%9F%E8%B7%B5%E9%81%93% E5%A0%B4-%E5%9D%8A%E8%BE%B2%E7%A7%80%E9%9B%85/dp/4815701725/ref=p d_sim_d_sccl_4_3/356-7673021-0198244?pd_rd_w=feUAT&content-id=amzn1.sym.d68620 9d-8edb-4501-90de-4e255f5b32cf&pf_rd_p=d686209d-8edb-4501-90de-4e255f5b32cf&pf_rd _r=9TK49KJQF3DW8FP3SMSN&pd_rd_wg=0nnE3&pd_rd_r=b1b3c6d8-3c7c-4be8-8341-40 f645529706&pd_rd_i=4815701725&psc=1

8 やっぱりTogoTVは神 • ブラウザ上で何を操作すればよいのか動画で簡単に把握可能 • 最近はブラウザツールでだいぶいろいろと解析できるので、バイオインフォマティクスを専門としない方でもおすすめ https://togotv.dbcls.jp/course.html?id=PL0uaKHgcG00YDVET14wC0-GhpI5l3y8T-

9 当時の勉強の記録

バイオインフォについてなんとなくわかった気がする！でも...何を研究すればよいのだろうか...

11 文献調査を開始 suzuki et al., 2021 坊農ラボ所属の広島大学院生の鈴木さんが出している「酸化ストレスおよび低酸素ストレス応答遺伝子のメタ解析」に関する論文を読む

12 論文の流れ 1. 酸化ストレスおよび低酸素ストレスに関する RNA-seqデータ839セットを収集 2. IkraでRNA-seqデータの取得、処理、定量化 3. ON_ratio（DEG）・ON_scoreの計測 4.
Metascapeでエンリッチメント解析 suzuki et al., 2021

これなら自分にもできそう

14 やる方法は決まったのであとは研究テーマ設定だ！ • メタ解析ならとにかく公共データベースから大量のRNA-seqデータを取得すれば力技でなんとかなりそう • DEGさえ取ってしまえばあとはエンリッチメント解析すれば結果が出るこれならバイオインフォ初心者でも論文かけそうだ！！！自分にもできそうと思った理由

研究内容について

16 糖鎖が司る生命現象 Thomas D et al., 2020

17 糖鎖生合成経路 Yoshiaki Nakayama et al., 2020

18 糖鎖関連遺伝子（ glycogene） Theodore Groth et al., 2022

19 （仮説）glycogeneの変動を見ることで、糖鎖を対象とした医薬品の効果を変動させることができるのでは？ The image of medicine mix and antibody
is from TogoTV (© 2016 DBCLS TogoTV, CC-BY-4.0 https://creativecommons.org/licenses/by/4.0/deed.ja glycan therapy drug treatment glycogene↓↑ Alteration of glycan structure by drug treatment

20 研究デザイン koreeda et al., 2024 1. 公共データベースから肝臓がん細胞に薬剤刺激されている RNA-seqデータを取得
する 2. RNA-seqデータの処理 3. RatioとScoreを計算 4. glycogene(399遺伝子)だけを抽出 5. PCA、エンリッチメント解析、 PPIネットワーク解析をする

21 All Of gene Expression(AOE) • トランスクリプトームデータを横断的に探索できるサイト • 結果をJSONで返すAPIが公開されている

22 AOEの公開APIを叩いてリスト化 https://github.com/dogTK/GSEnumber_collecting 肝臓がんに関するワードを決める →リスト化 “liver cancer”, “hepatocel-lular carcinoma”, “cholangiocarcinoma”,
“hepatictumor”,“liver metastasis”, “hepatic neoplasm”, “hepatic lesions”, “liver disease.”

23 Overview of the properties of liver cancer cell-derived RNA-seq
data list koreeda et al., 2024 • SRAデータ：139 • データセット：86 • 肝臓がん細胞種：11 • 薬剤刺激：13

24 ikra v2.0.1 -RNAseq pipeline centered on Salmon- • 安水
良明さんを中心とした阪大医学部Python会の皆様が開発 • RNA-seqデータのfastqファイルから一気通貫して Scaled TPM データを得ることができる優れもの →Macbook(Quad-Core Intel Core i7, Memory 32GB) 環境で約4ヶ月間ikraをずっと回し続けた yyoshiaki/ikra: ikra v2.0

25 UMAP plot of the characteristics of the liver cancer
cell-derived RNA-seq data list ・それぞれのデータセットごとにクラスターができることが確認された・Glycogeneのほうがより明確にクラスターの分離を捉えている

26 PCA using glycogenes derived from liver cancer cells stimulated
by various compounds Score Plot ・HJP、HJP & CHI、CHI、およびAZDの薬剤がPC1と正の相関を持つことが観察された。・HHTにおいて、PC1に沿った正から負への広範な分離スペクトルが見られた。 Loading Plot ・PC1-PC2プロットでは、POFUT、EXT2、ALG6、GLCE、 CHST12、POMGNT2が、HJP、CHI、およびAZDの分離に寄与し、これらは第 4象限に向かって区別される。・PC1-PC3プロットでは、ST3GAL1、FUT6、HAS2がCF の分離に寄与し、これらは第 3象限に向かって区別される。

27 Analysis of the nature of varying glycogenes in drug-stimulated
liver cancer cells using score koreeda et al., 2024 ・ScoreにおいてOGAが42で最高であり、PIGZが-33で最低であった。今回用いた薬剤刺激で最も変動し易いglycogeneである。

28 Analysis of the nature of varying glycogenes in drug-stimulated
liver cancer cells using score koreeda et al., 2024 ・スコアを用いた PPIネットワーク解析。中心性スコアが高いノードを大きくしている。薄緑色がスコアで上位であった glycogeneを表している。・B4GALT1がアップレギュレーションの中で最も中心性スコアが高く、 GMDSはダウンレギュレーションの中で最も中心性スコアが高かった。・これらglycogeneは薬剤刺激においてのハブ遺伝子になっている。

29 glyco-pathway listをキュレーションするのに使った論文 Theodore Groth et al., 2022

30 Glycopathway enrichment analysis using glycogenes from liver cancer cells
stimulated by various drugs koreeda et al., 2024 • HomoharringtonineおよびCHIR98014刺激は HepG2細胞においてglucuronidationが活性化され、Hjp-6-171刺激によって抑制される。 • Tigecycline刺激はMHCC97H細胞において Fucosylationを活性化する。 • Homoharringtonine刺激はHepG2細胞においてPOMGNT2 Type/O-Man pathwayを抑制する。 • Cinobufagin刺激はcapping O-GalNAc pathwayに属するST3GAL1遺伝子を活性化する。 • GDF11刺激はHepG2細胞においてHS sulfation PathwayのHS3ST3A1遺伝子発現を抑制する。

31 ・8つの肝がん細胞株と 13種類の薬物を含む86のデータセットを公共データベースから取得。 399 のglycogeneを特定した。・PCA ではPOFUT、EXT2、ALG6、GLCE、CHST12、POMGNT2遺伝子が、HJP、CHI、AZDの分離に寄与し、ST3GAL1、FUT6、HAS2がCinobufaginの分離に寄与していた。・ScoreにおいてOGAが42とトップであり、PIGZが-33で最も低かった。今回用いた薬剤刺激で最も変動し易いglycogenesとなった。
・PPIネットワーク解析では、 B4GALT1がアップレギュレーションの中で最も中心性スコアが高く、 GMDSはダウンレギュレーションの中で最も中心性スコアが高かった。これら glycogeneは薬剤刺激においてのハブ遺伝子になっている。・CHIR98014、Homoharringtonine、Tigecycline、Cinobufagin、GDF11はそれぞれ、 glucuronidation、てFucosylation、POMGNT2 Type/O-Man pathway、capping O-GalNAc pathway、HS sulfation Pathwayを変動させていた。結果総括

32 ・薬剤刺激によるglycogeneシグネチャを捉えることで糖鎖に関わるパスウェイ変化やバイオマーカーとなりうる遺伝子を絞ることができた・肝臓がん細胞種によって薬剤の効き方も変わってくることがわかった・とはいえ、遺伝子レベルの話であるので、実際の細胞表面の糖鎖はどのような状態かわからないという点に注
意が必要考察と手法の限界 Homoharringtoninと各肝臓がん細胞種

将来の展望

34 糖鎖構造解析の難しさ・質量分析、GC-MS、結合特異的グリコシダーゼ、NMRなど、収斂した実験技術が必要。標準品も少ない・基本全身に存在する物質なため気軽に glycogeneをKOできない（フェノタイプを捉える根拠を絞るのが難しい）バイオインフォマティクスのアプローチで糖鎖構造解析の負担を減らす
DNAやタンパク質と比較したときの糖鎖の構造多様性

35 LINCSを活用した glycogeneシグネチャの網羅的理解 LINCS ・さまざまな細胞タイプに対して薬物やその他の生物学的因子を処理・1,000のランドマーク遺伝子を測定し、その結果から全ゲノム発現プロファイルを推定している Glycogeneの発現量から細胞表面の糖鎖構造を予測し操作できるようにする

36 ドラックリポジショニング・既存の薬物を新しい治療用途に再利用・既存の薬物がすでにヒトでの安全性や薬物動態が確立されているため、従来の新薬開発に比べてコストと時間を大幅に削減できる Various drug treatment Alteration of
glycan structure by drug treatment ・それぞれ化合物が各細胞種の glycogenesの発現をどのように変動させるかを予測するモデルを構築する →細胞表面の糖鎖構造を自在にアレンジできるようになり、糖鎖を標的とした治療薬の効果を高めることができる

感想とTips

38 在野研究で論文書いて良かったこと • 本業をやりながら、論文執筆を行う一通りの流れを体験できた ◦ 本業をやりながらでも研究業績を積む方法を自分の中で確立することができたのは大きい。 ◦ ポスドクをやるのは不安だったので、データエンジニアで安定した年収を稼ぎながら、研究活動をできるのは心理的な安心要素
• 研究テーマを自由に設定できる ◦ 基本自分のPC以外はお金がかからない。 ◦ 研究費などで成果発表の必要もない。

39 在野研究で論文書いて大変だったこと • ディスカッションする相手がいないので孤独。研究の方向性があっているかわからない。 ◦ 知り合いに声をかけて論文の感想を聞いたりしていた • Macbook(Quad-Core Intel Core
i7, Memory 32GB)環境で約4ヶ月間ikraをずっと回し続けた ◦ これが一番ハードな作業。メタ解析はそこまで優しい研究ではなかった。 ◦ データが出すぎるので注目するポイントに絞らないと解析仕切らない

40 在野研究Tips • 英文翻訳と英文校正はChatGPTにまかせてOK ◦ 今回の論文は英語の質については特にレビュワーから指摘されることはなかった • Google の画像検索でライブラリ名ややりたい解析方法を調べるといい感じの可視化方法が見つかる場合もある

41 バイオインフォマティクス Tips • バイオインフォマティクスはたくさんの書籍が出ているのでやる気があれば全然独学でキャッチアップ可能 ◦ 今はChatGPTに聞きながらコードを作成することも容易 •
どちらかというと、バイオインフォマティクスで出したグラフの解釈の仕方を覚えるのが大変 ◦ PCAではどこまで主張できるのか、エンリッチメント解析では何がわかるのか、など ◦ 論文を読んでこのグラフでは何を主張しているのかを読んで覚えていく

42 本研究の流れはそのまま別の論文に応用できます • 今回、私が取り組んだのはglycogeneだったが、例えば脂質代謝や転写因子など自分の興味ある遺伝子リストに絞れば、簡単に新規性を出すことができる • エンリッチメント解析のときにはglycogeneパスウェイをキュレーションしましたが、難しいならMetascapeに投げるだけでもOK

43 肝臓がん細胞の薬剤刺激のデータセットは公開しています https://figshare.com/articles/dataset/Whole_Gene_Matrix_Drug-Induced_Liver_Cancer_Cell_RNA-seq_Data_of_All_Genes/23573871

最後に

45 Snowflake https://www.snowflake.com/blog/beyond-modern-data-architecture/ クラウドベースのAI・コンピュートリソースといったビックデータに関わるオール・インプラットフォーム

46 次回イベント登壇予定 Snowflakeで実現する All-in-One Bioinformatics: インシリコ創薬、疾患バリアント解析、シングルセルRNA-seqまでというタイトルで登壇する予定です！！！こちらもぜひご参加ください！上記QRコードを読み取るか、 https://biopackathon.connpass.com/event/320217/
へアクセスください

47 各種SNSフォローしていただけると嬉しいです X（Twitter）：@cs_dev_engineer Medium：@t.koreeda LinkedIn：@tkoreeda Zenn：@t_koreeda Zennでの発信例

THANK YOU

第28回 著者ゼミ：Identification of drug responsible gl...

第28回 著者ゼミ：Identification of drug responsible glycogene signature in liver carcinoma from meta-analysis using RNA-seq data

More Decks by Tatsuya Koreeda

Other Decks in Research

Featured

Transcript

第28回著者ゼミ：Identification of drug responsible gl...

第28回著者ゼミ：Identification of drug responsible glycogene signature in liver carcinoma from meta-analysis using RNA-seq data