Slide 1

Slide 1 text

バイオインフォ初心者が 独学でバイオインフォを学んで 論文を出した話 2024年6月15日 21:00 著者ゼミ Tatsuya Koreeda

Slide 2

Slide 2 text

2 Agenda バイオインフォを学んだきっかけ 研究内容について 将来の展望 感想とTips

Slide 3

Slide 3 text

バイオインフォを学んだきっかけ

Slide 4

Slide 4 text

4 プログラミングの便利さに気づいた新卒 ● プログラミングの便利さに気づく。 ● せっかくなら生物学と情報学の間を取っ た学問をやりたい ● バイオインフォを始める めっちゃ便利じゃん!

Slide 5

Slide 5 text

5 幅広いバイオインフォマティクス分野 ● ゲノムシーケンシング ● ゲノムアセンブリ ● ゲノムアノテーション ● RNAシーケンシング (RNA-seq) ● 遺伝子発現解析 ● 代謝経路解析 ● スプライシングバリアント解析 ● タンパク質同定 ● タンパク質発現解析 ● タンパク質構造予測 ● タンパク質相互作用解析 ● 代謝物プロファイリング ● 代謝パスウェイ解析 ● メタボライト同定 ● 系統樹推定 ● 分子進化 ● 集団遺伝学 ● タンパク質構造モデリング ● ドッキングシミュレーション ● 分子動力学シミュレーション ● 生物ネットワーク解析 ● 統合オミクス解析 ● モデル生物シミュレーション ● 個別化医療 ● バイオマーカー発見 ● 疾患関連遺伝子解析 ● エピジェネティック修飾解析 ● クロマチン構造解析 ● ヒストン修飾解析 ● 次世代シーケンシングデータ解析 ● 大規模データ解析 ● マシンラーニングとAI応用 ● データベース設計と管理 ● 公共バイオデータベース利用 ● データ統合と標準化 ● 画像解析 ● 3Dリコンストラクション ● 生物イメージデータの量的解析 何からやればよいのかわからん。。。

Slide 6

Slide 6 text

6 バイオインフォマティクスといえばこの人 https://seeds.office.hiroshima-u.ac.jp/profile/ja.9a89391e544690f2520e17560c007669.html ● バイオインフォマティクスのことを調べ ていると坊農先生にたどり着く ● 坊農先生のバイオインフォマティクス に関する書籍で勉強を始めることにし た

Slide 7

Slide 7 text

7 最初に勉強した書籍 ● 初心者にもわかりやすいPC解析環境 から、実践的なバイオインフォマティク ス解析まで網羅されたバイオインフォ 初心者本 ● こちらの内容を一通りさらう感じで勉強 しました https://www.amazon.co.jp/Dr-Bono-E3-81-AE-E7-94-9F-E5-91-BD-E7-A7-91- E5-AD-A6-E3-83-87-E3-83-BC-E3-82-BF-E8-A7-A3-E6-9E-90/dp/481573011 3/ref=dp_ob_image_bk https://www.amazon.co.jp/%E7%94%9F%E5%91%BD%E7%A7%91%E5%AD%A6%E8%80 %85%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AEDr-Bono%E3%83%87%E3%83 %BC%E3%82%BF%E8%A7%A3%E6%9E%90%E5%AE%9F%E8%B7%B5%E9%81%93% E5%A0%B4-%E5%9D%8A%E8%BE%B2%E7%A7%80%E9%9B%85/dp/4815701725/ref=p d_sim_d_sccl_4_3/356-7673021-0198244?pd_rd_w=feUAT&content-id=amzn1.sym.d68620 9d-8edb-4501-90de-4e255f5b32cf&pf_rd_p=d686209d-8edb-4501-90de-4e255f5b32cf&pf_rd _r=9TK49KJQF3DW8FP3SMSN&pd_rd_wg=0nnE3&pd_rd_r=b1b3c6d8-3c7c-4be8-8341-40 f645529706&pd_rd_i=4815701725&psc=1

Slide 8

Slide 8 text

8 やっぱりTogoTVは神 ● ブラウザ上で何を操作すればよいのか動画で簡単に把握可能 ● 最近はブラウザツールでだいぶいろいろと解析できるので、バイオインフォマティクスを 専門としない方でもおすすめ https://togotv.dbcls.jp/course.html?id=PL0uaKHgcG00YDVET14wC0-GhpI5l3y8T-

Slide 9

Slide 9 text

9 当時の勉強の記録

Slide 10

Slide 10 text

バイオインフォについてなんとなくわかった気がする! でも...何を研究すればよいのだろうか...

Slide 11

Slide 11 text

11 文献調査を開始 suzuki et al., 2021 坊農ラボ所属の広島大学院生の鈴木さん が出している「酸化ストレスおよび低酸素ス トレス応答遺伝子のメタ解析」に関する論文 を読む

Slide 12

Slide 12 text

12 論文の流れ 1. 酸化ストレスおよび低酸素ストレスに関する RNA-seqデータ839セットを収集 2. IkraでRNA-seqデータの取得、処理、定量化 3. ON_ratio(DEG)・ON_scoreの計測 4. Metascapeでエンリッチメント解析 suzuki et al., 2021

Slide 13

Slide 13 text

これなら自分にもできそう

Slide 14

Slide 14 text

14 やる方法は決まったのであとは研究テーマ設定だ! ● メタ解析ならとにかく公共データベースから大量のRNA-seqデータを取得すれば 力技でなんとかなりそう ● DEGさえ取ってしまえばあとはエンリッチメント解析すれば結果が出る これならバイオインフォ初心者でも論文かけそうだ!!! 自分にもできそうと思った理由

Slide 15

Slide 15 text

研究内容について

Slide 16

Slide 16 text

16 糖鎖が司る生命現象 Thomas D et al., 2020

Slide 17

Slide 17 text

17 糖鎖生合成経路 Yoshiaki Nakayama et al., 2020

Slide 18

Slide 18 text

18 糖鎖関連遺伝子( glycogene) Theodore Groth et al., 2022

Slide 19

Slide 19 text

19 (仮説)glycogeneの変動を見ることで、糖鎖を対象とした 医薬品の効果を変動させることができるのでは? The image of medicine mix and antibody is from TogoTV (© 2016 DBCLS TogoTV, CC-BY-4.0 https://creativecommons.org/licenses/by/4.0/deed.ja glycan therapy drug treatment glycogene↓↑ Alteration of glycan structure by drug treatment

Slide 20

Slide 20 text

20 研究デザイン koreeda et al., 2024 1. 公共データベースから肝臓がん細胞に薬 剤刺激されている RNA-seqデータを取得 する 2. RNA-seqデータの処理 3. RatioとScoreを計算 4. glycogene(399遺伝子)だけを抽出 5. PCA、エンリッチメント解析、 PPIネット ワーク解析をする

Slide 21

Slide 21 text

21 All Of gene Expression(AOE) ● トランスクリプトームデータを横断的に探索できるサイト ● 結果をJSONで返すAPIが公開されている

Slide 22

Slide 22 text

22 AOEの公開APIを叩いてリスト化 https://github.com/dogTK/GSEnumber_collecting 肝臓がんに関するワードを決める →リスト化 “liver cancer”, “hepatocel-lular carcinoma”, “cholangiocarcinoma”, “hepatictumor”,“liver metastasis”, “hepatic neoplasm”, “hepatic lesions”, “liver disease.”

Slide 23

Slide 23 text

23 Overview of the properties of liver cancer cell-derived RNA-seq data list koreeda et al., 2024 ● SRAデータ:139 ● データセット:86 ● 肝臓がん細胞種:11 ● 薬剤刺激:13

Slide 24

Slide 24 text

24 ikra v2.0.1 -RNAseq pipeline centered on Salmon- ● 安水 良明さんを中心とした阪大医学部Python会の 皆様が開発 ● RNA-seqデータのfastqファイルから一気通貫して Scaled TPM データを得ることができる優れもの →Macbook(Quad-Core Intel Core i7, Memory 32GB) 環境で約4ヶ月間ikraをずっと回し続けた yyoshiaki/ikra: ikra v2.0

Slide 25

Slide 25 text

25 UMAP plot of the characteristics of the liver cancer cell-derived RNA-seq data list ・それぞれのデータセットごとにクラスターができることが確認された ・Glycogeneのほうがより明確にクラスターの分離を捉えている

Slide 26

Slide 26 text

26 PCA using glycogenes derived from liver cancer cells stimulated by various compounds Score Plot ・HJP、HJP & CHI、CHI、およびAZDの薬剤がPC1と正の 相関を持つことが観察された。 ・HHTにおいて、PC1に沿った正から負への広範な分離ス ペクトルが見られた。 Loading Plot ・PC1-PC2プロットでは、POFUT、EXT2、ALG6、GLCE、 CHST12、POMGNT2が、HJP、CHI、およびAZDの分離 に寄与し、これらは第 4象限に向かって区別される。 ・PC1-PC3プロットでは、ST3GAL1、FUT6、HAS2がCF の分離に寄与し、これらは第 3象限に向かって区別され る。

Slide 27

Slide 27 text

27 Analysis of the nature of varying glycogenes in drug-stimulated liver cancer cells using score koreeda et al., 2024 ・ScoreにおいてOGAが42で最高であり、PIGZが-33で最低であった。今回用 いた薬剤刺激で最も変動し易いglycogeneである。

Slide 28

Slide 28 text

28 Analysis of the nature of varying glycogenes in drug-stimulated liver cancer cells using score koreeda et al., 2024 ・スコアを用いた PPIネットワーク解析。中心性スコアが高いノードを大きくしている。薄緑色がスコアで上位であった glycogeneを表している。 ・B4GALT1がアップレギュレーションの中で最も中心性スコアが高く、 GMDSはダウンレギュレーションの中で最も 中心性スコアが高かった。 ・これらglycogeneは薬剤刺激においてのハブ遺伝子になっている。

Slide 29

Slide 29 text

29 glyco-pathway listをキュレーションするのに使った論文 Theodore Groth et al., 2022

Slide 30

Slide 30 text

30 Glycopathway enrichment analysis using glycogenes from liver cancer cells stimulated by various drugs koreeda et al., 2024 ● HomoharringtonineおよびCHIR98014刺激は HepG2細胞においてglucuronidationが活性化 され、Hjp-6-171刺激によって抑制される。 ● Tigecycline刺激はMHCC97H細胞において Fucosylationを活性化する。 ● Homoharringtonine刺激はHepG2細胞におい てPOMGNT2 Type/O-Man pathwayを抑制す る。 ● Cinobufagin刺激はcapping O-GalNAc pathwayに属するST3GAL1遺伝子を活性化す る。 ● GDF11刺激はHepG2細胞においてHS sulfation PathwayのHS3ST3A1遺伝子発現を 抑制する。

Slide 31

Slide 31 text

31 ・8つの肝がん細胞株と 13種類の薬物を含む86のデータセットを公共データベースから取得。 399 のglycogeneを特定した。 ・PCA ではPOFUT、EXT2、ALG6、GLCE、CHST12、POMGNT2遺伝子が、HJP、CHI、AZDの 分離に寄与し、ST3GAL1、FUT6、HAS2がCinobufaginの分離に寄与していた。 ・ScoreにおいてOGAが42とトップであり、PIGZが-33で最も低かった。今回用いた薬剤刺激で最も 変動し易いglycogenesとなった。 ・PPIネットワーク解析では、 B4GALT1がアップレギュレーションの中で最も中心性スコアが高く、 GMDSはダウンレギュレーションの中で最も中心性スコアが高かった。これら glycogeneは薬剤刺 激においてのハブ遺伝子になっている。 ・CHIR98014、Homoharringtonine、Tigecycline、Cinobufagin、GDF11はそれぞれ、 glucuronidation、てFucosylation、POMGNT2 Type/O-Man pathway、capping O-GalNAc pathway、HS sulfation Pathwayを変動させていた。 結果総括

Slide 32

Slide 32 text

32 ・薬剤刺激によるglycogeneシグネ チャを捉えることで糖鎖に関わるパス ウェイ変化やバイオマーカーとなりうる 遺伝子を絞ることができた ・肝臓がん細胞種によって薬剤の効き 方も変わってくることがわかった ・とはいえ、遺伝子レベルの話である ので、実際の細胞表面の糖鎖はどの ような状態かわからないという点に注 意が必要 考察と手法の限界 Homoharringtoninと各肝臓がん細胞種

Slide 33

Slide 33 text

将来の展望

Slide 34

Slide 34 text

34 糖鎖構造解析の難しさ ・質量分析、GC-MS、結合特異的グリコシ ダーゼ、NMRなど、収斂した実験技術が 必要。標準品も少ない ・基本全身に存在する物質なため気軽に glycogeneをKOできない(フェノタイプを捉 える根拠を絞るのが難しい) バイオインフォマティクスのアプローチで糖 鎖構造解析の負担を減らす DNAやタンパク質と比較したときの糖鎖の構造多様性

Slide 35

Slide 35 text

35 LINCSを活用した glycogeneシグネチャの網羅的理解 LINCS ・さまざまな細胞タイプに対して薬物やその他の 生物学的因子を処理 ・1,000のランドマーク遺伝子を測定し、その結果 から全ゲノム発現プロファイルを推定している Glycogeneの発現量から細胞表面の糖鎖構 造を予測し操作できるようにする

Slide 36

Slide 36 text

36 ドラックリポジショニング ・既存の薬物を新しい治療用途に再利用 ・既存の薬物がすでにヒトでの安全性や薬物動態が確立されているため、従来の新薬開発に比べてコストと時 間を大幅に削減できる Various drug treatment Alteration of glycan structure by drug treatment ・それぞれ化合物が各細胞種の glycogenesの発現をどのように変動させるかを予測するモデルを構築する →細胞表面の糖鎖構造を自在にアレンジできるようになり、 糖鎖を標的とした治療薬の効果を高める ことができる

Slide 37

Slide 37 text

感想とTips

Slide 38

Slide 38 text

38 在野研究で論文書いて良かったこと ● 本業をやりながら、論文執筆を行う一通りの流れを体験できた ○ 本業をやりながらでも研究業績を積む方法を自分の中で確立することができたの は大きい。 ○ ポスドクをやるのは不安だったので、データエンジニアで安定した年収を稼ぎなが ら、研究活動をできるのは心理的な安心要素 ● 研究テーマを自由に設定できる ○ 基本自分のPC以外はお金がかからない。 ○ 研究費などで成果発表の必要もない。

Slide 39

Slide 39 text

39 在野研究で論文書いて大変だったこと ● ディスカッションする相手がいないので孤独。研究の方向性があっているかわからない。 ○ 知り合いに声をかけて論文の感想を聞いたりしていた ● Macbook(Quad-Core Intel Core i7, Memory 32GB)環境で約4ヶ月間ikraをずっと回し 続けた ○ これが一番ハードな作業。メタ解析はそこまで優しい研究ではなかった。 ○ データが出すぎるので注目するポイントに絞らないと解析仕切らない

Slide 40

Slide 40 text

40 在野研究Tips ● 英文翻訳と英文校正はChatGPTにまかせてOK ○ 今回の論文は英語の質については特にレビュワーから指摘されることはなかった ● Google の画像検索でライブラリ名ややりたい解析方法を調べるといい感じの可視化方法が 見つかる場合もある

Slide 41

Slide 41 text

41 バイオインフォマティクス Tips ● バイオインフォマティクスはたくさんの書籍が出ているので やる気があれば全然独学でキャッチアップ可能 ○ 今はChatGPTに聞きながらコードを作成することも容 易 ● どちらかというと、バイオインフォマティクスで出したグラフ の解釈の仕方を覚えるのが大変 ○ PCAではどこまで主張できるのか、エンリッチメント解 析では何がわかるのか、など ○ 論文を読んでこのグラフでは何を主張しているのかを 読んで覚えていく

Slide 42

Slide 42 text

42 本研究の流れはそのまま別の論文に応用できます ● 今回、私が取り組んだのはglycogeneだったが、例えば脂質代謝や転写因子など自分 の興味ある遺伝子リストに絞れば、簡単に新規性を出すことができる ● エンリッチメント解析のときにはglycogeneパスウェイをキュレーションしましたが、難しい ならMetascapeに投げるだけでもOK

Slide 43

Slide 43 text

43 肝臓がん細胞の薬剤刺激のデータセットは公開しています https://figshare.com/articles/dataset/Whole_Gene_Matrix_Drug-Induced_Liver_Cancer_Cell_RNA-seq_Data_of_All_Genes/23573871

Slide 44

Slide 44 text

最後に

Slide 45

Slide 45 text

45 Snowflake https://www.snowflake.com/blog/beyond-modern-data-architecture/ クラウドベースのAI・コンピュートリソースといったビックデータに関わるオール・インプラットフォーム

Slide 46

Slide 46 text

46 次回イベント登壇予定 Snowflakeで実現する All-in-One Bioinformatics: インシリコ創薬、疾患バリアント解析、シング ルセルRNA-seqまで というタイトルで登壇する予定です!!!こちらもぜひご参加ください! 上記QRコードを読み取るか、 https://biopackathon.connpass.com/event/320217/ へアクセスくだ さい

Slide 47

Slide 47 text

47 各種SNSフォローしていただけると嬉しいです X(Twitter):@cs_dev_engineer Medium:@t.koreeda LinkedIn:@tkoreeda Zenn:@t_koreeda Zennでの発信例

Slide 48

Slide 48 text

THANK YOU