Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
oku-slide-20221129
Search
Makito Oku
November 27, 2022
Science
0
150
oku-slide-20221129
対照群を用いない同期性揺らぎ遺伝子の抽出法
奥 牧人 (富山大学)
2022/11/29
第72回 バイオ情報学研究会
Makito Oku
November 27, 2022
Tweet
Share
More Decks by Makito Oku
See All by Makito Oku
oku-slide-20240802
okumakito
0
73
oku-slide-20231129
okumakito
0
100
oku-slide-20230827
okumakito
0
110
oku-slide-20230213
okumakito
0
210
oku-slide-20221212
okumakito
0
79
oku-slide-20221115
okumakito
0
290
oku-slide-20220820
okumakito
0
270
oku-slide-stat1-1
okumakito
0
270
oku-slide-stat1-2
okumakito
0
300
Other Decks in Science
See All in Science
Презентация программы магистратуры СПбГУ "Искусственный интеллект и наука о данных"
dscs
0
390
Machine Learning for Materials (Lecture 6)
aronwalsh
0
510
大規模画像テキストデータのフィルタリング手法の紹介
lyakaap
6
1.5k
(論文読み)贈り物の交換による地位の競争と社会構造の変化 - 文化人類学への統計物理学的アプローチ -
__ymgc__
1
100
ほたるのひかり/RayTracingCamp10
kugimasa
0
210
Online Feedback Optimization
floriandoerfler
0
300
DEIM2024 チュートリアル ~AWSで生成AIのRAGを使ったチャットボットを作ってみよう~
yamahiro
3
1.3k
Celebrate UTIG: Staff and Student Awards 2024
utig
0
460
学術講演会中央大学学員会八王子支部
tagtag
0
230
小杉考司(専修大学)
kosugitti
2
560
白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_20240919
brainpadpr
1
490
Machine Learning for Materials (Lecture 9)
aronwalsh
0
210
Featured
See All Featured
Docker and Python
trallard
40
3.1k
Facilitating Awesome Meetings
lara
50
6.1k
Done Done
chrislema
181
16k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
410
Visualization
eitanlees
145
15k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
What's in a price? How to price your products and services
michaelherold
243
12k
Site-Speed That Sticks
csswizardry
0
27
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
What's new in Ruby 2.0
geeforr
343
31k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Transcript
対照群を用いない 同期性揺らぎ遺伝子の抽出法 奥 牧人 (富山大学) 2022/11/29 第72回 バイオ情報学研究会 1 /
32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 2
/ 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 3
/ 32
同期性揺らぎ遺伝子 発現変動遺伝子 は、平均 が増加または減少した遺伝子 同期性揺らぎ遺伝子 は、分布幅 と 同期性 が増加した遺伝子 4
/ 32
本研究の目的 適切な対照群が存在しない場合もある。 サンプル数が少ない データの品質が悪い そこで本研究では、対照群を用いない 同期性揺らぎ遺伝子の抽出 法の開発を目的とした。 本当の経緯 対照群の候補が2つあるデータがあった。 ある先生より、対照群により結果は変わるか、尋ねられた。
試してみたら結構違った。 いっそ対照群なしで、と試してみたら意外とうまくいった。 5 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 6
/ 32
既存の抽出法 第一段階 実験群の中央絶対偏差が対照群の中央絶対偏差の 倍より 大きい遺伝子を選択 閾値 の既定値は 第二段階 残った遺伝子に階層的クラスタリングを適用 類似度:
スピアマンの相関係数 連結法: 平均連結法 分割基準: 類似度に対する閾値 θ θ 2 ϕ = tanh (3/√N − 3) 7 / 32
既存の抽出法、続き 最大クラスタと、その半分より大きいクラスタを出力 ただし、突出した大きなクラスタがいない場合、同程度の大きさ の小規模なクラスタが多く生成され、非常に多くの遺伝子が出力 される問題がある。 今回は以下の制限を追加 最大クラスタ数: 3 最小クラスタサイズ: 10
8 / 32
外れ値に対する脆弱性 外れ値に弱い: 平均、標準偏差、ピアソンの相関係数 外れ値に強い: 中央値、中央絶対偏差、スピアマンの相関係数 9 / 32
二段階に分ける理由 実データの統計量の分布と、真の値が全ての遺伝子で同じと仮定 した場合の分布を比較 相関係数は、揺らぎの大きな遺伝子同士を除き、信頼性が低い。 10 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 11
/ 32
提案手法 既存の二段階法と第一段階のみが異なる。 第一段階 実験群の中央絶対偏差がそれらの中央値の 倍より大きい 遺伝子を選択 (対照群は使わない) θ 12 /
32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 13
/ 32
同期性揺らぎ遺伝子のスコア 集団スコア 同期性揺らぎが最も強かった実験条件の同定などに使う。 標準偏差の平均 ピアソンの相関係数の絶対値の平均 標本共分散行列の最大固有値 個別スコア ノックダウン実験などの候補を絞るのに使う。 各遺伝子の標準偏差 標本共分散行列の支配的固有ベクトルの絶対値
制御理論の観点から最適、井村スコアとも呼ばれる。 14 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 15
/ 32
人工データによる評価法 正解が分かっているデータを用意し、当てられるかを調べる。 の行列を つ用意し、乱数で値を埋める。 片方の 行に 共通ノイズ を加算し、揺らぎを 倍にする。 行毎に一様分布
に従う乱数を掛ける。 10 000⾏ N列 対照群データ 実験群データ 乱数 乱数 500⾏にだけ 共通ノイズを 加算 10 4 × N 2 500 5 [0.1, 1] 16 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 17
/ 32
A B |A∩B| |A∪B| J = 実データによる評価法 てんかんマウスの実験データ (GSE77578) を使用
対照群 (溶媒のみ、 ) 実験群 (薬剤投与 3 mg/kg, ) 再現性の評価手順 1. 全データを使い同期性揺らぎ遺伝子を抽出 2. 実験群から1サンプル除外したとき結果が どれだけ異なるかをJaccard指数で評価し、 最悪ケースを除外 3. 以下同様に繰り返す N = 17 N = 18 18 / 32
実データの前処理 背景ノイズを多く含む平均発現量が7.5未満の遺伝子を除外 バッチ効果と思われるブロックパターンを示す遺伝子を除外 19 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 20
/ 32
人工データの結果 提案手法 (対照群なし) はF1スコアが最大約 低下した。 適合率は対照群ありと同程度、再現率は最大約 低下した。 0.08 0.15 21
/ 32
実データの結果 (再現性) 提案手法は十分高い再現性を示した。 下図では対照群ありの場合より良いが、条件次第で逆転した。 22 / 32
実データの結果 (ヒートマップ) 提案手法の出力遺伝子は実験群で強い同期性揺らぎを示した。 集団スコアは対照群ありで2.5倍、対照群なしで2.1倍増えた。 23 / 32
順位 遺伝子記号 スコア 1 Clic6 0.345 2 Enpp2 0.311 3
1600023A02Rik 0.290 4 Folr1 0.277 5 1500015O10Rik 0.265 6 Kl 0.196 7 Sostdc1 0.190 8 Igf2 0.185 9 Aqp1 0.183 10 Slc13A4 0.180 順位 遺伝子記号 スコア 1 Clic6 0.299 2 Ttr 0.277 3 Enpp2 0.273 4 1600023A02Rik 0.255 5 Kcne2 0.245 6 Folr1 0.242 7 1500015O10Rik 0.235 8 Kl 0.167 9 Sostdc1 0.166 10 Igfbp2 0.165 実データの結果 (個別スコア) 対照群あり (左) となし (右) で上位10個中7個が共通していた。 24 / 32
実データの結果 (平均値の偏り) 対照群なしでは平均値の高い遺伝子がやや選ばれやすかった。 対照群ありでは特に平均値の偏りはほとんど無かった。 25 / 32
実データの結果 (対照群のMAD) 対照群なしでは対照群でMADの高い遺伝子が優先的に選ばれた。 対照群ありでは対照群でMADの低い遺伝子が優先的に選ばれた。 26 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 27
/ 32
まとめと考察 対照群を用いない同期性揺らぎ遺伝子の抽出法を提案した。 提案手法は人工データと実データで実用的な性能を示した。 適切な対照群がない場合、提案手法の使用は妥当と考えられる。 ただし、以下の点に注意 発現量の高い遺伝子がやや選ばれやすい。 条件によらず同期性揺らぎを示す遺伝子も含まれる。 考察 人工データで適合率が下がらなかった理由 常に出てくる遺伝子の除外方法
28 / 32
ご清聴どうもありがとうございました! 29 / 32
エンリッチメント解析の手順 DAVID (https://david.ncifcrf.gov/) を使用 データが古く遺伝子記号のままでは使えなかったため、一旦 Entrez Gene IDに変換してから使用 GO BP
DIRECTを使用 カウント4以上、 の注釈を選択 q < 0.05 30 / 32
エンリッチメント解析 (対照群あり) List size 34, Population size 20136 GO annotation
Count/Pop hits p-value q-value lipid metabolic process 6/728 1.2E-03 1.9E-03 transmembrane transport 5/437 7.8E-04 1.9E-03 31 / 32
エンリッチメント解析 (対照群なし) List size 40, Population size 20136 GO annotation
Count /Pop hits p-value q-value aging 5/191 3.7E-05 1.8E-04 lipid metabolic process 5/728 1.4E-02 3.5E-02 negative regulation of transcription from RNA polymerase II promoter 5/975 4.3E-02 4.3E-02 ion transport 4/599 3.0E-02 4.3E-02 negative regulation of apoptotic process 4/659 4.1E-02 4.3E-02 32 / 32