GSEA-InContext: identifying novel and common patterns in expression experiments

ISMB2018読み会 GSEA-InContext: identifying novel and common patterns in expression experiments
Rani K. Powers, Andrew Goodspeed, Harrison Pielke-Lombardo, Aik-Choon Tan and James C. Costello Bioinformatics, 34, 2018, i555–i564 doi: 10.1093/bioinformatics/bty271 報告者：中央大学理工学部物理学科　田口善弘

論文の目的：論文の目的： GSEA(Gene Set Enrichment Analysis)は「遺伝子を『何か（例：発現差の大きさ）の順番』で並べた場合、順番には意味がある。ある遺伝子セットAが有意に上位に並ぶなら、そのセットには『何か』の大きさが有意に大きい遺伝子のセットであるといえるだろう」
というものですが、その場合「有意に上位に並ぶ」の判定をするときの比較対象（＝帰無仮説）が「完全にランダムな並び」になっている。しかし、遺伝子はお互いに相関しているんだから、『何か』と全く無関係じゃない限り、遺伝子セットAはどっちにしろグループで動く（上位に来る）だろう。そうなると「遺伝子セットAに意味があるか？」という検証にはなっても「順位付けした『何か』と関係している」と言えなくないか？この問題は解決するには比較対象を完全にランダムな並びじゃなく、いろいろな実験での並びの集合に置き換えないといけないのでは？

比較対象比較対象・GEOから集めた・Afymetrix Human Genome U133 Plus 2.0 Array限定
・small molecule test限定・遺伝子の順位リストを442個作成 GSEAPreranked: GSEAPreranked:入力がｍ個の遺伝子場合、ｍ個の遺伝子をランダムに選んで比較、入力が有意に上位のあるかを比較 GSEA-InContext GSEA-InContext：：４４２個の順位リストをつかい、これらのリストで上位にあるという重み付けをしてｍ個の遺伝子を選んで比較、入力が有意に上位にあるかを比較

B(α、β）：β関数 β二項分布：バイアスのあるコインがたくさん入った袋がある。そこから一枚コインを一枚抜き出して、n 回投げた。表の出る回数 k が従う分布は？ただし袋の中のコインの表の出る確率 p はベータ分布に従うこと
とする。 α、βの値は４４２個の遺伝子ランクをつかって、遺伝子ごとに決定ある遺伝子がｒ位になる確率：β二項分布 ∫0 1 p(α−1)(1−p)α dp

単純ランダムより実験に基づくほうがランクの期待値の幅（分散）は大きい　→順位が高いものは高く、低いものは低くなりやすい。

試験用遺伝子データセット MSigDB :The Hallmarks collection　（５０クラス）４４２遺伝子順位セット（バックグランウンド） →薬剤の標的蛋白で予めグループ化標的蛋白臓器

確かにこうすると遺伝
子セットの有意度は低下論文ではこれをア｜ティファクトの減少と解釈

GSEA-InContextだけで有意になるものもある（バックグラウンドをうまく選べば）

なんでなんでISMB ISMB２０１８に採択されたの？２０１８に採択されたの？正直、何が面白いのか皆目わかりません。コレポンはgoogle scholarの引用数が４０００ある（２００７年から論文を書き始めた）。実験系の論文が多く、ファーストやコレポンは少ない。多分、最初の論文から１０年でgoogle
scholarの引用数を４０００くらいにするのがISMBに論文通すコツなのでは？（僕にはもう実現できないハードルですが、過去のことなので）

GSEA-InContext: identifying novel and common pa...

GSEA-InContext: identifying novel and common patterns in expression experiments

Y-h. Taguchi PRO

More Decks by Y-h. Taguchi

Other Decks in Science

Featured

Transcript

ISMB2018読み会 GSEA-InContext: identifying novel and common patterns in expression experiments

比較対象比較対象・GEOから集めた・Afymetrix Human Genome U133 Plus 2.0 Array限定

単純ランダムより実験に基づくほうがランクの期待値の幅（分散）は大きい　→順位が高いものは高く、低いものは低くなりやすい。

試験用遺伝子データセット MSigDB :The Hallmarks collection　（５０クラス）４４２遺伝子順位セット（バックグランウンド） →薬剤の標的蛋白で予めグループ化標的蛋白臓器

確かにこうすると遺伝

GSEA-InContextだけで有意になるものもある（バックグラウンドをうまく選べば）