Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Statistical approaches for differential expression analysis in metatranscriptomics

Y-h. Taguchi
August 25, 2021

Statistical approaches for differential expression analysis in metatranscriptomics

ISMB/ECCB2021読み会
https://connpass.com/event/221002/
2021/8/30 14:00ー18:00

Y-h. Taguchi

August 25, 2021
Tweet

More Decks by Y-h. Taguchi

Other Decks in Science

Transcript

  1. Bioinformatics, 37, 2021, i34–i41 doi: 10.1093/bioinformatics/btab327
    ISMB/ECCB 2021
    Statistical approaches for differential expression analysis in
    metatranscriptomics
    Yancong Zhang, Kelsey N. Thompson , Curtis Huttenhower and
    Eric A. Franzosa

    View Slide

  2. Metatranscriptomics = Metagenomeのトランスクリプトランスクリプトーム版版
    微生物集団の転写物をのトランスクリプ転写物をHTS(high throughput sequencing)で計測、で計測、計測、
    種ごとの転写物ラごとのトランスクリプ転写物ライブラリにマッピング(計マッピング(計測ごとに「種計測ごとにマッピング(計「種種ごとの転写物ラ×転写物量
    のトランスクリプ表」が出来ている」が出来ている、と出来ている、というている、という前提)前提)で計測、
    問題点:
    転写物のトランスクリプ量=一個体あたりの遺伝子あたりのトランスクリプ遺伝子の発現量のトランスクリプ発現量(A)×個体あたりの遺伝子数(B)
    なのトランスクリプで計測、(A)と(B)を分離できないと発現で計測、きないと発現差のある(のトランスクリプある(計測ごとに「種A)で計測、のトランスクリプ同定は不能。は不能。不能。
    発現差のある(が出来ている、とあるかどう前提)は不能。(A)で計測、比べるべき。 べるべき。
    (B)は不能。別途、メタゲノム版解析をしておけば推をしておけば推定出来るが、推定は不能。出来ている、というるが出来ている、と、そのトランスクリプ情報がが出来ている、と
    無い場合もある。い場合もある。その場もある。そのトランスクリプ場合もある。その場どう前提)すれば推定出来るが、いいか?

    View Slide

  3. Work flow for taxon-
    specific normalization.
    (PeerJ, 2017年
    http://dx.doi.org/10.7717/
    peerj.3859)
    このトランスクリプ論文にはにマッピング(計は不能。taxon-specific
    normalizationのトランスクリプ説明が一が出来ている、と一
    言もないので別論もないのトランスクリプで計測、別論文にはから
    引用。 種ごとの転写物ラごとにマッピング(計RNA量を
    規格化した後、遺伝子した後、遺伝子の発現量ごと
    にマッピング(計足し直してから発し直してから発現差してから発現差のある(が出来ている、と
    あると遺伝子の発現量を探す、といす、とい
    う前提)方法(計測ごとに「種黄と青が別種。濃と青が別種。濃が出来ている、と別種ごとの転写物ラ。濃
    淡が遺伝子の種類が出来ている、と遺伝子の発現量のトランスクリプ種ごとの転写物ラ類)で計測、。
    条件1 条件2
    種ごとの転写物ラ2
    種ごとの転写物ラ1
    種ごとの転写物ラ1 種ごとの転写物ラ2
    種ごとの転写物ラ1 種ごとの転写物ラ2


    子の発現量

    種ごとの転写物ラ



    差のある(


    View Slide

  4. モデル:
    log(計測ごとに「種代謝量)で計測、〜(計測ごとに「種カテゴリ変数:実験条件)で計測、
    代謝量=π
    s
    P
    s
    , 代謝量を確率P
    s
    のトランスクリプ積で表すモデルをで計測、表」が出来ているすモデルを採用。

    View Slide

  5. x
    ijk
    :遺伝子の発現量iのトランスクリプ種ごとの転写物ラjのトランスクリプ条件kにマッピング(計おける転写量, x
    ik

    j
    x
    ijk
    C: x
    ijk
    /(Σ
    i=1
    Nx
    ik
    /N),T: x
    ijk
    /(Σ
    i=1
    Nx
    ijk
    /N),Tax
    RNA
    : Σ
    i=1
    Nx
    ijk
    (計測ごとに「種個体あたりの遺伝子数のトランスクリプ代用)で計測、
    DNAと書かれているものかれているものトランスクリプは不能。x
    ijk
    をメタゲノム版解析をしておけば推で計測、検出した遺伝子の発現量
    数で計測、置き換えたもの。き換えたもの。えたものトランスクリプ。pは不能。形質(計測ごとに「種実験条件)で計測、依存性

    View Slide

  6. M1は不能。転写物量のトランスクリプサンプル平均
    M2は不能。転写物量のトランスクリプ種ごとの転写物ラごと平均。
    M3は不能。転写物量のトランスクリプ種ごとの転写物ラごと平均のトランスクリプ説明が一変数にマッピング(計種ごとの転写物ラごとのトランスクリプ転写物量のトランスクリプ総
    量を考慮(計測ごとに「種後述)で計測、
    M4は不能。転写物量と遺伝子の発現量量のトランスクリプサンプル平均のトランスクリプ比べるべき。 を考える
    M5は不能。転写物量のトランスクリプサンプル平均のトランスクリプ説明が一変数にマッピング(計、種ごとの転写物ラごとのトランスクリプ遺伝子の発現量量
    (計測ごとに「種個体あたりの遺伝子数にマッピング(計相当)で計測、のトランスクリプ総量を考慮
    M6は不能。転写物量のトランスクリプサンプル平均のトランスクリプ差のある(を比べるべき。 べる時に、遺伝子量にマッピング(計、遺伝子の発現量量(計測ごとに「種個体あたりの遺伝子
    数にマッピング(計相当)で計測、を考慮

    View Slide

  7. M1〜M3は不能。metatranscriptomicsだけで計測、計算できるで計測、きる
    M4〜M6は不能。メタゲノム版(計測ごとに「種DNA)で計測、のトランスクリプ計測が出来ている、とないと計算できるで計測、きない。

    View Slide

  8. M4は不能。
    C(転写物量)で計測、/C(計測ごとに「種遺伝子の発現量数)で計測、~pp
    みたいにマッピング(計書かれているものいてあるが出来ている、とこれだとモデルとしては不能。M6
    C(転写物量)で計測、~pC(計測ごとに「種遺伝子の発現量数)で計測、+pp
    のトランスクリプ部分集合もある。その場にマッピング(計なってしまう前提)(計測ごとに「種M6で計測、C(計測ごとに「種遺伝子の発現量数)で計測、のトランスクリプ回帰係数が出来ている、と1だと
    M4にマッピング(計帰着する)する)で計測、。
    M6が出来ている、とM4よりよい、となるとそもそも転写物量が出来ている、と個体あたりの遺伝子数にマッピング(計比べるべき。 例するとすると
    いう前提)仮定は不能。さえ壊れている(細菌れている(計測ごとに「種細菌の集団としてののトランスクリプ集団の転写物をとしてのトランスクリプスケーリング効果?)で計測、
    ことにマッピング(計なるのトランスクリプで計測、意味があるかどうかが出来ている、とあるかどう前提)か不明が一。

    View Slide

  9. Synthetic data
    2000個のトランスクリプ遺伝子の発現量プールを準備し、種ごとにそし、種ごとの転写物ラごとにマッピング(計そのトランスクリプう前提)ちのトランスクリプ1000遺
    伝子の発現量を持っているとしたっているとした。
    種ごとの転写物ラ数は不能。100種ごとの転写物ラ
    各種ごとの転写物ラが出来ている、ともっている1000遺伝子の発現量は不能。80%のトランスクリプ確率で計測、発現する。
    遺伝子の発現量のトランスクリプ発現量、個体あたりの遺伝子数は不能。対数正規分布
    発現量×個体あたりの遺伝子数が出来ている、と検出にマッピング(計かかるとする。
    メタゲノム版のトランスクリプ情報がが出来ている、とある想定は不能。のトランスクリプ場合もある。その場(計測ごとに「種M4ーM6)は不能。個体あたりの遺伝子数のトランスクリプ情報が
    も使うう前提)

    View Slide

  10. View Slide

  11. M3-M6のトランスクリプパフォーマンスは不能。大体あたりの遺伝子同じくらい。
    M3は不能。付加的なメタゲノム解なメタゲノム版解析をしておけば推(計測ごとに「種DNA)で計測、のトランスクリプ情報がが出来ている、とない純粋
    なMetatranstriptomicsで計測、も実行可能なのトランスクリプで計測、
    log(種ごとの転写物ラごと平均)〜log(種ごとの転写物ラのトランスクリプ総発現量)+実験条件実験条件
    が出来ている、とベストと判明が一。

    View Slide

  12. 実データのトランスクリプ場合もある。その場

    View Slide

  13. M3やM4のトランスクリプ検出力が弱いわけじゃが出来ている、と弱いわけじゃなくいわけじゃなくM6と矛盾しているだけ。しているだけ。
    M6が出来ている、と正しいという前提)保証はないは不能。ない

    View Slide

  14. まとめ
    Synthetic dataのトランスクリプ場合もある。その場、メタゲノム版のトランスクリプデータを併用しないM3は不能。併
    用するM4〜M6と同等程度の能力がある(のトランスクリプ能力が弱いわけじゃが出来ている、とある(計測ごとに「種多分、これが出来ている、とこのトランスクリプ論文には
    のトランスクリプ唯一のトランスクリプオリジナルな結果)で計測、。
    しかし、現実のトランスクリプデータにマッピング(計適用するとM3,M4,M6のトランスクリプ結果は不能。バラバラ
    で計測、、どれが出来ている、と正解かもよく解らない。
    (計測ごとに「種ちょっと研究の意義がよくわのトランスクリプ意義がよくわかりまが出来ている、とよくわかりませんで計測、した)で計測、

    View Slide

  15. なんで計測、採択されたか?されたか?
    正直してから発現差、わかりません。Eric A. Franzosaは不能。2016年以降一万回以年以降一万回以
    上、引用されているMetatranscrpitomicsのトランスクリプ専門家のようなのでのトランスクリプよう前提)なのトランスクリプで計測、
    それで計測、採択されたか?されたのトランスクリプで計測、は不能。ないか。
    新しい分野で世界しい分野で世界に先駆けで計測、世界に先駆けてにマッピング(計先駆けてけてNature Methodにマッピング(計論文にはを出せれば推定出来るが、
    ISMB/ECCBにマッピング(計も論文にはが出来ている、と採択されたか?されると言もないので別論えるだろう前提)。
    だが出来ている、と、実験機器の開発現場からのトランスクリプ開発現場から遠い日本人にはこい日本人にはこれは難しにマッピング(計は不能。これは不能。難しいしい
    し、Nature Methodにマッピング(計論文には通すほうがすほう前提)が出来ている、とISMB/ECCBにマッピング(計論文には通すほうがすよ
    り難しいしそう前提)なのトランスクリプで計測、、日本人にはこれは難しが出来ている、と、ISMB/ECCBにマッピング(計論文には通すほうがすにマッピング(計は不能。どう前提)す
    べきかという前提)問のトランスクリプ答えにはならないえにマッピング(計は不能。ならないと思います。います。

    View Slide