Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文レコメンドにおける Graph Convolutional Network を用いたlink prediction

論文レコメンドにおける Graph Convolutional Network を用いたlink prediction

論文レコメンドにおけるGraph Convolutional Networkを用いたlink prediction
Machine learning graph pitch #1 の登壇資料です
https://machine-learning-pitch.connpass.com/event/130083/

vaaaaanquish
PRO

May 13, 2019
Tweet

More Decks by vaaaaanquish

Other Decks in Technology

Transcript

  1. Copyright © 2015 M3, Inc. All Rights Reserved
    論文レコメンドにおける

    Graph Convolutional Network

    を用いたlink prediction

    2019/05/13 Machine Learning Graph Pitch 


    View Slide

  2. Copyright © 2015 M3, Inc. All Rights Reserved
    自己紹介

    河合 俊典 

    @vaaaaanquish

    エムスリー株式会社

    機械学習エンジニア

    フォロワー 1万8千人


    View Slide

  3. Copyright © 2015 M3, Inc. All Rights Reserved
    Agenda

    ● エムスリーとしての論文レコメンド

    ● 課題解決のためのサーベイ

    ● モデリングと実験

    ● これから


    View Slide

  4. Copyright © 2015 M3, Inc. All Rights Reserved
    エムスリーにおける課題

    「論文レコメンド」


    View Slide

  5. Copyright © 2015 M3, Inc. All Rights Reserved
    プロジェクトの目的

    ● 医療関係者が効率的に勉強できる分野に応じた最新の良論文を

    レコメンドする新しい仕組みを作りたい

    ○ 時間のない医師の学習効率化、全体レベルの向上

    ○ 業界、医師の動向を知る


    View Slide

  6. Copyright © 2015 M3, Inc. All Rights Reserved
    プロジェクトの制約

    ● レコメンドの設計と評価 

    ○ 興味を前提に医師が最も 学べる論文を推薦したい

    ■ 業界の動向軸

    ■ 患者、症例軸

    ■ 興味軸

    ■ 非専門で見落としがちな常識軸 

    ■ (エンジニアとしては横断的に使えるモデルだと嬉しい) 

    ○ 実際に医師に使われて初めて評価される 

    ■ AUC、MRR、nDCG... 


    ● 利用可能なデータ

    ○ M3内のコンテンツビュー 

    ■ 医療ニュースや製薬企業のMRからのメッセージ 

    ○ オープンなJournalデータ 

    ○ 「論文クリック」のような 直接的な教師データがほぼ無い 状態


    View Slide

  7. Copyright © 2015 M3, Inc. All Rights Reserved
    医療業界のインターネットにおける論文事情

    ● 基本的にはCSと同じで各Journalが論文を持つ 

    ○ オープンな場合と有料である場合がある 

    ○ 医師のみアクセスできる場合がある 


    ● 論文検索DB

    ○ CiNiiやGoogle Scholar 

    ○ 日本:医学中央雑誌刊行会による 医中誌、

       その他日本語検索エンジンがいくつかの会社から提供 

    ○ 海外:アメリカ国立衛生研究所による MEDLINE、PubMed(*1)

       日に2000件以上が登録されるらしい 


    ● 「PubMedレコメンドサービス」「日本語でPubMed検索」 

    「論文ブックマーカー」など 競合サービスはいくつか存在するが 

    オープンデータ×エムスリーはあり得る 

    *1 正確にはアメリカ国立衛生研究所
    (NIH)内の国立医学図書館
    (NLM)がMEDLINEを、国立生物工学情報センター
    (NCBI)がPubMedを運営している。
      PubMedはMEDLINEデータを含む。関連用語のシソーラスや取得用の
    API等もあり、医療論文においてはメジャー。

    View Slide

  8. Copyright © 2015 M3, Inc. All Rights Reserved
    課題解決のための

    サーベイ


    View Slide

  9. Copyright © 2015 M3, Inc. All Rights Reserved
    recommendation サーベイ

    ● latent factor model

    ○ Collaborative Filtering (CF)

    ○ Matrix Factarization (MF)

    ○ Bayesian Personalized Ranking (BPR)

    ○ WARP loss、K-Order Static loss

    ● graph

    ○ PageRank, ItemRank

    ○ bipartite graph recommendation

    ● deep

    ○ Wide & Deep Learning

    ■ マルチモーダルをconcatするDNNでranking

    ○ GRU4Rec

    ■ sequenceを使い時系列を考慮

    ○ collaborative deep learning
    ■ CF行列をNNで最適化する
    ○ Graph Convolutional Network (GCN)

    ■ Pintarest,RecSys 2018とか有名(ノード同士の関係度を教師として解く)


    [1806.01973] Graph Convolutional Neural
    Networks for Web-Scale Recommender Systems
    [1708.04396] BiRank: Towards Ranking on Bipartite Graphs

    View Slide

  10. Copyright © 2015 M3, Inc. All Rights Reserved
    Graph Convolutional Network model

    ❏ Session-based Social Recommendation via Dynamic Graph A!ention Networks : paper
    ❏ Modeling Relational Data with Graph Convolutional Networks : paper
    ❏ SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS : paper
    ❏ Link Prediction Based on Graph Neural Networks : paper
    ❏ LINK PREDICTION IN HYPERGRAPHS USING GRAPH CONVOLUTIONAL NETWORKS : paper
    ❏ Modeling Relational Data with Graph Convolutional Networks (RGCN) : paper
    ❏ Decagon: Representation Learning on Multimodal Graphs : paper, github
    ❏ A Theoretical Justification of Link Prediction Heuristics : paper, slide
    ● GCN model
    ○ CNN入力をGraph構造に拡張したモデル
    ○ Embedding、Labeling、Image、Text等様々なタスクを扱える
    ○ 様々な評価関数
    ○ Deep Graph Library (DGL)などのOSS

    ○ BigGraphなどの分散省メモリモデルも 


    ● 今回はlink predictionタスクに注目 

    ○ node間にedgeが発生するか予測するタスク 

    ○ DGL内のRGCN exampleを参考にモデリング 

    ○ 半教師あり学習の形 でも解くことができる 


    View Slide

  11. Copyright © 2015 M3, Inc. All Rights Reserved
    モデリング


    View Slide

  12. Copyright © 2015 M3, Inc. All Rights Reserved
    graphの構築

    ● エムスリーが持つデータでgraphを構築 




    user
 contents

    tag

    ● user, contents, tagの3つのソーシャルグラフ 

    ○ user同士はprof、contents同士は関連度で接続 

    ○ contentsに紐づくkeywordを抽出する仕組みを利用 

    ■ 既存の自然言語処理システム 

    ■ 薬剤、疾患ワードがtagとなる 


    ● 相互接続

    ○ user-contents間はpageview 

    ○ tagは紐付き医師情報、コンテンツ内容で紐付け 


    View Slide

  13. Copyright © 2015 M3, Inc. All Rights Reserved
    graphの構築

    ● PubMed上の論文データをGraphに追加 



    user

    contents

    tag


    ● PubMed論文ノードとuserノードとの間に 

    Linkがあるかという問題に落とし込む 


    ● PubMed論文にはシソーラスがある 

     ・薬剤、疾患、効能 

     ・英語なので日訳時に揺れが発生するが 

      少しでも関連していればtag接続 


    ● RGCNを利用し、既存ノードを教師とした 

    link predictionとして半教師あり学習 


    View Slide

  14. Copyright © 2015 M3, Inc. All Rights Reserved
    結果


    View Slide

  15. Copyright © 2015 M3, Inc. All Rights Reserved
    手法の比較

    ● tag base

    ○ 医師が見たコンテンツに対して紐付いたtagを単純にカウントしたモデル 

    ○ 例:ある医師が肺癌の記事を多く見ていたら肺癌関連論文 


    ● 社内の興味ランクスコアベース 

    ○ 医師のtagへの興味をGraph (TriRank)を用いてスコア化 

    ○ 既に他勉強会で技術公開したもの (*1)
    ○ スコアが高い所から優先的に表示 


    ● GCNレコメンドモデル 

    ○ GWに3日程かけて作成したもの(チューニングが若干甘いか) 

    ○ 全論文から「linkがある可能性の高い順」に 

    *1 https://speakerdeck.com/vaaaaanquish/emusuriniokerugurahugou-zao-woyong-itayuzaxing-wei-falsetagufu-ke

    View Slide

  16. Copyright © 2015 M3, Inc. All Rights Reserved
    tag baseの結果

    ● 多くのユーザに同じ論文が発生
    ○ m3.com内のコンテンツだけだと
    冬期はインフルエンザの記事が増える等
    季節性やレコメンドのバイアス、
    エコーチェンバー、フィルターバブルが顕著
    ● 論文の内容について一切考慮していない
    ○ 同じキーワードの物を rankingできない
    ● ページビューの多少に大きく左右
    ○ ページビュー数回だと条件が絞られすぎる
    ○ 多すぎると汎用的な回答に
    ある放射線科医Aに対するレコメンド
    1. High ambient temperature dampens adaptive immune responses to
    influenza A virus infection.
    (東大の先生が書いたインフルエンザワクチンの効能向上の論文 )
    2. Obstructive sleep apnoea in multiple pregnancy.
    (妊娠中の閉塞性睡眠時無呼吸と糖尿病、高血圧、低出生体重の関連 )
    3. Emperor geese (Anser canagicus) are exposed to a diversity of
    influenza A viruses, are infected during the non-breeding period, and
    contribute to intercontinental viral dispersal.
    (右のガチョウとインフルエンザの関連を書いた論文 )

    View Slide

  17. Copyright © 2015 M3, Inc. All Rights Reserved
    ランクスコアとGCNの結果の比較

    社内の興味ランクスコアベース 


    1. Management of patients with implanted cardiac devices during radiotherapy: results of a Spanish survey in
    radiation oncology departments.
    (インプラント患者の癌治療の調査 )
    2. Caspase independent cleavages of TDP-43 generates 35kD fragment that cause apoptosis of breast cancer cells.
    (乳癌細胞の反応に関する調査 )
    3. Treatment trends and Medicare reimbursements for localized prostate cancer in elderly patients.
    (高齢者患者の限局性前立腺癌の治療動向等の調査 )
    GCNレコメンドモデル 


    1. Breast cancer in young women: an overview.
    (若い女性の乳癌に関する科学的解析のサーベイ )
    2. Temporal dynamic reorganization of 3D chromatin architecture in hormone-induced breast cancer and endocrine
    resistance.
    (ホルモン誘発乳癌における内分泌抵抗 )
    3. Structural and Molecular Mechanisms of Cytokine-Mediated Endocrine Resistance in Human Breast Cancer Cells.
    (ヒト乳がん細胞におけるサイトカイン媒介内分泌抵抗の構造、分子的機序 )
    ● 単語に対する関連スコアを用いて
    専門分野には寄せられる結果し
    たが、論文内容を加味するには
    かなり調整が必要そう
    ○ タグ内での論文スコア
    ● GCNにより専門性が見える
    (気がする)ように
    ● 事例ベース、臨床などもユーザに
    対応して分かれている

    View Slide

  18. Copyright © 2015 M3, Inc. All Rights Reserved
    これから


    View Slide

  19. Copyright © 2015 M3, Inc. All Rights Reserved
    上手くいってる

    例だけ出してるん
    じゃないの?


    View Slide

  20. Copyright © 2015 M3, Inc. All Rights Reserved
    うるせー!


    View Slide

  21. Copyright © 2015 M3, Inc. All Rights Reserved
    積まれた多くの課題

    ● 例のように概ね上手くいっているように見える

    ○ 目視以上の評価がRelease前に必要

    ■ 話題のJournal紹介のメルマガで利用?医師へのアンケート?


    ● モデリング

    ○ データの分布の変化に強い?拡張できる?

    ■ 簡素なモデルでエムスリーと紐付き、データの追加もgraph構造なので難しくない

    ■ tagの紐付かない論文、表現の揺れ

    ■ 現在は2年分のPubMedデータを利用

    ● PubMed掲載の論文は500万件強

    ● 掲載外のJournal等も採用するにはBigGraphのような仕組みが必要か


    ● プロジェクトマネージメント

    ○ 目的の軸を何とするか

    ■ “非専門の勉強”等は現状できないがプロダクトによっては必要

    ○ 何をもってフィーとするか

    ■ エムスリーのデータを用いた目的に応じた論文

    ■ 有名医師のコメントなどの付加価値


    View Slide

  22. Copyright © 2015 M3, Inc. All Rights Reserved
    We’re Hiring!

    Thanks.


    View Slide