Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文レコメンドにおける Graph Convolutional Network を用いたlink prediction

論文レコメンドにおける Graph Convolutional Network を用いたlink prediction

論文レコメンドにおけるGraph Convolutional Networkを用いたlink prediction
Machine learning graph pitch #1 の登壇資料です
https://machine-learning-pitch.connpass.com/event/130083/

vaaaaanquish

May 13, 2019
Tweet

More Decks by vaaaaanquish

Other Decks in Technology

Transcript

  1. Copyright © 2015 M3, Inc. All Rights Reserved 論文レコメンドにおける
 Graph

    Convolutional Network
 を用いたlink prediction
 2019/05/13 Machine Learning Graph Pitch 

  2. Copyright © 2015 M3, Inc. All Rights Reserved 自己紹介
 河合

    俊典 
 @vaaaaanquish
 エムスリー株式会社
 機械学習エンジニア
 フォロワー 1万8千人
 

  3. Copyright © 2015 M3, Inc. All Rights Reserved Agenda
 •

    エムスリーとしての論文レコメンド
 • 課題解決のためのサーベイ
 • モデリングと実験
 • これから

  4. Copyright © 2015 M3, Inc. All Rights Reserved プロジェクトの目的
 •

    医療関係者が効率的に勉強できる分野に応じた最新の良論文を
 レコメンドする新しい仕組みを作りたい
 ◦ 時間のない医師の学習効率化、全体レベルの向上
 ◦ 業界、医師の動向を知る
 

  5. Copyright © 2015 M3, Inc. All Rights Reserved プロジェクトの制約
 •

    レコメンドの設計と評価 
 ◦ 興味を前提に医師が最も 学べる論文を推薦したい
 ▪ 業界の動向軸
 ▪ 患者、症例軸
 ▪ 興味軸
 ▪ 非専門で見落としがちな常識軸 
 ▪ (エンジニアとしては横断的に使えるモデルだと嬉しい) 
 ◦ 実際に医師に使われて初めて評価される 
 ▪ AUC、MRR、nDCG... 
 
 • 利用可能なデータ
 ◦ M3内のコンテンツビュー 
 ▪ 医療ニュースや製薬企業のMRからのメッセージ 
 ◦ オープンなJournalデータ 
 ◦ 「論文クリック」のような 直接的な教師データがほぼ無い 状態

  6. Copyright © 2015 M3, Inc. All Rights Reserved 医療業界のインターネットにおける論文事情
 •

    基本的にはCSと同じで各Journalが論文を持つ 
 ◦ オープンな場合と有料である場合がある 
 ◦ 医師のみアクセスできる場合がある 
 
 • 論文検索DB
 ◦ CiNiiやGoogle Scholar 
 ◦ 日本:医学中央雑誌刊行会による 医中誌、
    その他日本語検索エンジンがいくつかの会社から提供 
 ◦ 海外:アメリカ国立衛生研究所による MEDLINE、PubMed(*1)
    日に2000件以上が登録されるらしい 
 
 • 「PubMedレコメンドサービス」「日本語でPubMed検索」 
 「論文ブックマーカー」など 競合サービスはいくつか存在するが 
 オープンデータ×エムスリーはあり得る 
 *1 正確にはアメリカ国立衛生研究所 (NIH)内の国立医学図書館 (NLM)がMEDLINEを、国立生物工学情報センター (NCBI)がPubMedを運営している。   PubMedはMEDLINEデータを含む。関連用語のシソーラスや取得用の API等もあり、医療論文においてはメジャー。
  7. Copyright © 2015 M3, Inc. All Rights Reserved recommendation サーベイ


    • latent factor model
 ◦ Collaborative Filtering (CF)
 ◦ Matrix Factarization (MF)
 ◦ Bayesian Personalized Ranking (BPR)
 ◦ WARP loss、K-Order Static loss
 • graph
 ◦ PageRank, ItemRank
 ◦ bipartite graph recommendation
 • deep
 ◦ Wide & Deep Learning
 ▪ マルチモーダルをconcatするDNNでranking
 ◦ GRU4Rec
 ▪ sequenceを使い時系列を考慮
 ◦ collaborative deep learning ▪ CF行列をNNで最適化する ◦ Graph Convolutional Network (GCN)
 ▪ Pintarest,RecSys 2018とか有名(ノード同士の関係度を教師として解く)
 
 [1806.01973] Graph Convolutional Neural Networks for Web-Scale Recommender Systems [1708.04396] BiRank: Towards Ranking on Bipartite Graphs
  8. Copyright © 2015 M3, Inc. All Rights Reserved Graph Convolutional

    Network model
 ❏ Session-based Social Recommendation via Dynamic Graph A!ention Networks : paper ❏ Modeling Relational Data with Graph Convolutional Networks : paper ❏ SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS : paper ❏ Link Prediction Based on Graph Neural Networks : paper ❏ LINK PREDICTION IN HYPERGRAPHS USING GRAPH CONVOLUTIONAL NETWORKS : paper ❏ Modeling Relational Data with Graph Convolutional Networks (RGCN) : paper ❏ Decagon: Representation Learning on Multimodal Graphs : paper, github ❏ A Theoretical Justification of Link Prediction Heuristics : paper, slide • GCN model ◦ CNN入力をGraph構造に拡張したモデル ◦ Embedding、Labeling、Image、Text等様々なタスクを扱える ◦ 様々な評価関数 ◦ Deep Graph Library (DGL)などのOSS
 ◦ BigGraphなどの分散省メモリモデルも 
 
 • 今回はlink predictionタスクに注目 
 ◦ node間にedgeが発生するか予測するタスク 
 ◦ DGL内のRGCN exampleを参考にモデリング 
 ◦ 半教師あり学習の形 でも解くことができる 
 

  9. Copyright © 2015 M3, Inc. All Rights Reserved graphの構築
 •

    エムスリーが持つデータでgraphを構築 
 
 
 
 user
 contents
 tag
 • user, contents, tagの3つのソーシャルグラフ 
 ◦ user同士はprof、contents同士は関連度で接続 
 ◦ contentsに紐づくkeywordを抽出する仕組みを利用 
 ▪ 既存の自然言語処理システム 
 ▪ 薬剤、疾患ワードがtagとなる 
 
 • 相互接続
 ◦ user-contents間はpageview 
 ◦ tagは紐付き医師情報、コンテンツ内容で紐付け 

  10. Copyright © 2015 M3, Inc. All Rights Reserved graphの構築
 •

    PubMed上の論文データをGraphに追加 
 
 
 user
 contents
 tag
 ? • PubMed論文ノードとuserノードとの間に 
 Linkがあるかという問題に落とし込む 
 
 • PubMed論文にはシソーラスがある 
  ・薬剤、疾患、効能 
  ・英語なので日訳時に揺れが発生するが 
   少しでも関連していればtag接続 
 
 • RGCNを利用し、既存ノードを教師とした 
 link predictionとして半教師あり学習 

  11. Copyright © 2015 M3, Inc. All Rights Reserved 手法の比較
 •

    tag base
 ◦ 医師が見たコンテンツに対して紐付いたtagを単純にカウントしたモデル 
 ◦ 例:ある医師が肺癌の記事を多く見ていたら肺癌関連論文 
 
 • 社内の興味ランクスコアベース 
 ◦ 医師のtagへの興味をGraph (TriRank)を用いてスコア化 
 ◦ 既に他勉強会で技術公開したもの (*1) ◦ スコアが高い所から優先的に表示 
 
 • GCNレコメンドモデル 
 ◦ GWに3日程かけて作成したもの(チューニングが若干甘いか) 
 ◦ 全論文から「linkがある可能性の高い順」に 
 *1 https://speakerdeck.com/vaaaaanquish/emusuriniokerugurahugou-zao-woyong-itayuzaxing-wei-falsetagufu-ke
  12. Copyright © 2015 M3, Inc. All Rights Reserved tag baseの結果


    • 多くのユーザに同じ論文が発生 ◦ m3.com内のコンテンツだけだと 冬期はインフルエンザの記事が増える等 季節性やレコメンドのバイアス、 エコーチェンバー、フィルターバブルが顕著 • 論文の内容について一切考慮していない ◦ 同じキーワードの物を rankingできない • ページビューの多少に大きく左右 ◦ ページビュー数回だと条件が絞られすぎる ◦ 多すぎると汎用的な回答に ある放射線科医Aに対するレコメンド 1. High ambient temperature dampens adaptive immune responses to influenza A virus infection. (東大の先生が書いたインフルエンザワクチンの効能向上の論文 ) 2. Obstructive sleep apnoea in multiple pregnancy. (妊娠中の閉塞性睡眠時無呼吸と糖尿病、高血圧、低出生体重の関連 ) 3. Emperor geese (Anser canagicus) are exposed to a diversity of influenza A viruses, are infected during the non-breeding period, and contribute to intercontinental viral dispersal. (右のガチョウとインフルエンザの関連を書いた論文 )
  13. Copyright © 2015 M3, Inc. All Rights Reserved ランクスコアとGCNの結果の比較
 社内の興味ランクスコアベース

    
 
 1. Management of patients with implanted cardiac devices during radiotherapy: results of a Spanish survey in radiation oncology departments. (インプラント患者の癌治療の調査 ) 2. Caspase independent cleavages of TDP-43 generates 35kD fragment that cause apoptosis of breast cancer cells. (乳癌細胞の反応に関する調査 ) 3. Treatment trends and Medicare reimbursements for localized prostate cancer in elderly patients. (高齢者患者の限局性前立腺癌の治療動向等の調査 ) GCNレコメンドモデル 
 
 1. Breast cancer in young women: an overview. (若い女性の乳癌に関する科学的解析のサーベイ ) 2. Temporal dynamic reorganization of 3D chromatin architecture in hormone-induced breast cancer and endocrine resistance. (ホルモン誘発乳癌における内分泌抵抗 ) 3. Structural and Molecular Mechanisms of Cytokine-Mediated Endocrine Resistance in Human Breast Cancer Cells. (ヒト乳がん細胞におけるサイトカイン媒介内分泌抵抗の構造、分子的機序 ) • 単語に対する関連スコアを用いて 専門分野には寄せられる結果し たが、論文内容を加味するには かなり調整が必要そう ◦ タグ内での論文スコア • GCNにより専門性が見える (気がする)ように • 事例ベース、臨床などもユーザに 対応して分かれている
  14. Copyright © 2015 M3, Inc. All Rights Reserved 積まれた多くの課題
 •

    例のように概ね上手くいっているように見える
 ◦ 目視以上の評価がRelease前に必要
 ▪ 話題のJournal紹介のメルマガで利用?医師へのアンケート?
 
 • モデリング
 ◦ データの分布の変化に強い?拡張できる?
 ▪ 簡素なモデルでエムスリーと紐付き、データの追加もgraph構造なので難しくない
 ▪ tagの紐付かない論文、表現の揺れ
 ▪ 現在は2年分のPubMedデータを利用
 • PubMed掲載の論文は500万件強
 • 掲載外のJournal等も採用するにはBigGraphのような仕組みが必要か
 
 • プロジェクトマネージメント
 ◦ 目的の軸を何とするか
 ▪ “非専門の勉強”等は現状できないがプロダクトによっては必要
 ◦ 何をもってフィーとするか
 ▪ エムスリーのデータを用いた目的に応じた論文
 ▪ 有名医師のコメントなどの付加価値