Slide 1

Slide 1 text

Copyright © 2015 M3, Inc. All Rights Reserved 論文レコメンドにおける
 Graph Convolutional Network
 を用いたlink prediction
 2019/05/13 Machine Learning Graph Pitch 


Slide 2

Slide 2 text

Copyright © 2015 M3, Inc. All Rights Reserved 自己紹介
 河合 俊典 
 @vaaaaanquish
 エムスリー株式会社
 機械学習エンジニア
 フォロワー 1万8千人
 


Slide 3

Slide 3 text

Copyright © 2015 M3, Inc. All Rights Reserved Agenda
 ● エムスリーとしての論文レコメンド
 ● 課題解決のためのサーベイ
 ● モデリングと実験
 ● これから


Slide 4

Slide 4 text

Copyright © 2015 M3, Inc. All Rights Reserved エムスリーにおける課題
 「論文レコメンド」


Slide 5

Slide 5 text

Copyright © 2015 M3, Inc. All Rights Reserved プロジェクトの目的
 ● 医療関係者が効率的に勉強できる分野に応じた最新の良論文を
 レコメンドする新しい仕組みを作りたい
 ○ 時間のない医師の学習効率化、全体レベルの向上
 ○ 業界、医師の動向を知る
 


Slide 6

Slide 6 text

Copyright © 2015 M3, Inc. All Rights Reserved プロジェクトの制約
 ● レコメンドの設計と評価 
 ○ 興味を前提に医師が最も 学べる論文を推薦したい
 ■ 業界の動向軸
 ■ 患者、症例軸
 ■ 興味軸
 ■ 非専門で見落としがちな常識軸 
 ■ (エンジニアとしては横断的に使えるモデルだと嬉しい) 
 ○ 実際に医師に使われて初めて評価される 
 ■ AUC、MRR、nDCG... 
 
 ● 利用可能なデータ
 ○ M3内のコンテンツビュー 
 ■ 医療ニュースや製薬企業のMRからのメッセージ 
 ○ オープンなJournalデータ 
 ○ 「論文クリック」のような 直接的な教師データがほぼ無い 状態


Slide 7

Slide 7 text

Copyright © 2015 M3, Inc. All Rights Reserved 医療業界のインターネットにおける論文事情
 ● 基本的にはCSと同じで各Journalが論文を持つ 
 ○ オープンな場合と有料である場合がある 
 ○ 医師のみアクセスできる場合がある 
 
 ● 論文検索DB
 ○ CiNiiやGoogle Scholar 
 ○ 日本:医学中央雑誌刊行会による 医中誌、
    その他日本語検索エンジンがいくつかの会社から提供 
 ○ 海外:アメリカ国立衛生研究所による MEDLINE、PubMed(*1)
    日に2000件以上が登録されるらしい 
 
 ● 「PubMedレコメンドサービス」「日本語でPubMed検索」 
 「論文ブックマーカー」など 競合サービスはいくつか存在するが 
 オープンデータ×エムスリーはあり得る 
 *1 正確にはアメリカ国立衛生研究所 (NIH)内の国立医学図書館 (NLM)がMEDLINEを、国立生物工学情報センター (NCBI)がPubMedを運営している。   PubMedはMEDLINEデータを含む。関連用語のシソーラスや取得用の API等もあり、医療論文においてはメジャー。

Slide 8

Slide 8 text

Copyright © 2015 M3, Inc. All Rights Reserved 課題解決のための
 サーベイ


Slide 9

Slide 9 text

Copyright © 2015 M3, Inc. All Rights Reserved recommendation サーベイ
 ● latent factor model
 ○ Collaborative Filtering (CF)
 ○ Matrix Factarization (MF)
 ○ Bayesian Personalized Ranking (BPR)
 ○ WARP loss、K-Order Static loss
 ● graph
 ○ PageRank, ItemRank
 ○ bipartite graph recommendation
 ● deep
 ○ Wide & Deep Learning
 ■ マルチモーダルをconcatするDNNでranking
 ○ GRU4Rec
 ■ sequenceを使い時系列を考慮
 ○ collaborative deep learning ■ CF行列をNNで最適化する ○ Graph Convolutional Network (GCN)
 ■ Pintarest,RecSys 2018とか有名(ノード同士の関係度を教師として解く)
 
 [1806.01973] Graph Convolutional Neural Networks for Web-Scale Recommender Systems [1708.04396] BiRank: Towards Ranking on Bipartite Graphs

Slide 10

Slide 10 text

Copyright © 2015 M3, Inc. All Rights Reserved Graph Convolutional Network model
 ❏ Session-based Social Recommendation via Dynamic Graph A!ention Networks : paper ❏ Modeling Relational Data with Graph Convolutional Networks : paper ❏ SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS : paper ❏ Link Prediction Based on Graph Neural Networks : paper ❏ LINK PREDICTION IN HYPERGRAPHS USING GRAPH CONVOLUTIONAL NETWORKS : paper ❏ Modeling Relational Data with Graph Convolutional Networks (RGCN) : paper ❏ Decagon: Representation Learning on Multimodal Graphs : paper, github ❏ A Theoretical Justification of Link Prediction Heuristics : paper, slide ● GCN model ○ CNN入力をGraph構造に拡張したモデル ○ Embedding、Labeling、Image、Text等様々なタスクを扱える ○ 様々な評価関数 ○ Deep Graph Library (DGL)などのOSS
 ○ BigGraphなどの分散省メモリモデルも 
 
 ● 今回はlink predictionタスクに注目 
 ○ node間にedgeが発生するか予測するタスク 
 ○ DGL内のRGCN exampleを参考にモデリング 
 ○ 半教師あり学習の形 でも解くことができる 
 


Slide 11

Slide 11 text

Copyright © 2015 M3, Inc. All Rights Reserved モデリング


Slide 12

Slide 12 text

Copyright © 2015 M3, Inc. All Rights Reserved graphの構築
 ● エムスリーが持つデータでgraphを構築 
 
 
 
 user
 contents
 tag
 ● user, contents, tagの3つのソーシャルグラフ 
 ○ user同士はprof、contents同士は関連度で接続 
 ○ contentsに紐づくkeywordを抽出する仕組みを利用 
 ■ 既存の自然言語処理システム 
 ■ 薬剤、疾患ワードがtagとなる 
 
 ● 相互接続
 ○ user-contents間はpageview 
 ○ tagは紐付き医師情報、コンテンツ内容で紐付け 


Slide 13

Slide 13 text

Copyright © 2015 M3, Inc. All Rights Reserved graphの構築
 ● PubMed上の論文データをGraphに追加 
 
 
 user
 contents
 tag
 ? ● PubMed論文ノードとuserノードとの間に 
 Linkがあるかという問題に落とし込む 
 
 ● PubMed論文にはシソーラスがある 
  ・薬剤、疾患、効能 
  ・英語なので日訳時に揺れが発生するが 
   少しでも関連していればtag接続 
 
 ● RGCNを利用し、既存ノードを教師とした 
 link predictionとして半教師あり学習 


Slide 14

Slide 14 text

Copyright © 2015 M3, Inc. All Rights Reserved 結果


Slide 15

Slide 15 text

Copyright © 2015 M3, Inc. All Rights Reserved 手法の比較
 ● tag base
 ○ 医師が見たコンテンツに対して紐付いたtagを単純にカウントしたモデル 
 ○ 例:ある医師が肺癌の記事を多く見ていたら肺癌関連論文 
 
 ● 社内の興味ランクスコアベース 
 ○ 医師のtagへの興味をGraph (TriRank)を用いてスコア化 
 ○ 既に他勉強会で技術公開したもの (*1) ○ スコアが高い所から優先的に表示 
 
 ● GCNレコメンドモデル 
 ○ GWに3日程かけて作成したもの(チューニングが若干甘いか) 
 ○ 全論文から「linkがある可能性の高い順」に 
 *1 https://speakerdeck.com/vaaaaanquish/emusuriniokerugurahugou-zao-woyong-itayuzaxing-wei-falsetagufu-ke

Slide 16

Slide 16 text

Copyright © 2015 M3, Inc. All Rights Reserved tag baseの結果
 ● 多くのユーザに同じ論文が発生 ○ m3.com内のコンテンツだけだと 冬期はインフルエンザの記事が増える等 季節性やレコメンドのバイアス、 エコーチェンバー、フィルターバブルが顕著 ● 論文の内容について一切考慮していない ○ 同じキーワードの物を rankingできない ● ページビューの多少に大きく左右 ○ ページビュー数回だと条件が絞られすぎる ○ 多すぎると汎用的な回答に ある放射線科医Aに対するレコメンド 1. High ambient temperature dampens adaptive immune responses to influenza A virus infection. (東大の先生が書いたインフルエンザワクチンの効能向上の論文 ) 2. Obstructive sleep apnoea in multiple pregnancy. (妊娠中の閉塞性睡眠時無呼吸と糖尿病、高血圧、低出生体重の関連 ) 3. Emperor geese (Anser canagicus) are exposed to a diversity of influenza A viruses, are infected during the non-breeding period, and contribute to intercontinental viral dispersal. (右のガチョウとインフルエンザの関連を書いた論文 )

Slide 17

Slide 17 text

Copyright © 2015 M3, Inc. All Rights Reserved ランクスコアとGCNの結果の比較
 社内の興味ランクスコアベース 
 
 1. Management of patients with implanted cardiac devices during radiotherapy: results of a Spanish survey in radiation oncology departments. (インプラント患者の癌治療の調査 ) 2. Caspase independent cleavages of TDP-43 generates 35kD fragment that cause apoptosis of breast cancer cells. (乳癌細胞の反応に関する調査 ) 3. Treatment trends and Medicare reimbursements for localized prostate cancer in elderly patients. (高齢者患者の限局性前立腺癌の治療動向等の調査 ) GCNレコメンドモデル 
 
 1. Breast cancer in young women: an overview. (若い女性の乳癌に関する科学的解析のサーベイ ) 2. Temporal dynamic reorganization of 3D chromatin architecture in hormone-induced breast cancer and endocrine resistance. (ホルモン誘発乳癌における内分泌抵抗 ) 3. Structural and Molecular Mechanisms of Cytokine-Mediated Endocrine Resistance in Human Breast Cancer Cells. (ヒト乳がん細胞におけるサイトカイン媒介内分泌抵抗の構造、分子的機序 ) ● 単語に対する関連スコアを用いて 専門分野には寄せられる結果し たが、論文内容を加味するには かなり調整が必要そう ○ タグ内での論文スコア ● GCNにより専門性が見える (気がする)ように ● 事例ベース、臨床などもユーザに 対応して分かれている

Slide 18

Slide 18 text

Copyright © 2015 M3, Inc. All Rights Reserved これから


Slide 19

Slide 19 text

Copyright © 2015 M3, Inc. All Rights Reserved 上手くいってる
 例だけ出してるん じゃないの?


Slide 20

Slide 20 text

Copyright © 2015 M3, Inc. All Rights Reserved うるせー!


Slide 21

Slide 21 text

Copyright © 2015 M3, Inc. All Rights Reserved 積まれた多くの課題
 ● 例のように概ね上手くいっているように見える
 ○ 目視以上の評価がRelease前に必要
 ■ 話題のJournal紹介のメルマガで利用?医師へのアンケート?
 
 ● モデリング
 ○ データの分布の変化に強い?拡張できる?
 ■ 簡素なモデルでエムスリーと紐付き、データの追加もgraph構造なので難しくない
 ■ tagの紐付かない論文、表現の揺れ
 ■ 現在は2年分のPubMedデータを利用
 ● PubMed掲載の論文は500万件強
 ● 掲載外のJournal等も採用するにはBigGraphのような仕組みが必要か
 
 ● プロジェクトマネージメント
 ○ 目的の軸を何とするか
 ■ “非専門の勉強”等は現状できないがプロダクトによっては必要
 ○ 何をもってフィーとするか
 ■ エムスリーのデータを用いた目的に応じた論文
 ■ 有名医師のコメントなどの付加価値


Slide 22

Slide 22 text

Copyright © 2015 M3, Inc. All Rights Reserved We’re Hiring!
 Thanks.