Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介201904_Biomedical Document Retrieval for Cl...
Search
T.Tada
April 23, 2019
Technology
0
83
文献紹介201904_Biomedical Document Retrieval for Clinical Decision Support System
T.Tada
April 23, 2019
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
62
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
160
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
160
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
220
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
150
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
64
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
98
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
97
Other Decks in Technology
See All in Technology
可観測性は開発環境から、開発環境にもオブザーバビリティ導入のススメ
layerx
PRO
4
2.6k
re:Invent 2025の見どころと便利アイテムをご紹介 / Highlights and Useful Items for re:Invent 2025
yuj1osm
0
600
Open Table Format (OTF) が必要になった背景とその機能 (2025.10.28)
simosako
3
600
Observability — Extending Into Incident Response
nari_ex
2
730
IBC 2025 動画技術関連レポート / IBC 2025 Report
cyberagentdevelopers
PRO
2
240
様々なファイルシステム
sat
PRO
0
280
어떤 개발자가 되고 싶은가?
arawn
1
390
ラスベガスの歩き方 2025年版(re:Invent 事前勉強会)
junjikoide
0
840
AIとの協業で実現!レガシーコードをKotlinらしく生まれ変わらせる実践ガイド
zozotech
PRO
2
260
abema-trace-sampling-observability-cost-optimization
tetsuya28
0
440
AWSが好きすぎて、41歳でエンジニアになり、AAIを経由してAWSパートナー企業に入った話
yama3133
2
220
Boxを“使われる場”にする統制と自動化の仕組み
demaecan
0
100
Featured
See All Featured
Practical Orchestrator
shlominoach
190
11k
Context Engineering - Making Every Token Count
addyosmani
8
330
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
192
56k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
640
Git: the NoSQL Database
bkeepers
PRO
431
66k
Agile that works and the tools we love
rasmusluckow
331
21k
Documentation Writing (for coders)
carmenintech
76
5.1k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
A Tale of Four Properties
chriscoyier
161
23k
Designing Experiences People Love
moore
142
24k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.7k
Transcript
- 文献紹介 2019/4/23 - Biomedical Document Retrieval for Clinical Decision
Support System 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
Abstract ・臨床意思決定支援システム(CDSS)のため、生物医学文献の検索に焦点を当てる ・クエリ拡張の統計的アプローチとNLPアプローチ ・順序学習問題として生物医学文書検索をモデル化 3
Introduction and Motivation ・毎年数千の生物医学分野の論文が発表されている ・これらは患者ケアのため、臨床決定支援システムのコレクションとして使用できる ・データセット:Clinical Decision Support(CDS)トラック PMC(PubMed Central)からの何百万もの全文生物医学論文を含む
患者の症例報告に関連する生物医学論文の検索に焦点を当てている 患者の病状、病歴、症状、実施された検査、治療などが記述 ・与えられたクエリ(症例報告)に関して、主な問題は利用可能なコレクションから関連する 文書を見つけランク付けすること 4
Introduction and Motivation 5
Query Reformulation for Biomedical Document Retrieval 統計的およびNLPベースのアプローチを提案 ・Automatic Query Expansion
With Pseudo Relevance Feedback & Relevance Feedback ・Feedback Document Discovery for Query Reformulation ・UMLS Concepts Based Query Reformulation 6
Query Reformulation for Biomedical Document Retrieval 統計的およびNLPベースのアプローチを提案 ・Automatic Query Expansion
With Pseudo Relevance Feedback & Relevance Feedback ・Feedback Document Discovery for Query Reformulation ・UMLS Concepts Based Query Reformulation 7
Automatic Query Expansion With Pseudo Relevance Feedback & Relevance Feedback
生物医学的ドメインに対するクエリ拡張ベースのアプローチは、クエリー拡張なしの検索と比 較してより良い結果(Sankhavara et al.,2014) ・関連性フィードバック(RF) 検索された上位の文書から人手により関連する文書を選択 ・擬似関連性フィードバック(PRF) 検索されたトップ文書に関連性があると仮定し、フィードバック文書として使用 Terrier IR Plateform 3(Ounis et al.,2005)で実装されたモデルを使用 8
Automatic Query Expansion With Pseudo Relevance Feedback & Relevance Feedback
9
Automatic Query Expansion With Pseudo Relevance Feedback & Relevance Feedback
10
Query Reformulation for Biomedical Document Retrieval 統計的およびNLPベースのアプローチを提案 ・Automatic Query Expansion
With Pseudo Relevance Feedback & Relevance Feedback ・Feedback Document Discovery for Query Reformulation ・UMLS Concepts Based Query Reformulation 11
Feedback Document Discovery for Query Reformulation フィードバック文書発見ベースのクエリ拡張 →検索結果が上位の文書からクエリ拡張に関連する文書を識別することを学習 少量の人手の判断により、他のドキュメントの疑似判断を学ぶことが目的 以下2つの方法で実験
1. classification ベース(nearest neighbour,neural net) 2. classification + clustering ベース(上記+ k-means ) 12
Feedback Document Discovery for Query Reformulation フィードバック文書発見ベースのクエリ拡張 上位の検索された文書からクエリ拡張に関連する文書を識別することを学習 少量の人手の判断により、他のドキュメントの疑似判断を学ぶことが目的 1.
classification ベース 2. classification + clustering ベース 13 フィードバック文書の中に人手のアノテーションがある場合は、トレーニングデータとする 文書は以下で表される bag-of-words、TF-IDFスコア、人間アノテーションからのクラス 検索されたフィードバック文書について関連性を予測
Feedback Document Discovery for Query Reformulation フィードバック文書発見ベースのクエリ拡張 上位の検索された文書からクエリ拡張に関連する文書を識別することを学習 少量の人手の判断により、他のドキュメントの疑似判断を学ぶことが目的 1.
classification ベース 2. classification + clustering ベース 14 1.classificationベースのアプローチと同様の方法で分類 2.関連性予測クラスを基にクラスタリング(K平均法: k=2) →関連するものからより関連性の低いドキュメントを除外する
Feedback Document Discovery for Query Reformulation CliNER tool (Boag et
al., 2015)を使用 トレーニング: ’discharge summaries’ とそれらの ’concept annotations’ 識別対象: CDS文書の’problem’, ’test’ and ’treatment’ 方法 1. 予測した上位50の文書とそれらの対応する関連文書を使用しトレーニング 2. 予測した上位200の文書から関連するものを使用しクエリ拡張 15
Feedback Document Discovery for Query Reformulation 16
Query Reformulation for Biomedical Document Retrieval 統計的およびNLPベースのアプローチを提案 ・Automatic Query Expansion
With Pseudo Relevance Feedback & Relevance Feedback ・Feedback Document Discovery for Query Reformulation ・UMLS Concepts Based Query Reformulation 17
UMLS Concepts Based Query Reformulation ・医療分野の知識を、IRシステムにおけるクエリ拡張プロセスに組み込む ・医学言語システム(UMLS)(Bodenreider,2004年)医学分野のメタシソーラスを使用 →国立医学図書館(NLM)によって維持される →100以上の辞書、用語集、およびオントロジーを統合した包括的なリソース
18
UMLS Concepts Based Query Reformulation 次の3つのQuery Reformulation実験を行う 1. クエリテキストからUMLSの概念を識別し、クエリと共に使用 2. MeSH(Medical Subject
Heading)の用語も識別し、クエリで使用 →MeSHはUMLSの階層的に構成された語彙 3. 手動で識別し、クエリと共に使用 19
UMLS Concepts Based Query Reformulation 20
Learning To Rank ・OHSUMED LETOR(Qin et al.,2010)を参考にLTRフレームワークを適用 →クエリとそれに対するドキュメントを関連度と共にトレーニング ・文書プールが大きいため、各クエリごとに上位25の文書(BM25による)を特徴抽出に使用 ・オリジナルのクエリ、UMLSによるクエリ、手動で識別された医療概念によるクエリで実験
・手作業の必要性を克服するために、擬似的な特徴を使った実験も行う →k個のトレーニング文書 上位k / 2の文書を関連性あり、下位k / 2個の文書が関連性なし 21
Learning To Rank 22
Learning To Rank 23
Conclusion ・臨床意思決定支援システムのための生物医学文献検索の基礎となる研究を提示 ・生物医学文書検索でのクエリ拡張に基づく情報検索フレームワークの有用性を示した ・標準的なIRフレームワークPRFとRFは、臨床意思決定支援システムで十分に機能する ・UMLSのコンセプトを使った検索のための初期フレームワークも結果の改善を示した 24
Feedback Document Discovery for Query Reformulation 25