Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_202001_A Novel System for Extractive Clini...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
T.Tada
January 20, 2020
Technology
0
170
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
T.Tada
January 20, 2020
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
64
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
170
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
220
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
160
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
68
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
110
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
97
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
100
Other Decks in Technology
See All in Technology
We Built for Predictability; The Workloads Didn’t Care
stahnma
0
150
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
130
Frontier Agents (Kiro autonomous agent / AWS Security Agent / AWS DevOps Agent) の紹介
msysh
3
190
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
200
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
500
コンテナセキュリティの最新事情 ~ 2026年版 ~
kyohmizu
6
1.8k
Bill One急成長の舞台裏 開発組織が直面した失敗と教訓
sansantech
PRO
2
400
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
15
93k
外部キー制約の知っておいて欲しいこと - RDBMSを正しく使うために必要なこと / FOREIGN KEY Night
soudai
PRO
12
5.6k
Kiro IDEのドキュメントを全部読んだので地味だけどちょっと嬉しい機能を紹介する
khmoryz
0
210
OpenShiftでllm-dを動かそう!
jpishikawa
0
140
Exadata Fleet Update
oracle4engineer
PRO
0
1.1k
Featured
See All Featured
New Earth Scene 8
popppiees
1
1.5k
Designing for humans not robots
tammielis
254
26k
The Curious Case for Waylosing
cassininazir
0
240
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
130
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
350
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
270
Practical Orchestrator
shlominoach
191
11k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.1k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
94
Context Engineering - Making Every Token Count
addyosmani
9
670
Making Projects Easy
brettharned
120
6.6k
Transcript
- 文献紹介 2020 Jan. 20 - A Novel System for
Extractive Clinical Note Summarization using EHR Data 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference: Proceedings of the
2nd Clinical NLP 2019
・電子健康記録(EHR)内の患者のケアと管理に関する情報は埋もれている ▷医師が通常のワークフロー中にレビューすることは難しい ・臨床記録に関する疾患固有の抽出型要約タスクに取り組む ▷主に医師や看護師による記録に焦点を当てる ・EHR固有の特徴量を追加することでシステム全体のパフォーマンスが向上 3 Abstract
・EHRは、患者の健康情報の長期的な記録 ・構造化された(バイタルなど)情報 ・構造化されていない(退院サマリなど)情報 で構成される ・EHRへの移行により、意図せず記録が増大 ▷テンプレートやコピーペーストなどにより、不必要または冗長なデータが ・EHR内の重要な情報はユーザー(医師など)によって異なる 4 Introduction
・最終的な目標は医師が作成した要約に近い要約の出力 ・患者の高血圧または糖尿病に関する重要な情報に焦点を当て要約 ▷抽出型要約に取り組む ・言語資源が少ない 5 Introduction
・高血圧および/または糖尿病の既知の診断を含むアメリカの大規模なEHRで構成 ▷患者EHR内で医師または看護師が作成した記録を使用 ▷選択した記録の約半分を手動で内容確認 ・得られたコーパス: ▷3,453人の外来患者の臨床記録、1つの記録あたり平均138文 ▷12人の内科医または家庭医によって重要な箇所に注釈付け ▷各文書2人が注釈、3人目の医師がチェック ▷文書毎にだいたい4〜5文が選定 ・注釈する情報は、疾患に焦点を合わせた要約として提示されるものを想定 6
Data
アノテータの一致度(文レベル) 選定されない文が多いため、Precision, Recall, F-scoreで確認 7 Data
8 Data
・SVM、Linear-chain CRF、CNNで実験 ・臨床記録では、文は短いことも多く、意味は文脈に依存 ・トレーニングデータの各文書中に要約として注釈が付けられているのは3% (平均138の文) 9 Method
10 Method
11 Method Concept Recognitionは Bodenreider (2004)を 使用 ADEには既存 (MADE1.02など)の ラベル付きデータセットを
使用
12 Section: Note Section 文が14に定義した区分のどれにあたるか (過去の病歴,検査結果,アレルギーなど) Context:DiseaseContext 文脈(テキスト内で現れる疾患など)の情報 Plan: 治療計画
Method
1.Reasons for Annotator Differences 2.Addressing Issues of Data Scarcity 3.Limitations
in Evaluation 13 Discussion
1.Reasons for Annotator Differences ・参照要約には主観的な要素が残る ・医師2人の注釈でも、何を要約に必要な情報とするかが別れる ・これは、タスクの固有の性質であり、システムで使用する一貫した参照文が必要 ▷3人目の医師の重要性を示している 14 Discussion
2.Addressing Issues of Data Scarcity ・薬物に関する事象(ADE)には既存(MADE1.02など)のラベル付きデータセットを使用 ・既存のデータ・セットも活用することが重要 15 Discussion
3.Limitations in Evaluation ・今回は臨床要約に含めるべきかどうかの微妙な違いを完全には把握していない ・例:薬物に関連する事象(ADE) ▷患者の安全性に大きな影響を与える、重要な情報 ▷患者のケアを管理する際に必要となる、まれなイベント ▷文の重要性は文書の外の知識に依存 ▷他のドメインからの一般的な要約アルゴリズムがすぐに機能しない理由のひとつ 16
Discussion
・臨床記録からの抽出型要約のための自動化システムを提案 ・臨床記録を対象としたパイプラインについて説明 ・豊富なラベル付きデータセットが利用可能になるまでは有用 17 Conclusion