Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
Search
T.Tada
January 20, 2020
Technology
0
120
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
T.Tada
January 20, 2020
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
54
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
150
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
170
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
92
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
120
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
54
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
77
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
80
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
81
Other Decks in Technology
See All in Technology
キャラクター制御のためのプロンプト術 for LINE Bot
uezo
0
530
なぜ NOT A HOTEL が Web3 に取り組むのか - NOT A HOTEL TECH TALK
ynunokawa
0
160
小さな開発会社がWebサービスを作る理由
polidog
PRO
1
160
Hands-on / Kaname Frusawa / Cloud Compare Users Meetup 2024 at University of Tokyo on April 17
paraworld
2
480
**強い**エンジニアのなり方 - フィードバックサイクルを勝ち取る / grow one day each day
soudai
62
18k
Microsoft Cloudで開発ライフサイクルを保護する
kkamegawa
0
150
最近たまに見かけるTiDBってなんだ? - Findy
pingcap0315
2
630
普段有償でサポート業務をしているCSAが技術知見を無料で公開する理由
07jp27
1
640
クラウドサインにおけるプロダクトマネージャーの役割と開発プロセス / 20240410_cloudsign-PdM
bengo4com
1
690
Reducing Cross-Zone Egress at Spotify with Custom gRPC Load Balancing Recap
koh_naga
0
150
Tebiki株式会社 エンジニア採用資料
tebiki
0
4.1k
社内勉強会運営のコツ
senoo
6
1.2k
Featured
See All Featured
Visualization
eitanlees
135
14k
Rails Girls Zürich Keynote
gr2m
91
13k
Become a Pro
speakerdeck
PRO
10
4.5k
Side Projects
sachag
451
41k
Building a Modern Day E-commerce SEO Strategy
aleyda
16
6.4k
Git: the NoSQL Database
bkeepers
PRO
422
63k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
18
1.7k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
356
22k
Designing for Performance
lara
601
67k
Debugging Ruby Performance
tmm1
70
11k
Embracing the Ebb and Flow
colly
79
4.1k
Unsuck your backbone
ammeep
662
57k
Transcript
- 文献紹介 2020 Jan. 20 - A Novel System for
Extractive Clinical Note Summarization using EHR Data 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference: Proceedings of the
2nd Clinical NLP 2019
・電子健康記録(EHR)内の患者のケアと管理に関する情報は埋もれている ▷医師が通常のワークフロー中にレビューすることは難しい ・臨床記録に関する疾患固有の抽出型要約タスクに取り組む ▷主に医師や看護師による記録に焦点を当てる ・EHR固有の特徴量を追加することでシステム全体のパフォーマンスが向上 3 Abstract
・EHRは、患者の健康情報の長期的な記録 ・構造化された(バイタルなど)情報 ・構造化されていない(退院サマリなど)情報 で構成される ・EHRへの移行により、意図せず記録が増大 ▷テンプレートやコピーペーストなどにより、不必要または冗長なデータが ・EHR内の重要な情報はユーザー(医師など)によって異なる 4 Introduction
・最終的な目標は医師が作成した要約に近い要約の出力 ・患者の高血圧または糖尿病に関する重要な情報に焦点を当て要約 ▷抽出型要約に取り組む ・言語資源が少ない 5 Introduction
・高血圧および/または糖尿病の既知の診断を含むアメリカの大規模なEHRで構成 ▷患者EHR内で医師または看護師が作成した記録を使用 ▷選択した記録の約半分を手動で内容確認 ・得られたコーパス: ▷3,453人の外来患者の臨床記録、1つの記録あたり平均138文 ▷12人の内科医または家庭医によって重要な箇所に注釈付け ▷各文書2人が注釈、3人目の医師がチェック ▷文書毎にだいたい4〜5文が選定 ・注釈する情報は、疾患に焦点を合わせた要約として提示されるものを想定 6
Data
アノテータの一致度(文レベル) 選定されない文が多いため、Precision, Recall, F-scoreで確認 7 Data
8 Data
・SVM、Linear-chain CRF、CNNで実験 ・臨床記録では、文は短いことも多く、意味は文脈に依存 ・トレーニングデータの各文書中に要約として注釈が付けられているのは3% (平均138の文) 9 Method
10 Method
11 Method Concept Recognitionは Bodenreider (2004)を 使用 ADEには既存 (MADE1.02など)の ラベル付きデータセットを
使用
12 Section: Note Section 文が14に定義した区分のどれにあたるか (過去の病歴,検査結果,アレルギーなど) Context:DiseaseContext 文脈(テキスト内で現れる疾患など)の情報 Plan: 治療計画
Method
1.Reasons for Annotator Differences 2.Addressing Issues of Data Scarcity 3.Limitations
in Evaluation 13 Discussion
1.Reasons for Annotator Differences ・参照要約には主観的な要素が残る ・医師2人の注釈でも、何を要約に必要な情報とするかが別れる ・これは、タスクの固有の性質であり、システムで使用する一貫した参照文が必要 ▷3人目の医師の重要性を示している 14 Discussion
2.Addressing Issues of Data Scarcity ・薬物に関する事象(ADE)には既存(MADE1.02など)のラベル付きデータセットを使用 ・既存のデータ・セットも活用することが重要 15 Discussion
3.Limitations in Evaluation ・今回は臨床要約に含めるべきかどうかの微妙な違いを完全には把握していない ・例:薬物に関連する事象(ADE) ▷患者の安全性に大きな影響を与える、重要な情報 ▷患者のケアを管理する際に必要となる、まれなイベント ▷文の重要性は文書の外の知識に依存 ▷他のドメインからの一般的な要約アルゴリズムがすぐに機能しない理由のひとつ 16
Discussion
・臨床記録からの抽出型要約のための自動化システムを提案 ・臨床記録を対象としたパイプラインについて説明 ・豊富なラベル付きデータセットが利用可能になるまでは有用 17 Conclusion