Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_202002_Is artificial data useful for biome...
Search
T.Tada
February 10, 2020
Technology
0
62
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
T.Tada
February 10, 2020
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
160
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
160
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
210
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
150
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
63
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
96
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
95
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
96
Other Decks in Technology
See All in Technology
データ分析エージェント Socrates の育て方
na0
5
600
実践!カスタムインストラクション&スラッシュコマンド
puku0x
0
480
AI開発ツールCreateがAnythingになったよ
tendasato
0
130
AWSを利用する上で知っておきたい名前解決のはなし(10分版)
nagisa53
10
3.2k
【実演版】カンファレンス登壇者・スタッフにこそ知ってほしいマイクの使い方 / 大吉祥寺.pm 2025
arthur1
1
890
roppongirb_20250911
igaiga
1
240
開発者を支える Internal Developer Portal のイマとコレカラ / To-day and To-morrow of Internal Developer Portals: Supporting Developers
aoto
PRO
1
470
下手な強制、ダメ!絶対! 「ガードレール」を「檻」にさせない"ガバナンス"の取り方とは?
tsukaman
2
450
バイブスに「型」を!Kent Beckに学ぶ、AI時代のテスト駆動開発
amixedcolor
2
580
CDK CLIで使ってたあの機能、CDK Toolkit Libraryではどうやるの?
smt7174
4
190
DroidKaigi 2025 Androidエンジニアとしてのキャリア
mhidaka
2
370
Terraformで構築する セルフサービス型データプラットフォーム / terraform-self-service-data-platform
pei0804
1
190
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
184
22k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Writing Fast Ruby
sferik
628
62k
RailsConf 2023
tenderlove
30
1.2k
Visualization
eitanlees
148
16k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.7k
A Modern Web Designer's Workflow
chriscoyier
696
190k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.5k
Testing 201, or: Great Expectations
jmmastey
45
7.7k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Context Engineering - Making Every Token Count
addyosmani
3
57
Transcript
- 文献紹介 2020 Feb. 10 - Is artificial data useful
for biomedical Natural Language Processing algorithms? 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
・Biomedical領域NLPの開発の主要な障害は、データへのアクセシビリティ ・臨床テキストの疑似データ生成方法を提案 ・生成したデータを使用し、テキスト分類と時間踏まえた関係抽出タスクで実験 ・疑似データによるNN手法の精度向上の可能性を示す ・擬似データのみをトレーニングデータに用いて有用性を確認 3 Abstract
・データ不足は、biomedical領域でのより強力な手法を用いるのに障害 ・疑似データによるデータセットの拡張は、biomedical領域のNLPでも注目される ▷通常の擬似データによる拡張は、20トークン以下の文での取り組みが多い ▷医療テキストを対象とする試みはほとんどない ・キーフレーズを使用して、疑似データを生成 ・生成されたデータのみをトレーニングデータに用い、擬似データの有用性を調査 4 Introduction
・擬似データの生成 1. 段落毎にでキーフレーズ抽出 2. 文レベルで、生成モデルへの入力 Transformerモデルを使用 3. 擬似データ生成 ・擬似データの評価 ▷内部評価
ROUGE-L, BLEU ▷外部評価 2タスクで実験(後述) 5 Methodology
外部評価1:3つの方法で実験(classification task,temporal relation extraction task) 1.オリジナルデータのみ 2.オリジナルと生成したデータ 3.オリジナルのデータをアップサンプリング 良くない生成データを想定 外部評価2:
生成データのみで実験 (classification task) 6 Methodology
・MIMIC-IIIデータベースからのEHRを使用 ・ICUでの成人患者約5万人の匿名化された臨床データ テキスト生成のデータセット 退院サマリを使用 開発データ:126人の記録をランダムに選定 5ワード未満の長さの文は削除 7 Experimental Setup -Data-
表現型データセット 1,561人の患者の1,600件の退院サマリー(約180K文) 患者が病状を患っているか、発症するリスクがあるかを判断するタスク データセットには、13の表現型(例、進行がん、進行心臓病、進行肺疾患など) テスト:20% (test-pheno)、開発10% (dev-pheno)、 70%をトレーニングと疑似データ生成のテストに使用 (test-gen-pheno) 8
Experimental Setup -Data-
時間関係データセット 2012 i2b2 temporal relations shared task (Sun et al., 2013b)
190文書の退院サマリ 開発:10%(dev-temp)、 残りは疑似データのテストとトレーニングに使用(test-gen-temp) テスト:元々のデータのテスト 時間表現に関する病歴のイベントの相対的な順序を決定するタスク イベント(EVENT)、時間表現(TIMEEX3)、それらの時間的関係(TLINK)が注釈 この研究ではイベントが同時に起きているか(注釈された関係性の33%)を予測 頻度1の単語はプレースホルダーに 9 Experimental Setup -Data-
10 Experimental Setup -Text Generation Models- ・Transformerモデルを使用し、文生成 OpenNMTツールキット(Klein et al.,2017)
・抽出されたキーフレーズを用いて生成(キーフレーズはtrain-genから抽出) Rakeアルゴリズム(Rose et al., 2010)を使用 段落ごとに高いスコアから50%取得 ・各文から抽出されたキーフレーズを入力に 一文当たり平均2.4キーフレーズ、平均の長さ1.7語
11 Experimental Setup -Text Generation Models-
12 表現型分類タスク(binary classification task) 以下モデルで実験 ・CNN ・Naive Bayes classifier (ワードレベルのBoW)
Experimental Setup -Models for Phenotype Classification-
時間関係抽出 ・BiLSTM classifier pre-trained GloVe word embeddings ・Naive Bayes classifier
(ワードレベルのBoW) イベントとイベントごとにoverlapしているか否かの2値分類 13 Experimental Setup -Models for Temporal Relations Extraction-
14 Experimental Results -Intrinsic Evaluation- 人手でも確認 ほとんどの文では、主な意味は保持し、詳細な部分に変更が加わった 理解できない文はまれであった
15 Experimental Setup -Text Generation Models-
16 Experimental Results -Extrinsic Evaluation- Phenotype Classification
17 特にCNNモデルで精度の向上を確認 Experimental Results -Extrinsic Evaluation- Phenotype Classification
・i2b2 dataset での実験結果 18 Experimental Results -Extrinsic Evaluation- Phenotype Classification
・人手の分析から、生成されたテキストではほとんどの意味が保持 ・疑似データのみを使用した結果は、実際のデータのみを使用した結果と同等 ・本研究は、より長い臨床テキストを生成する問題を検討する最初の研究 ・疑似データを他の下流のタスクに使用する場合、生成されたテキストの臨床的 妥当性を評価するには、さらなる分析が必要 ▷特に臨床研究環境での二次利用をサポートすることを目的としたもの ・テキスト生成モデルを設計するための他のアプローチが必要 19 Discussion
・臨床テキストの疑似データ生成方法を提案 ・生成したデータを使用し、テキスト分類と時間関係抽出タスクで実験 ・疑似データによるNN手法の精度向上の可能性を示す ・擬似データのみをトレーニングデータに用いて有用性を確認 ・データのアクセシビリティの問題を解決するアプローチとなる可能性 20 Conclusion
・Rakeアルゴリズムの元論文 Automatic Keyword Extraction from Individual Documentshttps://www.researchgate.net/publication/227988510_Automatic_ Keyword_Extraction_from_Individual_Documents 21 参考
・gen-key の説明 22 Experimental Results -Extrinsic Evaluation- Phenotype Classification
・NBモデルでの重要単語 23 Experimental Results -Extrinsic Evaluation- Phenotype Classification