Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_202002_Is artificial data useful for biome...
Search
T.Tada
February 10, 2020
Technology
0
63
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
T.Tada
February 10, 2020
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
170
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
170
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
220
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
150
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
65
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
100
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
97
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
97
Other Decks in Technology
See All in Technology
AIエージェント開発と活用を加速するワークフロー自動生成への挑戦
shibuiwilliam
4
790
LayerX QA Night#1
koyaman2
0
210
AI時代の新規LLMプロダクト開発: Findy Insightsを3ヶ月で立ち上げた舞台裏と振り返り
dakuon
0
410
AWSに革命を起こすかもしれない新サービス・アップデートについてのお話
yama3133
0
470
SREには開発組織全体で向き合う
koh_naga
0
410
半年で、AIゼロ知識から AI中心開発組織の変革担当に至るまで
rfdnxbro
0
120
Bedrock AgentCore Evaluationsで学ぶLLM as a judge入門
shichijoyuhi
0
140
さくらのクラウド開発ふりかえり2025
kazeburo
2
240
[2025-12-12]あの日僕が見た胡蝶の夢 〜人の夢は終わらねェ AIによるパフォーマンスチューニングのすゝめ〜
tosite
0
120
AWSの新機能をフル活用した「re:Inventエージェント」開発秘話
minorun365
2
350
IAMユーザーゼロの運用は果たして可能なのか
yama3133
2
520
20251219 OpenIDファウンデーション・ジャパン紹介 / OpenID Foundation Japan Intro
oidfj
0
410
Featured
See All Featured
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
72
Fireside Chat
paigeccino
41
3.8k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
0
290
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
15
A Modern Web Designer's Workflow
chriscoyier
698
190k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
580
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
Test your architecture with Archunit
thirion
1
2.1k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Scaling GitHub
holman
464
140k
Transcript
- 文献紹介 2020 Feb. 10 - Is artificial data useful
for biomedical Natural Language Processing algorithms? 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
・Biomedical領域NLPの開発の主要な障害は、データへのアクセシビリティ ・臨床テキストの疑似データ生成方法を提案 ・生成したデータを使用し、テキスト分類と時間踏まえた関係抽出タスクで実験 ・疑似データによるNN手法の精度向上の可能性を示す ・擬似データのみをトレーニングデータに用いて有用性を確認 3 Abstract
・データ不足は、biomedical領域でのより強力な手法を用いるのに障害 ・疑似データによるデータセットの拡張は、biomedical領域のNLPでも注目される ▷通常の擬似データによる拡張は、20トークン以下の文での取り組みが多い ▷医療テキストを対象とする試みはほとんどない ・キーフレーズを使用して、疑似データを生成 ・生成されたデータのみをトレーニングデータに用い、擬似データの有用性を調査 4 Introduction
・擬似データの生成 1. 段落毎にでキーフレーズ抽出 2. 文レベルで、生成モデルへの入力 Transformerモデルを使用 3. 擬似データ生成 ・擬似データの評価 ▷内部評価
ROUGE-L, BLEU ▷外部評価 2タスクで実験(後述) 5 Methodology
外部評価1:3つの方法で実験(classification task,temporal relation extraction task) 1.オリジナルデータのみ 2.オリジナルと生成したデータ 3.オリジナルのデータをアップサンプリング 良くない生成データを想定 外部評価2:
生成データのみで実験 (classification task) 6 Methodology
・MIMIC-IIIデータベースからのEHRを使用 ・ICUでの成人患者約5万人の匿名化された臨床データ テキスト生成のデータセット 退院サマリを使用 開発データ:126人の記録をランダムに選定 5ワード未満の長さの文は削除 7 Experimental Setup -Data-
表現型データセット 1,561人の患者の1,600件の退院サマリー(約180K文) 患者が病状を患っているか、発症するリスクがあるかを判断するタスク データセットには、13の表現型(例、進行がん、進行心臓病、進行肺疾患など) テスト:20% (test-pheno)、開発10% (dev-pheno)、 70%をトレーニングと疑似データ生成のテストに使用 (test-gen-pheno) 8
Experimental Setup -Data-
時間関係データセット 2012 i2b2 temporal relations shared task (Sun et al., 2013b)
190文書の退院サマリ 開発:10%(dev-temp)、 残りは疑似データのテストとトレーニングに使用(test-gen-temp) テスト:元々のデータのテスト 時間表現に関する病歴のイベントの相対的な順序を決定するタスク イベント(EVENT)、時間表現(TIMEEX3)、それらの時間的関係(TLINK)が注釈 この研究ではイベントが同時に起きているか(注釈された関係性の33%)を予測 頻度1の単語はプレースホルダーに 9 Experimental Setup -Data-
10 Experimental Setup -Text Generation Models- ・Transformerモデルを使用し、文生成 OpenNMTツールキット(Klein et al.,2017)
・抽出されたキーフレーズを用いて生成(キーフレーズはtrain-genから抽出) Rakeアルゴリズム(Rose et al., 2010)を使用 段落ごとに高いスコアから50%取得 ・各文から抽出されたキーフレーズを入力に 一文当たり平均2.4キーフレーズ、平均の長さ1.7語
11 Experimental Setup -Text Generation Models-
12 表現型分類タスク(binary classification task) 以下モデルで実験 ・CNN ・Naive Bayes classifier (ワードレベルのBoW)
Experimental Setup -Models for Phenotype Classification-
時間関係抽出 ・BiLSTM classifier pre-trained GloVe word embeddings ・Naive Bayes classifier
(ワードレベルのBoW) イベントとイベントごとにoverlapしているか否かの2値分類 13 Experimental Setup -Models for Temporal Relations Extraction-
14 Experimental Results -Intrinsic Evaluation- 人手でも確認 ほとんどの文では、主な意味は保持し、詳細な部分に変更が加わった 理解できない文はまれであった
15 Experimental Setup -Text Generation Models-
16 Experimental Results -Extrinsic Evaluation- Phenotype Classification
17 特にCNNモデルで精度の向上を確認 Experimental Results -Extrinsic Evaluation- Phenotype Classification
・i2b2 dataset での実験結果 18 Experimental Results -Extrinsic Evaluation- Phenotype Classification
・人手の分析から、生成されたテキストではほとんどの意味が保持 ・疑似データのみを使用した結果は、実際のデータのみを使用した結果と同等 ・本研究は、より長い臨床テキストを生成する問題を検討する最初の研究 ・疑似データを他の下流のタスクに使用する場合、生成されたテキストの臨床的 妥当性を評価するには、さらなる分析が必要 ▷特に臨床研究環境での二次利用をサポートすることを目的としたもの ・テキスト生成モデルを設計するための他のアプローチが必要 19 Discussion
・臨床テキストの疑似データ生成方法を提案 ・生成したデータを使用し、テキスト分類と時間関係抽出タスクで実験 ・疑似データによるNN手法の精度向上の可能性を示す ・擬似データのみをトレーニングデータに用いて有用性を確認 ・データのアクセシビリティの問題を解決するアプローチとなる可能性 20 Conclusion
・Rakeアルゴリズムの元論文 Automatic Keyword Extraction from Individual Documentshttps://www.researchgate.net/publication/227988510_Automatic_ Keyword_Extraction_from_Individual_Documents 21 参考
・gen-key の説明 22 Experimental Results -Extrinsic Evaluation- Phenotype Classification
・NBモデルでの重要単語 23 Experimental Results -Extrinsic Evaluation- Phenotype Classification