Slide 1

Slide 1 text

病院向け生成AIアプリケーション開発の実践と課題 2025-11-11 Ubie株式会社 医療機関事業本部 メディカルAIエンジニア 西林 孝 (hagino3000) Applied AI R&D Meetup 公開版資料

Slide 2

Slide 2 text

2 自己紹介 西林 孝 (X:@hagino3000) Ubie株式会社 メディカルAIエンジニア AI問診の研究開発、生成AIを活用した医療機関向けプロダクト 開発に従事。前職のオンライン広告配信プラットフォーム開発 からApplied Scienceに関る。 興味:医療言語処理、臨床医学オントロジー、疫学、因果推 論、診断支援システム(DDx)

Slide 3

Slide 3 text

3 目次 1.医療現場向けAIツールの浸透とその背景 2.取り組んでいる課題 4.設計と技術的なチャレンジ 3.病院向け生成AIアプリケーション開発例

Slide 4

Slide 4 text

4 医療現場向けAIツールの浸透 医療現場向けAIツールの浸透とその背景 2024年、米国の医師のAIツール使用率は66%に達し、前年比78%増の伸びを記録[1] 4

Slide 5

Slide 5 text

5 医療現場の課題 医療現場向けAIツールの浸透とその背景 大きな課題 ● スタッフの燃え尽き症候群[2] ○ 医師の燃え尽き ○ 看護師の離職 ● コスト増加 ● スタッフの不足 燃え尽きの原因 ● 事務的管理負担の増加 ● 長時間労働

Slide 6

Slide 6 text

6 医療現場の課題 医療現場向けAIツールの浸透とその背景 大きな課題 ● スタッフの燃え尽き症候群[2] ○ 医師の燃え尽き ○ 看護師の離職 ● コスト増加 ● スタッフの不足 燃え尽きの原因 ● 事務的管理負担の増加 ● 長時間労働 これらがAIツール導入の 要因となっている

Slide 7

Slide 7 text

7 大規模研究で生成AIによるバーンアウト21%減を実証[3] 医療現場向けAIツールの浸透とその背景 ● 患者との会話を録音して臨床ノートや要約 に自動変換する技術 ● 1,400人以上の臨床医を対象とした、アン ビエントAI文書作成技術の導入前後を比較 した大規模研究。 ● バーンアウトが21.2%に減少。 ● 文書作成関連のウェルビーイングが30.7% 優位に増加という顕著な改善が見られた。

Slide 8

Slide 8 text

8 生成AIによる業務効率化:記録時間を20%、時間外労働を30%削減[4] 医療現場向けAIツールの浸透とその背景 ● 46人の臨床医を対象にAI書記ツール 「DAX Copilot」と呼ばれるAmbient Scribing Tool (音声文字起こし) 導入の 効果を検証した質改善研究。 ● 1診療あたりの記録時間が20.4% (10.3 →8.2分; P<.001)、時間外労働が30.0% と、客観的な効率性指標において統計的に 有意な改善が報告された。 Duggan MJ, et al. JAMA Netw Open. 2025 Feb 3;8(2):e2460637.

Slide 9

Slide 9 text

9 医療現場向けAIツールの現状 医療現場向けAIツールの浸透とその背景 ● 解くべき問題は明らか ● 生成AIの性能向上により様々な問題が解決可能に ● AIツールの有効性を示すエビデンスが次々と発表されるフェーズ ● さらなる投資が進む

Slide 10

Slide 10 text

10 国立大学病院の78.6%が赤字見込み[5] 医療現場向けAIツールの浸透とその背景 国立大学病院 令和7年度第3回記者会見資料より抜粋 (2025年10月3日)

Slide 11

Slide 11 text

11 目次 1.医療現場向けAIツールの浸透とその背景 2.用語と前提 4.設計と技術的なチャレンジ 5.まとめ 3.病院向け生成AIアプリケーション開発例

Slide 12

Slide 12 text

12 保健医療の特徴 用語と前提 すべてのサービスの価格は国が決めている (1点10円) 家賃や人件費、材料原価は関係ない 区分 名称 価格 A000 初診料 291点 D400 血液採取 40点 D308 胃カメラ 1,140点 D023 新型コロナウイルスPCR検査 700点 K718 虫垂炎切除術 6,740点

Slide 13

Slide 13 text

13 保健医療の特徴 用語と前提 すべてのサービスの価格は国が決めている (1点10円) 家賃や人件費、材料原価は関係ない 我々は3割を会計時に 支払うが残り7割は……? 区分 名称 価格 A000 初診料 291点 D400 血液採取 40点 D308 胃カメラ 1,140点 D023 新型コロナウイルスPCR検査 700点 K718 虫垂炎切除術 6,740点

Slide 14

Slide 14 text

14 診療報酬請求 (レセプト) 用語と前提 患者 保険者・被扶養者 医療機関・薬局 IT健保など 健康保険組合 審査支払機関 保険料支払い 請求 支払い 受診 ・ 診療 支 払 い 請求 審査 支払い を 委託 医療費請求の審査 一 部 負 担 金

Slide 15

Slide 15 text

15 診療報酬請求 (レセプト) 用語と前提 患者 保険者・被扶養者 医療機関・薬局 IT健保など 健康保険組合 審査支払機関 保険料支払い 請求 支払い 受診 ・ 診療 支 払 い 請求 審査 支払い を 委託 医療費請求の審査 一 部 負 担 金 診療報酬の請求 同時に診療内容の審査を受ける

Slide 16

Slide 16 text

16 入院医療費はどう決まる? 用語と前提

Slide 17

Slide 17 text

17 入院医療費はどう決まる? 多くの急性期病院 で採用が進む 用語と前提

Slide 18

Slide 18 text

18 包括医療費支払い制度:DPC/PDPS ● 診断群分類 (後述) で1日あたりの報酬が決まる制度 ● 相対評価のインセンティブ制度 ● 例:脳梗塞を経皮的脳血管形成術(カテーテル)で治療した場合 用語と前提

Slide 19

Slide 19 text

19 包括医療費支払い制度:DPC/PDPS ● 診断群分類 (後述) で1日あたりの報酬が決まる制度 ● 相対評価のインセンティブ制度 ● 例:脳梗塞を経皮的脳血管形成術(カテーテル)で治療した場合 早く治療して退院さ せて次の患者を取る とより儲かる 階段は統計情報を元 に設定される 用語と前提

Slide 20

Slide 20 text

20 診断群分類:DPC ● Diagnosis Procedure Combination ● 診断と処置 (手術・検査等)を組み合わせたもの ○ 例1:虫垂炎 + 虫垂炎切除術 ○ 例2:脳梗塞 + 経皮的脳血管形成術 ● 臨床的な類似性と資源消費の均質性から患者を分類する方法の一つ ● 病院のパフォーマンスを比較して医療資源の効率性を評価するためのツール 用語と前提

Slide 21

Slide 21 text

21 ここまでのざっくりとしたまとめ ● 病院は高い業務負荷・人手不足・収益悪化で困っている ● 保健医療の価格はすべて国が決めている ● すばやく患者を治療すると利益が増える診療報酬制度がある ● その制度を利用するには患者を診断群分類に則ってコード化する必要がある 用語と前提

Slide 22

Slide 22 text

22 目次 1.医療現場向けAIツールの浸透とその背景 2.用語と前提 4.設計と技術的なチャレンジ 5.まとめ 3.病院向け生成AIアプリケーション開発例

Slide 23

Slide 23 text

23 紹介するアプリケーションの概要 病院向け生成AIアプリケーション開発 電子カルテ 医事会計システム DPCコーディング システム 診療録 レセプト 入力 入院会計に必要な情報 ● DPCコード候補 ● 点数 ● 医療資源病名 ● 手術・処置 ● 副傷病 ● 高額指定薬剤 ● など ● +各要素の根拠 出力 非構造化テキスト 構造化情報 医事課 診療情報 管理室 参照 参照

Slide 24

Slide 24 text

24 非構造化テキストの例 (生成したダミー) 病院向け生成AIアプリケーション開発 【ER 2025/11/11 10:30】 78y M. 10:00頃、朝⾷中 sudden onset の R-hemi + Disa. KP (妻) がER call. LKW 10:00. PH: AF (onリクシア ナ), HT, DM (on Met) O) JCS II-10. GCS E3V3M5=11 BP 190/110, HR 95 (irreg/AF), SpO2 98(RA) Pupil 3/3, LR(+/+). NIHSS: 15 (意識2, 視線2, 視野2, Faci Pa 3, R-UE 4, R-LE 4, 感覚2, Disa 1) R-CPA, R-hemi (MMT 1/1) BS 180 O) BP 90/50 (MAP 63) ※NA 0.2γ 使⽤中 HR 125 (sinus) Ventilator: PCV (PIP 25, PEEP 10, FiO2 1.0) → SpO2 92%, P/F⽐ 70 Urine: 乏尿 (10ml/h) A) #1 敗⾎症性ショック (CS 4)  # 消化管穿孔 (上⾏結腸 s/o) #2 ARDS (severe, P/F < 100) #3 AKI (Anuria stage) #4 Lactic Acidosis Sourceは腹膜炎でほぼ間違いない。循環動態はNA 0.2γと⾼⽤量昇圧剤を要 しており、極めて不安定 (vasoplegic shock)。 補液負荷 (total 3L) に対する 反応 乏しく、昇圧剤依存の状態。 P/F 70 (FiO2 1.0) と重症ARDSを合併して おり、敗⾎症による肺胞障害 (capillary leak) が主体。 AKIは、Shockによ るpre-renal factorに加え、SepsisによるATN合併が濃厚。Lac 8.8→10.2と 上昇傾向であり、組織低灌流が持続している。 P) 外科OP (Source control) が最優先。OP室へ⼊室。 循環動態の維持が困 難であり、昇圧剤の増量 (NA 0.3γ〜) が予想される。VA (バソプレシン) の 併⽤も考慮。 OP中の循環破綻 (cardiac arrest) risk極めて⾼いことKPへ IC。 医師によってスタイル が全く異なる

Slide 25

Slide 25 text

25 非構造化テキストの例 (生成したダミー) 病院向け生成AIアプリケーション開発 S) 3⽇前から39℃台の熱、咳、⻩⾊痰。右の背中が痛い。 O) T 39.1, HR 108 (sinus), BP 130/70, RR 22, SpO2 93 (RA) 意識清明。 胸部聴診:右下肺野 湿性ラ⾳(coarse crackles)、呼吸⾳↓ XP:右下葉に浸潤影(+) [2025-01-01] 01 TP 6.0 02 ALB 3.1 06 AST 45 07 ALT 38 20 UN 22.0 21 CRE 0.88 25 Na 133 31 CRP 25.80 40 WBC 18.8 42 Hb 13.5 47 PLT 350 101 PCT 5.50 血液検査の結果コピペ は頻出

Slide 26

Slide 26 text

26 要素技術:クリニカルコーディング 病院向け生成AIアプリケーション開発 ● 医療言語処理分野では古くからあるタスク ○ テキストを入力として何らかの分類体系上のコードを出力する ● 古典的な手順 ○ 固有表現抽出 ■ テキスト上の抽出対象スパンの特定 ○ 関係抽出:骨折 ⇔ 部位 ○ ネガポジ判定:「吐き気はあるが嘔吐は無い」→ 吐き気(+), 嘔吐(-) ○ エンティティリンキング ■ 何らかの分類体系のコードにする

Slide 27

Slide 27 text

27 要素技術:クリニカルコーディングの例 病院向け生成AIアプリケーション開発 ● 病名コーディング ○ 「S状結腸に20mm大の大腸がんを認めた」→ C18.7 (結腸の悪性新生物 S状結腸) ○ 「血小板数2万」→ D69.6 (血小板減少症 詳細不明) ● 手術・処置のコーディング ○ 「下行結腸:ESD施行」→ K7212 (内視鏡的大腸ポリープ・粘膜切除術 長径2cm以上) ○ 「救急外来で挿管」→ J0451 (人工呼吸30分までの場合) ● DPCコーディング ○ 「脳梗塞で緊急入院しカテーテルによるステント留置、入院中に誤嚥性肺炎を併発 した」 → 010060xx02x01x

Slide 28

Slide 28 text

28 DPCコーディング業務と情報抽出 ● 入院中のカルテなどの記録を元にして以下の要素を集める ○ 最も医療資源が投入された傷病 (医療資源病名) ○ 手術・処置・使用薬剤・持参薬処方 ○ 副傷病 ○ 重症度や病態分類 ● 抽出した要素を組み合わせて成立可能なDPC(診断群分類)コードを決定する ○ 例:010060xx971010 脳梗塞 その他の手術あり 手術処置等1-1あり 手術処置等2なし 定義副傷病名あり 無症候性 ● 月末・退院時には必ず実施 病院向け生成AIアプリケーション開発

Slide 29

Slide 29 text

29 DPCコーディングの難しさ ● 医療資源が最も投入された傷病の特定 ○ 高齢になると入院時に併発している疾患が5〜6個ある ○ 手術目的の入院だがコンディション悪化で手術ができていない場合 ○ いくつもの検査をしているが確定診断が無い場合 ○ カルテがしっかり書かれていない場合 ○ 長期入院で記録が膨大にある場合 (50万文字を越えることも) ○ メインの治療じゃない所で高額薬剤が使われている場合 ● 適切なDPCコードを選ばないと点数が減りがち(収益減) ○ ただし過剰請求は査定 病院向け生成AIアプリケーション開発

Slide 30

Slide 30 text

30 DPCコーディングの技術要件 ● Needles in Haystacks ○ 膨大な非構造化テキストの中から根拠を見つける ● 時系列イベントログのコンテキスト把握 ○ 大腸ポリープで入院、生検でがんの確定診断が出たなら大腸がんに更新 ○ 入院後48時間以上経過してから出現した肺炎は院内肺炎 ● 医学的な推論による複数の事実の関連付け (例:病態 + 原因微生物) ○ 帯状疱疹が先行、後に髄膜炎を発症 ○ 個々のイベント単位でコーディングすると ■ B02.9 帯状疱疹 / G03.9 髄膜炎詳細不明 ○ 2つの事実の関連性から B02.1 帯状疱疹性髄膜炎 を出力するのが望ましい 病院向け生成AIアプリケーション開発

Slide 31

Slide 31 text

31 DPCコーディングの技術要件 ● クリニカルコーディング ○ 選択肢の数が膨大(〜数万)な分類問題 ○ 標準病名マスターに着地させたい場合は選択肢が27,000個を越える ● 断片的な情報からの推論 ○ カルテにしっかり書かれていない場合がある ● ペナルティに繋がる誤りをしない ○ 過剰請求はNG 病院向け生成AIアプリケーション開発

Slide 32

Slide 32 text

32 目次 1.医療現場向けAIツールの浸透とその背景 2.用語と前提 4.設計と技術的なチャレンジ 5.まとめ 3.病院向け生成AIアプリケーション開発例

Slide 33

Slide 33 text

33 ● タスクを細かく分割してワークフローを組む ○ エキスパートの業務手順、思考過程でおおまかに ○ さらに非決定論的な自然言語処理タスクと決定論的なロジックに分ける ■ 個別にテストが書ける ● e.g. プロンプト文字列の構築 ● 生成AIの処理 ○ Responseスキーマを指定するとかなりテストが書ける ○ 任意のタスクを個別に起動できると捗る ■ プロンプト修正後の動作確認 ■ デバッグ用に入力プロンプト、モデル出力を個別に残す ワークフロー設計 設計と技術的なチャレンジ

Slide 34

Slide 34 text

34 オフライン評価の仕組みを最初から整える ● 自然言語処理タスクは個別に精度が計算できるようにする ○ タスク個別 or 先頭からある部分 or 途中から最後 ○ 各タスクの入出力を永続化する ○ プロンプト調整やモデル切り替えに必要 ● コアロジックが実験・性能評価用のコードに依存しないように ○ 非エンジニアによるバイブコーディングで容易に起こる ■ PythonならRuffのlintルールでimport抑制可能 ○ コアロジックに移植性を持たせる (e.g. Python → TypeScript) 設計と技術的なチャレンジ

Slide 35

Slide 35 text

35 性能評価 ● 日本語カルテテキストは標準的なデータセットが不在 ● 評価データセット構築 ○ 実際の会計に使われたデータを頂く事はできるが正解データとしての良さが不明 ○ 自前でエキスパートと協力して作り込む必要がある ● Super Humanレベルの性能が求められる ○ 現場に使ってもらう ⇔ 経営層の受け ● 現場目線 ○ Precisionが低いと業務効率が下がる ○ 素人っぽい間違えをしない (プロフェッショナルツールなので) ■ 閉鎖性骨折と開放骨折を間違えない 設計と技術的なチャレンジ

Slide 36

Slide 36 text

36 ● 問題:回答の空間が広い ○ 標準病名マスタから選ばせると2万7千個の病名リスト ○ 選択肢をプロンプトに列挙するだけで大量のトークンを消費 ■ LLMのベンチマークによく登場する医師国家試験はたったの5択 ● そもそもLLM(生成モデル)で解く問題なのか? ○ 既存研究では数千〜数万件の訓練データでfine-tuningしたBERT系モデルが強い[6] ○ どのタイミングでマスク言語モデルに切り替えるか ○ しかし医療データはロングテール、訓練データ作成が困難 ● LLMを使いつつ探索空間を小さくしたい[7] クリニカルコーディングを効率的にしたい 設計と技術的なチャレンジ

Slide 37

Slide 37 text

37 固いデータを使った探索空間の絞りこみ ● 医療分野では様々なデータが体系化して整理されている ○ 疾患、症状、薬剤、薬剤と適応症の関連付けなどのグラフデータ ■ ICD-10:国際疾病分類第10版 ■ 医科診療行為マスター ● 保健医療では理由の無い処置・検査・投薬は禁止[8] ○ 明示がなくともすべての処置・検査・投薬には傷病が紐つく ○ レセプトデータ (構造化データ) から可能性のある空間を絞ることができる ○ Vector SearchによるRAGより簡単 ● 診療報酬請求は国策で最初にIT化が推進された業務領域 ○ 情報資源が豊富 設計と技術的なチャレンジ

Slide 38

Slide 38 text

38 疾患体系分類の例:ICD-10 設計と技術的なチャレンジ

Slide 39

Slide 39 text

39 疾患体系分類の例:ICD-10 設計と技術的なチャレンジ

Slide 40

Slide 40 text

40 疾患体系分類の例:Disease Ontology ( is-a 関係の図示) 設計と技術的なチャレンジ

Slide 41

Slide 41 text

41 分類体系化して知識を引き出すRAG:Retrieval-And-Structuring[9] Jiang, Pengcheng, et al. “A Survey on Retrieval And Structuring Augmented Generation with Large Language Models.” arXiv [Cs.CL], 12 Sept. 2025, https://doi.org/10.48550/arXiv.2509.10697. arXiv. 設計と技術的なチャレンジ

Slide 42

Slide 42 text

42 分類体系を利用したRAG:上位レベルの絞りこみ 設計と技術的なチャレンジ

Slide 43

Slide 43 text

43 分類体系を利用したRAG:上位レベルの絞りこみ 設計と技術的なチャレンジ LLMにトップレベルの階層 で絞りこみをさせる。 複数選択でRecallを担保。

Slide 44

Slide 44 text

44 LLMの出力を検証したい ● Self-VerificationとOver Thinking ● Self-Verification ○ 自身の出力を渡して訂正を指示するプロンプティングテクニック ○ 外部知識無しに正しく訂正するのは難しい[10] ■ 外部知識を与える ● Over Thinking[11] ○ 長く考えさせると精度が下がる ○ 確信度を答えさせると0か100に偏りがち 設計と技術的なチャレンジ

Slide 45

Slide 45 text

45 目次 1.医療現場向けAIツールの浸透とその背景 2.用語と前提 4.設計と技術的なチャレンジ 5.まとめ 3.病院向け生成AIアプリケーション開発

Slide 46

Slide 46 text

46 まとめ ● 医療現場向けAIツールはエビデンスを出していく段階 ● クリニカルコーディングはまだまだ技術的な問題が多い ● 医療現場に貢献可能な性能は出せる ● 医療データはグラフによる知識補完が有効 ● エンジニア採用してます

Slide 47

Slide 47 text

47 参考文献1 [1] Laurent, Adrien. “AI in Hospitals: 2025 Adoption Trends & Statistics.” IntuitionLabs, 17 Oct. 2025, intuitionlabs.ai/articles/ai-adoption-us-hospitals-2025. [2] ResearchAndMarkets.com. “Generative AI in Healthcare Market Research 2025: Global Industry Trends and Forecasts to 2035 - Rising Administrative Burden, Funding and AI/ML Advancements Drive Steady Growth - Researchandmarkets.com.” Business Wire, 3 Oct. 2025, www.businesswire.com/news/home/20251003495521/en/Generative-AI-in-Healthcare-Market-Research-2025-Global-Indus try-Trends-and-Forecasts-to-2035---Rising-Administrative-Burden-Funding-and-AIML-Advancements-Drive-Steady-Growth- --ResearchAndMarkets.com. [3] You, Jacqueline G., et al. “Ambient Documentation Technology in Clinician Experience of Documentation Burden and Burnout.” JAMA Network Open, vol. 8, no. 8, American Medical Association (AMA), Aug. 2025, p. e2528056. [4] Duggan, Matthew J., et al. “Clinician Experiences with Ambient Scribe Technology to Assist with Documentation Burden and Efficiency.” JAMA Network Open, vol. 8, no. 2, American Medical Association (AMA), Feb. 2025, p. e2460637. [5] フォーラム国立大学病院. 活動レポート|フォーラム国立大学病院. plaza.umin.ac.jp/~nuh-forum/report/kaigi/251003.html. Accessed 10 Nov. 2025.

Slide 48

Slide 48 text

48 参考文献2 [6] Shimizu, Seiji, et al. “Toward Cross-Hospital Deployment of Natural Language Processing Systems: Model Development and Validation of Fine-Tuned Large Language Models for Disease Name Recognition in Japanese.” JMIR Medical Informatics, vol. 13, no. 1, JMIR Medical Informatics, July 2025, p. e76773. [8] 保険医療機関及び保険医療養担当規則 第20条 [7] Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation. arxiv.org/html/2510.07629v1. Accessed 12 Nov. 2025. [9] Jiang, Pengcheng, et al. “A Survey on Retrieval And Structuring Augmented Generation with Large Language Models.” arXiv [Cs.CL], 12 Sept. 2025, https://doi.org/10.48550/arXiv.2509.10697. arXiv. [10] Kamoi, Ryo, et al. “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs.” arXiv [Cs.CL], 3 June 2024, https://doi.org/10.48550/arXiv.2406.01297. arXiv. [11] Sui, Yang, et al. “Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models.” arXiv [Cs.CL], 21 Aug. 2025, https://doi.org/10.48550/arXiv.2503.16419. arXiv.