病院向け生成AIプロダクト開発の実践と課題

病院向け生成AIアプリケーション開発の実践と課題 2025-11-11 Ubie株式会社医療機関事業本部メディカルAIエンジニア西林孝 (hagino3000) Applied AI
R&D Meetup 公開版資料

2 自己紹介西林孝 (X:@hagino3000) Ubie株式会社メディカルAIエンジニア AI問診の研究開発、生成AIを活用した医療機関向けプロダクト開発に従事。前職のオンライン広告配信プラットフォーム開発からApplied
Scienceに関る。興味：医療言語処理、臨床医学オントロジー、疫学、因果推論、診断支援システム(DDx)

3 目次１．医療現場向けAIツールの浸透とその背景２．取り組んでいる課題４．設計と技術的なチャレンジ３．病院向け生成AIアプリケーション開発例

4 医療現場向けAIツールの浸透医療現場向けAIツールの浸透とその背景 2024年、米国の医師のAIツール使用率は66%に達し、前年比78%増の伸びを記録[1] 4

5 医療現場の課題医療現場向けAIツールの浸透とその背景大きな課題 • スタッフの燃え尽き症候群[2] ◦ 医師の燃え尽き ◦ 看護師の離職
• コスト増加 • スタッフの不足燃え尽きの原因 • 事務的管理負担の増加 • 長時間労働

6 医療現場の課題医療現場向けAIツールの浸透とその背景大きな課題 • スタッフの燃え尽き症候群[2] ◦ 医師の燃え尽き ◦ 看護師の離職
• コスト増加 • スタッフの不足燃え尽きの原因 • 事務的管理負担の増加 • 長時間労働これらがAIツール導入の要因となっている

7 大規模研究で生成AIによるバーンアウト21%減を実証[3] 医療現場向けAIツールの浸透とその背景 • 患者との会話を録音して臨床ノートや要約に自動変換する技術 • 1,400人以上の臨床医を対象とした、アンビエントAI文書作成技術の導入前後を比較した大規模研究。
• バーンアウトが21.2%に減少。 • 文書作成関連のウェルビーイングが30.7% 優位に増加という顕著な改善が見られた。

8 生成AIによる業務効率化：記録時間を20%、時間外労働を30%削減[4] 医療現場向けAIツールの浸透とその背景 • 46人の臨床医を対象にAI書記ツール「DAX Copilot」と呼ばれるAmbient Scribing Tool (音声文字起こし)
導入の効果を検証した質改善研究。 • 1診療あたりの記録時間が20.4% (10.3 →8.2分; P<.001)、時間外労働が30.0% と、客観的な効率性指標において統計的に有意な改善が報告された。 Duggan MJ, et al. JAMA Netw Open. 2025 Feb 3;8(2):e2460637.

9 医療現場向けAIツールの現状医療現場向けAIツールの浸透とその背景 • 解くべき問題は明らか • 生成AIの性能向上により様々な問題が解決可能に • AIツールの有効性を示すエビデンスが次々と発表されるフェーズ •
さらなる投資が進む

10 国立大学病院の78.6%が赤字見込み[5] 医療現場向けAIツールの浸透とその背景国立大学病院令和7年度第3回記者会見資料より抜粋 (2025年10月3日)

11 目次１．医療現場向けAIツールの浸透とその背景２．用語と前提４．設計と技術的なチャレンジ５．まとめ３．病院向け生成AIアプリケーション開発例

12 保健医療の特徴用語と前提すべてのサービスの価格は国が決めている (1点10円) 家賃や人件費、材料原価は関係ない区分名称価格 A000
初診料 291点 D400 血液採取 40点 D308 胃カメラ 1,140点 D023 新型コロナウイルスPCR検査 700点 K718 虫垂炎切除術 6,740点

13 保健医療の特徴用語と前提すべてのサービスの価格は国が決めている (1点10円) 家賃や人件費、材料原価は関係ない我々は3割を会計時に支払うが残り7割は……? 区分名称
価格 A000 初診料 291点 D400 血液採取 40点 D308 胃カメラ 1,140点 D023 新型コロナウイルスPCR検査 700点 K718 虫垂炎切除術 6,740点

14 診療報酬請求 (レセプト) 用語と前提患者保険者・被扶養者医療機関・薬局 IT健保など健康保険組合審査支払機関
保険料支払い請求支払い受診・診療支払い請求審査支払いを委託医療費請求の審査一部負担金

15 診療報酬請求 (レセプト) 用語と前提患者保険者・被扶養者医療機関・薬局 IT健保など健康保険組合審査支払機関
保険料支払い請求支払い受診・診療支払い請求審査支払いを委託医療費請求の審査一部負担金診療報酬の請求同時に診療内容の審査を受ける

16 入院医療費はどう決まる? 用語と前提

17 入院医療費はどう決まる? 多くの急性期病院で採用が進む用語と前提

18 包括医療費支払い制度：DPC/PDPS • 診断群分類 (後述) で1日あたりの報酬が決まる制度 • 相対評価のインセンティブ制度 • 例：脳梗塞を経皮的脳血管形成術(カテーテル)で治療した場合
用語と前提

19 包括医療費支払い制度：DPC/PDPS • 診断群分類 (後述) で1日あたりの報酬が決まる制度 • 相対評価のインセンティブ制度 • 例：脳梗塞を経皮的脳血管形成術(カテーテル)で治療した場合
早く治療して退院させて次の患者を取るとより儲かる階段は統計情報を元に設定される用語と前提

20 診断群分類：DPC • Diagnosis Procedure Combination • 診断と処置 (手術・検査等)を組み合わせたもの ◦
例1：虫垂炎 + 虫垂炎切除術 ◦ 例2：脳梗塞 + 経皮的脳血管形成術 • 臨床的な類似性と資源消費の均質性から患者を分類する方法の一つ • 病院のパフォーマンスを比較して医療資源の効率性を評価するためのツール用語と前提

21 ここまでのざっくりとしたまとめ • 病院は高い業務負荷・人手不足・収益悪化で困っている • 保健医療の価格はすべて国が決めている • すばやく患者を治療すると利益が増える診療報酬制度がある • その制度を利用するには患者を診断群分類に則ってコード化する必要がある
用語と前提

23 紹介するアプリケーションの概要病院向け生成AIアプリケーション開発電子カルテ医事会計システム DPCコーディングシステム診療録レセプト入力
入院会計に必要な情報 • DPCコード候補 • 点数 • 医療資源病名 • 手術・処置 • 副傷病 • 高額指定薬剤 • など • +各要素の根拠出力非構造化テキスト構造化情報医事課診療情報管理室参照参照

24 非構造化テキストの例 (生成したダミー) 病院向け生成AIアプリケーション開発【ER 2025/11/11 10:30】 78y M. 10:00頃、朝⾷中
sudden onset の R-hemi + Disa. KP (妻) がER call. LKW 10:00. PH: AF (onリクシアナ), HT, DM (on Met) O) JCS II-10. GCS E3V3M5=11 BP 190/110, HR 95 (irreg/AF), SpO2 98(RA) Pupil 3/3, LR(+/+). NIHSS: 15 (意識2, 視線2, 視野2, Faci Pa 3, R-UE 4, R-LE 4, 感覚2, Disa 1) R-CPA, R-hemi (MMT 1/1) BS 180 O) BP 90/50 (MAP 63) ※NA 0.2γ 使⽤中 HR 125 (sinus) Ventilator: PCV (PIP 25, PEEP 10, FiO2 1.0) → SpO2 92%, P/F⽐ 70 Urine: 乏尿 (10ml/h) A) #1 敗⾎症性ショック (CS 4) # 消化管穿孔 (上⾏結腸 s/o) #2 ARDS (severe, P/F < 100) #3 AKI (Anuria stage) #4 Lactic Acidosis Sourceは腹膜炎でほぼ間違いない。循環動態はNA 0.2γと⾼⽤量昇圧剤を要しており、極めて不安定 (vasoplegic shock)。補液負荷 (total 3L) に対する反応乏しく、昇圧剤依存の状態。 P/F 70 (FiO2 1.0) と重症ARDSを合併しており、敗⾎症による肺胞障害 (capillary leak) が主体。 AKIは、Shockによるpre-renal factorに加え、SepsisによるATN合併が濃厚。Lac 8.8→10.2と上昇傾向であり、組織低灌流が持続している。 P) 外科OP (Source control) が最優先。OP室へ⼊室。循環動態の維持が困難であり、昇圧剤の増量 (NA 0.3γ〜) が予想される。VA (バソプレシン) の併⽤も考慮。 OP中の循環破綻 (cardiac arrest) risk極めて⾼いことKPへ IC。医師によってスタイルが全く異なる

25 非構造化テキストの例 (生成したダミー) 病院向け生成AIアプリケーション開発 S) 3⽇前から39℃台の熱、咳、⻩⾊痰。右の背中が痛い。 O) T 39.1, HR
108 (sinus), BP 130/70, RR 22, SpO2 93 (RA) 意識清明。胸部聴診：右下肺野湿性ラ⾳(coarse crackles)、呼吸⾳↓ XP：右下葉に浸潤影(+) [2025-01-01] 01 TP 6.0 02 ALB 3.1 06 AST 45 07 ALT 38 20 UN 22.0 21 CRE 0.88 25 Na 133 31 CRP 25.80 40 WBC 18.8 42 Hb 13.5 47 PLT 350 101 PCT 5.50 血液検査の結果コピペは頻出

26 要素技術：クリニカルコーディング病院向け生成AIアプリケーション開発 • 医療言語処理分野では古くからあるタスク ◦ テキストを入力として何らかの分類体系上のコードを出力する • 古典的な手順 ◦
固有表現抽出 ▪ テキスト上の抽出対象スパンの特定 ◦ 関係抽出：骨折 ⇔ 部位 ◦ ネガポジ判定：「吐き気はあるが嘔吐は無い」→ 吐き気(+), 嘔吐(-) ◦ エンティティリンキング ▪ 何らかの分類体系のコードにする

27 要素技術：クリニカルコーディングの例病院向け生成AIアプリケーション開発 • 病名コーディング ◦ 「S状結腸に20mm大の大腸がんを認めた」→ C18.7 (結腸の悪性新生物 S状結腸)
◦ 「血小板数2万」→ D69.6 (血小板減少症詳細不明) • 手術・処置のコーディング ◦ 「下行結腸：ESD施行」→ K7212 (内視鏡的大腸ポリープ・粘膜切除術長径2cm以上) ◦ 「救急外来で挿管」→ J0451 (人工呼吸30分までの場合) • DPCコーディング ◦ 「脳梗塞で緊急入院しカテーテルによるステント留置、入院中に誤嚥性肺炎を併発した」 → 010060xx02x01x

28 DPCコーディング業務と情報抽出 • 入院中のカルテなどの記録を元にして以下の要素を集める ◦ 最も医療資源が投入された傷病 (医療資源病名) ◦ 手術・処置・使用薬剤・持参薬処方 ◦
副傷病 ◦ 重症度や病態分類 • 抽出した要素を組み合わせて成立可能なDPC(診断群分類)コードを決定する ◦ 例：010060xx971010 脳梗塞その他の手術あり手術処置等１－１あり手術処置等２なし定義副傷病名あり無症候性 • 月末・退院時には必ず実施病院向け生成AIアプリケーション開発

29 DPCコーディングの難しさ • 医療資源が最も投入された傷病の特定 ◦ 高齢になると入院時に併発している疾患が５〜６個ある ◦ 手術目的の入院だがコンディション悪化で手術ができていない場合 ◦ いくつもの検査をしているが確定診断が無い場合
◦ カルテがしっかり書かれていない場合 ◦ 長期入院で記録が膨大にある場合 (50万文字を越えることも) ◦ メインの治療じゃない所で高額薬剤が使われている場合 • 適切なDPCコードを選ばないと点数が減りがち(収益減) ◦ ただし過剰請求は査定病院向け生成AIアプリケーション開発

30 DPCコーディングの技術要件 • Needles in Haystacks ◦ 膨大な非構造化テキストの中から根拠を見つける • 時系列イベントログのコンテキスト把握
◦ 大腸ポリープで入院、生検でがんの確定診断が出たなら大腸がんに更新 ◦ 入院後48時間以上経過してから出現した肺炎は院内肺炎 • 医学的な推論による複数の事実の関連付け (例：病態 + 原因微生物) ◦ 帯状疱疹が先行、後に髄膜炎を発症 ◦ 個々のイベント単位でコーディングすると ▪ B02.9 帯状疱疹 / G03.9 髄膜炎詳細不明 ◦ 2つの事実の関連性から B02.1 帯状疱疹性髄膜炎を出力するのが望ましい病院向け生成AIアプリケーション開発

31 DPCコーディングの技術要件 • クリニカルコーディング ◦ 選択肢の数が膨大(〜数万)な分類問題 ◦ 標準病名マスターに着地させたい場合は選択肢が27,000個を越える • 断片的な情報からの推論
◦ カルテにしっかり書かれていない場合がある • ペナルティに繋がる誤りをしない ◦ 過剰請求はNG 病院向け生成AIアプリケーション開発

33 • タスクを細かく分割してワークフローを組む ◦ エキスパートの業務手順、思考過程でおおまかに ◦ さらに非決定論的な自然言語処理タスクと決定論的なロジックに分ける ▪ 個別にテストが書ける •
e.g. プロンプト文字列の構築 • 生成AIの処理 ◦ Responseスキーマを指定するとかなりテストが書ける ◦ 任意のタスクを個別に起動できると捗る ▪ プロンプト修正後の動作確認 ▪ デバッグ用に入力プロンプト、モデル出力を個別に残すワークフロー設計設計と技術的なチャレンジ

34 オフライン評価の仕組みを最初から整える • 自然言語処理タスクは個別に精度が計算できるようにする ◦ タスク個別 or 先頭からある部分 or 途中から最後
◦ 各タスクの入出力を永続化する ◦ プロンプト調整やモデル切り替えに必要 • コアロジックが実験・性能評価用のコードに依存しないように ◦ 非エンジニアによるバイブコーディングで容易に起こる ▪ PythonならRuﬀのlintルールでimport抑制可能 ◦ コアロジックに移植性を持たせる (e.g. Python → TypeScript) 設計と技術的なチャレンジ

35 性能評価 • 日本語カルテテキストは標準的なデータセットが不在 • 評価データセット構築 ◦ 実際の会計に使われたデータを頂く事はできるが正解データとしての良さが不明 ◦ 自前でエキスパートと協力して作り込む必要がある
• Super Humanレベルの性能が求められる ◦ 現場に使ってもらう ⇔ 経営層の受け • 現場目線 ◦ Precisionが低いと業務効率が下がる ◦ 素人っぽい間違えをしない (プロフェッショナルツールなので) ▪ 閉鎖性骨折と開放骨折を間違えない設計と技術的なチャレンジ

36 • 問題：回答の空間が広い ◦ 標準病名マスタから選ばせると2万7千個の病名リスト ◦ 選択肢をプロンプトに列挙するだけで大量のトークンを消費 ▪ LLMのベンチマークによく登場する医師国家試験はたったの5択 •
そもそもLLM(生成モデル)で解く問題なのか? ◦ 既存研究では数千〜数万件の訓練データでﬁne-tuningしたBERT系モデルが強い[6] ◦ どのタイミングでマスク言語モデルに切り替えるか ◦ しかし医療データはロングテール、訓練データ作成が困難 • LLMを使いつつ探索空間を小さくしたい[7] クリニカルコーディングを効率的にしたい設計と技術的なチャレンジ

37 固いデータを使った探索空間の絞りこみ • 医療分野では様々なデータが体系化して整理されている ◦ 疾患、症状、薬剤、薬剤と適応症の関連付けなどのグラフデータ ▪ ICD-10：国際疾病分類第10版 ▪ 医科診療行為マスター
• 保健医療では理由の無い処置・検査・投薬は禁止[8] ◦ 明示がなくともすべての処置・検査・投薬には傷病が紐つく ◦ レセプトデータ (構造化データ) から可能性のある空間を絞ることができる ◦ Vector SearchによるRAGより簡単 • 診療報酬請求は国策で最初にIT化が推進された業務領域 ◦ 情報資源が豊富設計と技術的なチャレンジ

38 疾患体系分類の例：ICD-10 設計と技術的なチャレンジ

39 疾患体系分類の例：ICD-10 設計と技術的なチャレンジ

40 疾患体系分類の例：Disease Ontology ( is-a 関係の図示) 設計と技術的なチャレンジ

41 分類体系化して知識を引き出すRAG：Retrieval-And-Structuring[9] Jiang, Pengcheng, et al. “A Survey on Retrieval
And Structuring Augmented Generation with Large Language Models.” arXiv [Cs.CL], 12 Sept. 2025, https://doi.org/10.48550/arXiv.2509.10697. arXiv. 設計と技術的なチャレンジ

42 分類体系を利用したRAG：上位レベルの絞りこみ設計と技術的なチャレンジ

43 分類体系を利用したRAG：上位レベルの絞りこみ設計と技術的なチャレンジ LLMにトップレベルの階層で絞りこみをさせる。複数選択でRecallを担保。

44 LLMの出力を検証したい • Self-VeriﬁcationとOver Thinking • Self-Veriﬁcation ◦ 自身の出力を渡して訂正を指示するプロンプティングテクニック ◦
外部知識無しに正しく訂正するのは難しい[10] ▪ 外部知識を与える • Over Thinking[11] ◦ 長く考えさせると精度が下がる ◦ 確信度を答えさせると0か100に偏りがち設計と技術的なチャレンジ

45 目次１．医療現場向けAIツールの浸透とその背景２．用語と前提４．設計と技術的なチャレンジ５．まとめ３．病院向け生成AIアプリケーション開発

46 まとめ • 医療現場向けAIツールはエビデンスを出していく段階 • クリニカルコーディングはまだまだ技術的な問題が多い • 医療現場に貢献可能な性能は出せる • 医療データはグラフによる知識補完が有効
• エンジニア採用してます

47 参考文献1 [1] Laurent, Adrien. “AI in Hospitals: 2025 Adoption
Trends & Statistics.” IntuitionLabs, 17 Oct. 2025, intuitionlabs.ai/articles/ai-adoption-us-hospitals-2025. [2] ResearchAndMarkets.com. “Generative AI in Healthcare Market Research 2025: Global Industry Trends and Forecasts to 2035 - Rising Administrative Burden, Funding and AI/ML Advancements Drive Steady Growth - Researchandmarkets.com.” Business Wire, 3 Oct. 2025, www.businesswire.com/news/home/20251003495521/en/Generative-AI-in-Healthcare-Market-Research-2025-Global-Indus try-Trends-and-Forecasts-to-2035---Rising-Administrative-Burden-Funding-and-AIML-Advancements-Drive-Steady-Growth- --ResearchAndMarkets.com. [3] You, Jacqueline G., et al. “Ambient Documentation Technology in Clinician Experience of Documentation Burden and Burnout.” JAMA Network Open, vol. 8, no. 8, American Medical Association (AMA), Aug. 2025, p. e2528056. [4] Duggan, Matthew J., et al. “Clinician Experiences with Ambient Scribe Technology to Assist with Documentation Burden and Eﬃciency.” JAMA Network Open, vol. 8, no. 2, American Medical Association (AMA), Feb. 2025, p. e2460637. [5] フォーラム国立大学病院. 活動レポート｜フォーラム国立大学病院. plaza.umin.ac.jp/~nuh-forum/report/kaigi/251003.html. Accessed 10 Nov. 2025.

48 参考文献2 [6] Shimizu, Seiji, et al. “Toward Cross-Hospital Deployment
of Natural Language Processing Systems: Model Development and Validation of Fine-Tuned Large Language Models for Disease Name Recognition in Japanese.” JMIR Medical Informatics, vol. 13, no. 1, JMIR Medical Informatics, July 2025, p. e76773. [8] 保険医療機関及び保険医療養担当規則第20条 [7] Toward Reliable Clinical Coding with Language Models: Veriﬁcation and Lightweight Adaptation. arxiv.org/html/2510.07629v1. Accessed 12 Nov. 2025. [9] Jiang, Pengcheng, et al. “A Survey on Retrieval And Structuring Augmented Generation with Large Language Models.” arXiv [Cs.CL], 12 Sept. 2025, https://doi.org/10.48550/arXiv.2509.10697. arXiv. [10] Kamoi, Ryo, et al. “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs.” arXiv [Cs.CL], 3 June 2024, https://doi.org/10.48550/arXiv.2406.01297. arXiv. [11] Sui, Yang, et al. “Stop Overthinking: A Survey on Eﬃcient Reasoning for Large Language Models.” arXiv [Cs.CL], 21 Aug. 2025, https://doi.org/10.48550/arXiv.2503.16419. arXiv.

病院向け生成AIプロダクト開発の実践と課題

病院向け生成AIプロダクト開発の実践と課題

More Decks by Takashi Nishibayashi

Other Decks in Research

Featured

Transcript