Upgrade to Pro — share decks privately, control downloads, hide ads and more …

病院向け生成AIプロダクト開発の実践と課題

 病院向け生成AIプロダクト開発の実践と課題

Applied AI R&D Meetup【LayerX × Ubie × Algomatic】での発表資料です。
医療AIと医療NLP、クリニカルコーディング、生成AIアプリケーションについてです。
https://layerx.connpass.com/event/373267/

Avatar for Takashi Nishibayashi

Takashi Nishibayashi

November 12, 2025
Tweet

More Decks by Takashi Nishibayashi

Other Decks in Research

Transcript

  1. 5 医療現場の課題 医療現場向けAIツールの浸透とその背景 大きな課題 • スタッフの燃え尽き症候群[2] ◦ 医師の燃え尽き ◦ 看護師の離職

    • コスト増加 • スタッフの不足 燃え尽きの原因 • 事務的管理負担の増加 • 長時間労働
  2. 6 医療現場の課題 医療現場向けAIツールの浸透とその背景 大きな課題 • スタッフの燃え尽き症候群[2] ◦ 医師の燃え尽き ◦ 看護師の離職

    • コスト増加 • スタッフの不足 燃え尽きの原因 • 事務的管理負担の増加 • 長時間労働 これらがAIツール導入の 要因となっている
  3. 8 生成AIによる業務効率化:記録時間を20%、時間外労働を30%削減[4] 医療現場向けAIツールの浸透とその背景 • 46人の臨床医を対象にAI書記ツール 「DAX Copilot」と呼ばれるAmbient Scribing Tool (音声文字起こし)

    導入の 効果を検証した質改善研究。 • 1診療あたりの記録時間が20.4% (10.3 →8.2分; P<.001)、時間外労働が30.0% と、客観的な効率性指標において統計的に 有意な改善が報告された。 Duggan MJ, et al. JAMA Netw Open. 2025 Feb 3;8(2):e2460637.
  4. 12 保健医療の特徴 用語と前提 すべてのサービスの価格は国が決めている (1点10円) 家賃や人件費、材料原価は関係ない 区分 名称 価格 A000

    初診料 291点 D400 血液採取 40点 D308 胃カメラ 1,140点 D023 新型コロナウイルスPCR検査 700点 K718 虫垂炎切除術 6,740点
  5. 13 保健医療の特徴 用語と前提 すべてのサービスの価格は国が決めている (1点10円) 家賃や人件費、材料原価は関係ない 我々は3割を会計時に 支払うが残り7割は……? 区分 名称

    価格 A000 初診料 291点 D400 血液採取 40点 D308 胃カメラ 1,140点 D023 新型コロナウイルスPCR検査 700点 K718 虫垂炎切除術 6,740点
  6. 14 診療報酬請求 (レセプト) 用語と前提 患者 保険者・被扶養者 医療機関・薬局 IT健保など 健康保険組合 審査支払機関

    保険料支払い 請求 支払い 受診 ・ 診療 支 払 い 請求 審査 支払い を 委託 医療費請求の審査 一 部 負 担 金
  7. 15 診療報酬請求 (レセプト) 用語と前提 患者 保険者・被扶養者 医療機関・薬局 IT健保など 健康保険組合 審査支払機関

    保険料支払い 請求 支払い 受診 ・ 診療 支 払 い 請求 審査 支払い を 委託 医療費請求の審査 一 部 負 担 金 診療報酬の請求 同時に診療内容の審査を受ける
  8. 20 診断群分類:DPC • Diagnosis Procedure Combination • 診断と処置 (手術・検査等)を組み合わせたもの ◦

    例1:虫垂炎 + 虫垂炎切除術 ◦ 例2:脳梗塞 + 経皮的脳血管形成術 • 臨床的な類似性と資源消費の均質性から患者を分類する方法の一つ • 病院のパフォーマンスを比較して医療資源の効率性を評価するためのツール 用語と前提
  9. 23 紹介するアプリケーションの概要 病院向け生成AIアプリケーション開発 電子カルテ 医事会計システム DPCコーディング システム 診療録 レセプト 入力

    入院会計に必要な情報 • DPCコード候補 • 点数 • 医療資源病名 • 手術・処置 • 副傷病 • 高額指定薬剤 • など • +各要素の根拠 出力 非構造化テキスト 構造化情報 医事課 診療情報 管理室 参照 参照
  10. 24 非構造化テキストの例 (生成したダミー) 病院向け生成AIアプリケーション開発 【ER 2025/11/11 10:30】 78y M. 10:00頃、朝⾷中

    sudden onset の R-hemi + Disa. KP (妻) がER call. LKW 10:00. PH: AF (onリクシア ナ), HT, DM (on Met) O) JCS II-10. GCS E3V3M5=11 BP 190/110, HR 95 (irreg/AF), SpO2 98(RA) Pupil 3/3, LR(+/+). NIHSS: 15 (意識2, 視線2, 視野2, Faci Pa 3, R-UE 4, R-LE 4, 感覚2, Disa 1) R-CPA, R-hemi (MMT 1/1) BS 180 O) BP 90/50 (MAP 63) ※NA 0.2γ 使⽤中 HR 125 (sinus) Ventilator: PCV (PIP 25, PEEP 10, FiO2 1.0) → SpO2 92%, P/F⽐ 70 Urine: 乏尿 (10ml/h) A) #1 敗⾎症性ショック (CS 4)  # 消化管穿孔 (上⾏結腸 s/o) #2 ARDS (severe, P/F < 100) #3 AKI (Anuria stage) #4 Lactic Acidosis Sourceは腹膜炎でほぼ間違いない。循環動態はNA 0.2γと⾼⽤量昇圧剤を要 しており、極めて不安定 (vasoplegic shock)。 補液負荷 (total 3L) に対する 反応 乏しく、昇圧剤依存の状態。 P/F 70 (FiO2 1.0) と重症ARDSを合併して おり、敗⾎症による肺胞障害 (capillary leak) が主体。 AKIは、Shockによ るpre-renal factorに加え、SepsisによるATN合併が濃厚。Lac 8.8→10.2と 上昇傾向であり、組織低灌流が持続している。 P) 外科OP (Source control) が最優先。OP室へ⼊室。 循環動態の維持が困 難であり、昇圧剤の増量 (NA 0.3γ〜) が予想される。VA (バソプレシン) の 併⽤も考慮。 OP中の循環破綻 (cardiac arrest) risk極めて⾼いことKPへ IC。 医師によってスタイル が全く異なる
  11. 25 非構造化テキストの例 (生成したダミー) 病院向け生成AIアプリケーション開発 S) 3⽇前から39℃台の熱、咳、⻩⾊痰。右の背中が痛い。 O) T 39.1, HR

    108 (sinus), BP 130/70, RR 22, SpO2 93 (RA) 意識清明。 胸部聴診:右下肺野 湿性ラ⾳(coarse crackles)、呼吸⾳↓ XP:右下葉に浸潤影(+) [2025-01-01] 01 TP 6.0 02 ALB 3.1 06 AST 45 07 ALT 38 20 UN 22.0 21 CRE 0.88 25 Na 133 31 CRP 25.80 40 WBC 18.8 42 Hb 13.5 47 PLT 350 101 PCT 5.50 血液検査の結果コピペ は頻出
  12. 26 要素技術:クリニカルコーディング 病院向け生成AIアプリケーション開発 • 医療言語処理分野では古くからあるタスク ◦ テキストを入力として何らかの分類体系上のコードを出力する • 古典的な手順 ◦

    固有表現抽出 ▪ テキスト上の抽出対象スパンの特定 ◦ 関係抽出:骨折 ⇔ 部位 ◦ ネガポジ判定:「吐き気はあるが嘔吐は無い」→ 吐き気(+), 嘔吐(-) ◦ エンティティリンキング ▪ 何らかの分類体系のコードにする
  13. 27 要素技術:クリニカルコーディングの例 病院向け生成AIアプリケーション開発 • 病名コーディング ◦ 「S状結腸に20mm大の大腸がんを認めた」→ C18.7 (結腸の悪性新生物 S状結腸)

    ◦ 「血小板数2万」→ D69.6 (血小板減少症 詳細不明) • 手術・処置のコーディング ◦ 「下行結腸:ESD施行」→ K7212 (内視鏡的大腸ポリープ・粘膜切除術 長径2cm以上) ◦ 「救急外来で挿管」→ J0451 (人工呼吸30分までの場合) • DPCコーディング ◦ 「脳梗塞で緊急入院しカテーテルによるステント留置、入院中に誤嚥性肺炎を併発 した」 → 010060xx02x01x
  14. 28 DPCコーディング業務と情報抽出 • 入院中のカルテなどの記録を元にして以下の要素を集める ◦ 最も医療資源が投入された傷病 (医療資源病名) ◦ 手術・処置・使用薬剤・持参薬処方 ◦

    副傷病 ◦ 重症度や病態分類 • 抽出した要素を組み合わせて成立可能なDPC(診断群分類)コードを決定する ◦ 例:010060xx971010 脳梗塞 その他の手術あり 手術処置等1-1あり 手術処置等2なし 定義副傷病名あり 無症候性 • 月末・退院時には必ず実施 病院向け生成AIアプリケーション開発
  15. 29 DPCコーディングの難しさ • 医療資源が最も投入された傷病の特定 ◦ 高齢になると入院時に併発している疾患が5〜6個ある ◦ 手術目的の入院だがコンディション悪化で手術ができていない場合 ◦ いくつもの検査をしているが確定診断が無い場合

    ◦ カルテがしっかり書かれていない場合 ◦ 長期入院で記録が膨大にある場合 (50万文字を越えることも) ◦ メインの治療じゃない所で高額薬剤が使われている場合 • 適切なDPCコードを選ばないと点数(=収益)が減りがち ◦ ただし過剰請求は査定 病院向け生成AIアプリケーション開発
  16. 30 DPCコーディングの技術要件 • Needles in Haystacks ◦ 膨大な非構造化テキストの中から根拠を見つける • 時系列イベントログのコンテキスト把握

    ◦ 大腸ポリープで入院、生検でがんの確定診断が出たなら大腸がんに更新 ◦ 入院後48時間以上経過してから出現した肺炎は院内肺炎 • 医学的な推論による複数の事実の関連付け (例:病態 + 原因微生物) ◦ 帯状疱疹が先行、後に髄膜炎を発症 ◦ 個々のイベント単位でコーディングすると ▪ B02.9 帯状疱疹 / G03.9 髄膜炎詳細不明 ◦ 2つの事実の関連性から B02.1 帯状疱疹性髄膜炎 を出力するのが望ましい 病院向け生成AIアプリケーション開発
  17. 31 DPCコーディングの技術要件 • クリニカルコーディング ◦ 選択肢の数が膨大(〜数万)な分類問題 ◦ 標準病名マスターに着地させたい場合は選択肢が27,000個を越える • 断片的な情報からの推論

    ◦ カルテにしっかり書かれていない場合がある • ペナルティに繋がる誤りをしない ◦ 過剰請求はNG 病院向け生成AIアプリケーション開発
  18. 33 • タスクを細かく分割してワークフローを組む ◦ エキスパートの業務手順、思考過程でおおまかに ◦ さらに非決定論的な自然言語処理タスクと決定論的なロジックに分ける ▪ 個別にテストが書ける •

    e.g. プロンプト文字列の構築 • 生成AIの処理 ◦ Responseスキーマを指定するとかなりテストが書ける ◦ 任意のタスクを個別に起動できると捗る ▪ プロンプト修正後の動作確認 ▪ デバッグ用に入力プロンプト、モデル出力を個別に残す ワークフロー設計 設計と技術的なチャレンジ
  19. 34 オフライン評価の仕組みを最初から整える • 自然言語処理タスクは個別に精度が計算できるようにする ◦ タスク個別 or 先頭からある部分 or 途中から最後

    ◦ 各タスクの入出力を永続化する ◦ プロンプト調整やモデル切り替えに必要 • コアロジックが実験・性能評価用のコードに依存しないように ◦ 非エンジニアによるバイブコーディングで容易に起こる ▪ PythonならRuffのlintルールでimport抑制可能 ◦ コアロジックに移植性を持たせる (e.g. Python → TypeScript) 設計と技術的なチャレンジ
  20. 35 性能評価 • 日本語カルテテキストは標準的なデータセットが不在 • 評価データセット構築 ◦ 実際の会計に使われたデータを頂く事はできるが正解データとしての良さが不明 ◦ 自前でエキスパートと協力して作り込む必要がある

    • Super Humanレベルの性能が求められる ◦ 現場に使ってもらう ⇔ 経営層の受け • 現場目線 ◦ Precisionが低いと業務効率が下がる ◦ 素人っぽい間違えをしない (プロフェッショナルツールなので) ▪ 閉鎖性骨折と開放骨折を間違えない 設計と技術的なチャレンジ
  21. 36 • 問題:回答の空間が広い ◦ 標準病名マスタから選ばせると2万7千個の病名リスト ◦ 選択肢をプロンプトに列挙するだけで大量のトークンを消費 ▪ LLMのベンチマークによく登場する医師国家試験はたったの5択 •

    そもそもLLM(生成モデル)で解く問題なのか? ◦ 既存研究では数千〜数万件の訓練データでfine-tuningしたBERT系モデルが強い[6] ◦ どのタイミングでマスク言語モデルに切り替えるか ◦ しかし医療データはロングテール、訓練データ作成が困難 • LLMを使いつつ探索空間を小さくしたい[7] クリニカルコーディングを効率的にしたい 設計と技術的なチャレンジ
  22. 37 固いデータを使った探索空間の絞りこみ • 医療分野では様々なデータが体系化して整理されている ◦ 疾患、症状、薬剤、薬剤と適応症の関連付けなどのグラフデータ ▪ ICD-10:国際疾病分類第10版 ▪ 医科診療行為マスター

    • 保健医療では理由の無い処置・検査・投薬は禁止[8] ◦ 明示がなくともすべての処置・検査・投薬には傷病が紐つく ◦ レセプトデータ (構造化データ) から可能性のある空間を絞ることができる ◦ Vector SearchによるRAGより簡単 • 診療報酬請求は国策で最初にIT化が推進された業務領域 ◦ 情報資源が豊富 設計と技術的なチャレンジ
  23. 41 分類体系化して知識を引き出すRAG:Retrieval-And-Structuring[9] Jiang, Pengcheng, et al. “A Survey on Retrieval

    And Structuring Augmented Generation with Large Language Models.” arXiv [Cs.CL], 12 Sept. 2025, https://doi.org/10.48550/arXiv.2509.10697. arXiv. 設計と技術的なチャレンジ
  24. 44 LLMの出力を検証したい • Self-VerificationとOver Thinking • Self-Verification ◦ 自身の出力を渡して訂正を指示するプロンプティングテクニック ◦

    外部知識無しに正しく訂正するのは難しい[10] ▪ 外部知識を与える • Over Thinking[11] ◦ 長く考えさせると精度が下がる ◦ 確信度を答えさせると0か100に偏りがち 設計と技術的なチャレンジ
  25. 47 参考文献1 [1] Laurent, Adrien. “AI in Hospitals: 2025 Adoption

    Trends & Statistics.” IntuitionLabs, 17 Oct. 2025, intuitionlabs.ai/articles/ai-adoption-us-hospitals-2025. [2] ResearchAndMarkets.com. “Generative AI in Healthcare Market Research 2025: Global Industry Trends and Forecasts to 2035 - Rising Administrative Burden, Funding and AI/ML Advancements Drive Steady Growth - Researchandmarkets.com.” Business Wire, 3 Oct. 2025, www.businesswire.com/news/home/20251003495521/en/Generative-AI-in-Healthcare-Market-Research-2025-Global-Indus try-Trends-and-Forecasts-to-2035---Rising-Administrative-Burden-Funding-and-AIML-Advancements-Drive-Steady-Growth- --ResearchAndMarkets.com. [3] You, Jacqueline G., et al. “Ambient Documentation Technology in Clinician Experience of Documentation Burden and Burnout.” JAMA Network Open, vol. 8, no. 8, American Medical Association (AMA), Aug. 2025, p. e2528056. [4] Duggan, Matthew J., et al. “Clinician Experiences with Ambient Scribe Technology to Assist with Documentation Burden and Efficiency.” JAMA Network Open, vol. 8, no. 2, American Medical Association (AMA), Feb. 2025, p. e2460637. [5] フォーラム国立大学病院. 活動レポート|フォーラム国立大学病院. plaza.umin.ac.jp/~nuh-forum/report/kaigi/251003.html. Accessed 10 Nov. 2025.
  26. 48 参考文献2 [6] Shimizu, Seiji, et al. “Toward Cross-Hospital Deployment

    of Natural Language Processing Systems: Model Development and Validation of Fine-Tuned Large Language Models for Disease Name Recognition in Japanese.” JMIR Medical Informatics, vol. 13, no. 1, JMIR Medical Informatics, July 2025, p. e76773. [8] 保険医療機関及び保険医療養担当規則 第20条 [7] Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation. arxiv.org/html/2510.07629v1. Accessed 12 Nov. 2025. [9] Jiang, Pengcheng, et al. “A Survey on Retrieval And Structuring Augmented Generation with Large Language Models.” arXiv [Cs.CL], 12 Sept. 2025, https://doi.org/10.48550/arXiv.2509.10697. arXiv. [10] Kamoi, Ryo, et al. “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs.” arXiv [Cs.CL], 3 June 2024, https://doi.org/10.48550/arXiv.2406.01297. arXiv. [11] Sui, Yang, et al. “Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models.” arXiv [Cs.CL], 21 Aug. 2025, https://doi.org/10.48550/arXiv.2503.16419. arXiv.