Slide 1

Slide 1 text

医療業界に特化した 音声認識モデル構築のための アノテーションの実態 須賀 幹太 / 尾原 颯 第14回 Data Centric AI 勉強会 1

Slide 2

Slide 2 text

自己紹介 元赤坂デンタルクリニック 和嶋浩一院長 尾原 颯(Soh Ohara) @soh_ohara 東京大学工学部卒 2021 年にアマゾン ウェブ サービス ジャパンに新卒入社。 2025 年〜は、スタートアップにて AI エンジニア medimo では、業務委託として MLやアプリケーションのインフラ基盤整備を主に担当。 好きなこと 漫画・アニメ・テニス・フットサル 2

Slide 3

Slide 3 text

2025 3月 早稲田大学 先進理工学研究科 卒業 2025 4月 Mercari,inc. ML engineer. 専攻はBioinformatics. 2024年度未踏ITスーパークリエイター. medimo では、業務委託としてMLops(データアノテーション)周りを担当。 趣味: 楽器演奏(ピアノ,ベース) , 筋トレ 自己紹介 須賀 幹太 ( Kanta Suga ) (LinkedIn: https://www.linkedin.com/in/thickstem/ ) 3

Slide 4

Slide 4 text

アジェンダ 1. medimo とは 2. 現状と課題 3. アノテーションのこれまでのあゆみ 4. アノテーションの効率化 5. 今後の展望 4

Slide 5

Slide 5 text

01 medimoとは 5

Slide 6

Slide 6 text

医師が目の前の患者さんに 100%寄り添う時間を創出します。 CONCEPT medimoとは 6

Slide 7

Slide 7 text

medimoの使い方 患者さんとの会話から文章を作成する新たなAIワーカー 5秒ほどでSOAPが完成 電子カルテへ貼り付け AIがSOAP形式に 自動要約 正確な医療用語での 文字起こし 診察前: 録音開始ボタンを押す 診察終了時: 録音停止ボタンを押す 7

Slide 8

Slide 8 text

こんなお悩みありませんか? ● 診察をしながらカルテを作成するのが大変 ● カルテを書くために残業している ● もっと患者さんに向き合って診察をしたい ● 回転率をあげて、収益をUPさせたい ● クラークの採用がなかなかうまくいかない ● クラークが育つまでに時間がかかる 8

Slide 9

Slide 9 text

medimo活用の3つの効果 入力時間削減 疲労感削減 患者満足度向上 診察の合間の削減時間 1日あたり平均 45分 診察後の削減時間 1日あたり平均 60分 顧客の声 “特に複雑な患者さんは 注意して話に 集中できるようになった” 独自アンケートより 楽になったと答えた割合 80% 独自アンケートより 先生がちゃんと目を見て 話を聞いてくれるように なった割合 80% 9

Slide 10

Slide 10 text

診察現場の欠かせないパートナーに 元赤坂デンタルクリニック 和嶋浩一院長 診察件数は日々増加しています medimoを利用した累計診察件数 10

Slide 11

Slide 11 text

診察現場の欠かせないパートナーに 田代ひ尿器科 山内智之院長 医療法人社団積善会 伊藤医院 伊藤泰明院長 秘書を手に入れた感覚 外来後の数時間のカルテ作業を大幅削減 1回使ってみると離れられないですよ。僕はたまに開始ボタンを押し忘れて患者さんと喋ると きがあるんですけど、終わった後にもうがっかりしちゃうんですね。medimoさんのホーム ページに「もう手放せない」という声もありましたけどその通りですね。数万円で自分の秘 書を手に入れたという感覚があります。 medimoとともに、患者様に寄り添った診療を。 1日100人近くの診察をしていると、丁寧な説明をした後にカルテ入力をするには労力と時間 がかかって、入力を後回しにすることがありました。患者さんへの説明内容に齟齬が無く、 さらにその診療中にカルテ入力ができる、まさに「あったらいいな」を実現できると興味を 持ったのが始まりです。 11

Slide 12

Slide 12 text

全国500件以上の医療施設様がご利用(一部抜粋) 都道府県一覧  ご利用中の診療科 ● 整形外科 ● 皮膚科 ● 婦人科・産科 ● 眼科 ● 耳鼻咽喉科 ● リハビリテーション科 ● リウマチ内科 ● 歯科(口腔顔面痛) ● 動物病院 ● 内科 ● 精神科・心療内科 ● 呼吸器内科 ● 消化器内科 ● 循環器内科 ● 糖尿病内科 ● 小児科 ● 泌尿器科 12

Slide 13

Slide 13 text

2024年11月亀田総合病院での試験導入 音声認識AIツール「medimo」 亀田総合病院における 試験的導入開始。 13

Slide 14

Slide 14 text

ご利用イメージ動画(クラウド型電子カルテ) 14

Slide 15

Slide 15 text

02 現状と課題 15

Slide 16

Slide 16 text

現状 ・独自で fine-tuning した音声認識モデル(whisper)を運用 ・アノテーションは定期的に実施 ・推論は Amazon SageMaker の非同期エンドポイントを使用 16

Slide 17

Slide 17 text

アーキテクチャ概要 元赤坂デンタルクリニック 和嶋浩一院長 17

Slide 18

Slide 18 text

医療現場に特化した音声認識モデルを作る上での課題 ‧幅広い医療⽤語への対応 ‧収⾳環境の医療機関ごとの違いへの対応 ‧アノテーションフローのエンジニアが介在した⼿動運⽤ 18

Slide 19

Slide 19 text

(課題)幅広い医療用語への対応 内部で作成した評価データでの検証 ‧外部の医療特化⾳声認識エンジン CER:32.6%、医療⽤語の recall:77.3% ‧OSS モデル(fine-tuning なし) CER:28.3%、医療⽤語の recall:71.6% → fine-tuning によるさらなる精度向上の余地 19

Slide 20

Slide 20 text

(課題)幅広い医療用語への対応 内部で作成した評価データでの検証 → fine-tuning によるさらなる精度向上の余地 20

Slide 21

Slide 21 text

03 アノテーションの これまでのあゆみ 21

Slide 22

Slide 22 text

アノテーション方法 変遷 Amazon SageMaker Ground Truth 導入 アノテーション業務 外注 アノテーション業務 内製化+自動化 スプレッドシートに よる管理 22

Slide 23

Slide 23 text

最初はスプレッドシートの運用から始まった ・スプレッドシート上で、アノテーション結果を管理 ・S3 に保存していた音声を毎回開きに行かなければならないため、 工数のオーバーヘッドが大きかった 23

Slide 24

Slide 24 text

Amazon SageMaker Ground Truth の導入 元赤坂デンタルクリニック 和嶋浩一院長 ・アノテーションに特化した UI つきでアノテーションができるように。 (音声・アノテーションの編集が1画面で) ・Python スクリプトベースでのアノテーションジョブの発行 スクリプトの 手動実行 (Code Editor) Amazon SageMaker Ground Truth 非エンジニア アノテーター アノテーションツール へのアクセス 24

Slide 25

Slide 25 text

ツールの導入による社内の感動の声 元赤坂デンタルクリニック 和嶋浩一院長 25

Slide 26

Slide 26 text

ツール導入直後のアノテーションの流れ 外注業者 medimo 依頼 見積もり 発注・アカウント発行 アノテーションジョブ発行 進捗管理 支払い アノテーション 作業 26

Slide 27

Slide 27 text

ツール導入したものの残る課題点 ・非エンジニアの方が、アノテーションジョブを Python スクリプトを 実行して発行。細かな調整などは、エンジニア側が対応が必要 ・どのデータをアノテーションすべきか?を選ぶ基準が不明瞭 ・アノテーションの外注により嵩むコスト(コミュニケーション・金銭) ・今までアノテーション周りの業務を担当していた方の離職。。 → アノテーション業務が回らなくなる 27

Slide 28

Slide 28 text

04 アノテーション効率化 28

Slide 29

Slide 29 text

アノテーション方法 変遷 Amazon SageMaker Ground Truth 導入 アノテーション業務 外注 アノテーション業務 内製化+自動化 スプレッドシートに よる管理 29

Slide 30

Slide 30 text

アノテーションフロー 概要 元赤坂デンタルクリニック 和嶋浩一院長 ・社内にアノテーション専門の人材 を用意 ✅ 定期的にMLチームとsyncが可能 ✅ 仕様の詳細なアップデートによってアノテーション精度向上が見込める ・アノテーションはダブルチェック を実施 診察 ベースライン 書き起こし 1次アノテーション 2次アノテーション 30

Slide 31

Slide 31 text

アノテーションフロー 〜 1次アノテーション 元赤坂デンタルクリニック 和嶋浩一院長 ・現行のモデルによる書き起こしをベースにしている → モデルが間違っている箇所を訂正する方式   ✅ これにより、ゼロベースでのアノテーションより大幅に時間を削減 診察 ベースライン 書き起こし 1次アノテーション 2次アノテーション 31

Slide 32

Slide 32 text

アノテーションフロー 〜 1次アノテーション ・現行のモデルによる書き起こしをベースにしている ・アノテーション画面はGround truth job/Liquid templateをLambdaでカスタム。 32

Slide 33

Slide 33 text

アノテーションフロー 〜 2次アノテーション 元赤坂デンタルクリニック 和嶋浩一院長 ・1次アノテーションの結果をベースとして再度チェック ・医療関係者によって病名,薬名を重点的にチェック   ✅ 医療ドメインに強い書き起こしモデルの構築を目指す 診察 ベースライン 書き起こし 1次アノテーション 2次アノテーション 33

Slide 34

Slide 34 text

アノテーション効率化 フロー 1.クリニック選定パート 2.ジョブ発行パート 3.ジョブ管理パート 34

Slide 35

Slide 35 text

アノテーション効率化 フロー 〜1.クリニック選定パート ・アノテーション対象のクリニックを月初にルールベースで選定 ・選定結果をslackに送信 ・選定結果をCS部門がチェックし優先度に応じてクリニックを入れ替え 1.クリニック選定パート 35

Slide 36

Slide 36 text

アノテーション効率化 フロー 〜2.ジョブ発行パート ・アノテーション対象のクリニックが確定したらslackで返送 ・この時特定のword (num_target:XX)を添えることでジョブ発行がtriggerされる 2.ジョブ発行パート 36

Slide 37

Slide 37 text

アノテーション効率化 フロー 〜2.ジョブ発行パート ・各クリニックでアノテーションする音声をフィルタリング/サンプリングする。 ・ジョブの発行など一 連の流れはstep functionで実行管理 2.ジョブ発行パート 37

Slide 38

Slide 38 text

アノテーション効率化 フロー 〜2.ジョブ発行パート Step functionを使うメリット ・各Lambdaのstepでの入出力状態を可視化できる  → エラー管理が容易になる。 38

Slide 39

Slide 39 text

アノテーション効率化 フロー 〜3.ジョブ管理パート ・1次ジョブが発行されたら、現行ジョブのIDとステータスをparam storeに記録 ・Lambdaがデイリーで進捗をチェックしている。 ・1次ジョブが終了したら2次ジョブを作成する→ param storeの値も更新する。 39

Slide 40

Slide 40 text

アノテーション効率化 フロー 〜3.ジョブ管理パート ・2次アノテーションまで終わったら、s3の学習対象リストに追記する。 ・それをトリガーにしてモデル学習を開始する。 3.ジョブ管理パート 40

Slide 41

Slide 41 text

アノテーション フロー summary 工夫点 ✅アノテーション用の画面をカスタムでAWS上に構築した。 ✅MLモデルによる書き起こしをベースにアノテーションを行う。 ✅アノテーションに関わる全ての工程を自動化し、エンジニアの関与を必要無くした。 効果 ・アノテーションにかかる時間が50%程度削減できた (*一ヶ月あたり) ・MLエンジニアが本質的な業務に集中できるようになった。 ・非エンジニアがコードを編集/実行する必要がなくなった 41

Slide 42

Slide 42 text

アノテーションデータでの学習結果 ・より高性能な医療音声認識モデルが開発できた。 42

Slide 43

Slide 43 text

05 今後の展望 43

Slide 44

Slide 44 text

今後の展望 1. モデル学習後の評価とデプロイの自動化 2. 学習用データ選定のロジック改善 3. クリニックごとに特化したモデル 44

Slide 45

Slide 45 text

今後の展望 1. モデル学習後の評価とデプロイの自動化 ・新規アノテーションデータによる学習が終了したら評価を自動で行う。 →評価結果がSoTAよりもよければ、本番環境に自動でデプロイする仕組みを導入したい 新規アノテーションデータ 評価用データ モデル学習 Score > SoTA Score ≦ SoTA 本番環境デプロイ ❌ 45

Slide 46

Slide 46 text

今後の展望 2. 学習用データ選定のロジック改善 ・モデルが苦手としている音声を優先的にアノテーションする (≒active-learning )  → 特定の音声に対する、モデルのCERを予測するロジックを予測したい。 46

Slide 47

Slide 47 text

今後の展望 3. クリニックごとに特化したモデル ・現在は全てのクリニックに対して汎用な1つのモデルを提供している。 ・診療科やクリニックに特化した個別のモデルを提供することを目指す。 汎用モデル Bクリニック (形成外科)モデル Cクリニック (精神科)モデル Aクリニック (内科)モデル 47

Slide 48

Slide 48 text

採用募集しています! medimo では一緒に働く仲間を募集しています。 正社員・業務委託どちらも大歓迎です。 もし興味持っていただいた方いらっしゃったら、 右側の QR コードから詳細をご覧ください! https://pattern-trowel-07e.notion.site/medimo-2a9f4aaf70464f049ee3dcf142b162d2 48

Slide 49

Slide 49 text

カルテ原稿自動生成で診察をもっとラクにする。 医療機関における医療従事者と患者さんの会話の文字起こしと 要約をAIにより行い、カルテの作成業務を楽にする アプリケーションサービスです。 49