Slide 18
Slide 18 text
© KAKEHASHI Inc. All Rights Reserved.
ドメインエキスパート(薬剤師)をチームに入れ、独自の性能品質指標と仕組み
を定義(一部抜粋)。 LLM as a judgeと人手評価の組み合わせで評価。
対象 指標 指標の意味 備考
文字起こし 重要語の的中率
(precicion)
書き起こし中の重要語が正解文にも存在してい
る割合
重要語の抽出には LLMを使用 。
(薬剤師が抽出した重要語 vs
LLM抽出の重要語の相関がある
ことを確認済)
重要語の再現率
(recall)
正解の中の重要語が書き起こし文にも存在して
いる割合
SOAP
薬歴生成
模範回答に対する優劣 薬剤師作成の薬歴に対して同等か優れている
割合
LLMにより評価
共通 定性評価 クリティカルな問題発生頻度 ドメインエキスパートによる人手
評価