小さい仕事をするLLMと精度検証

by Takamichi Omori

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

© LayerX Inc. 技術組織としての分岐点経費精算‧申請サービスでの悩み ● 申請者 ○ 申請時に社内規定‧ルールを確認するのが⼤変 ○ 申請内容が間違っていたときに修正して再申請する⼿間 ● 承認者 ○ 申請内容の妥当性‧社内規定との整合性のチェックの負担が⼤きい ○ 差し戻しが発⽣したときのコミュニケーションコストの増加こういった申請者‧承認者双⽅の負担を削減したい →「AI申請レビュー」を開発申請にまつわる課題と機能開発⼩さい仕事をするLLMと精度検証

Slide 4

Slide 4 text

© LayerX Inc. 技術組織としての分岐点 AI申請レビュー⼩さい仕事をするLLMと精度検証申請作成時に内容をAIがリアルタイムでレビューする機能 AIが申請作成中に明細に対してリアルタイムにレビューをする様子のイメージ　 https://bakuraku.jp/news/20250707/ ● 明細の項⽬に対するレビューの場合 ○ 未⼊⼒の項⽬に対しては⼊⼒ガイドを表⽰ ○ ⼊⼒された項⽬の妥当性をチェックし、フィードバックを⾏う

Slide 5

Slide 5 text

Slide 6

Slide 6 text

© LayerX Inc. 技術組織としての分岐点 LLMはAI申請レビューの体験の要 - LLMの応答の精度はプロンプトエンジニアリングを通じて⽇々改善を⾏っている - 精度改善に対して、以下の質問に⾃信を持って答えたい - 「良かれと思った変更」が本当に改善につながっているのか？ - ⼀部の⼊⼒例に対する精度が上がっても、他のケースで下がっていないか？勘ではなく、データで判断するために精度検証の⽅法が必要精度検証の重要さ⼩さい仕事をするLLMと精度検証

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

© LayerX Inc. 技術組織としての分岐点 Datasets & Scores をつかった精度検証⼩さい仕事をするLLMと精度検証 # 実装のイメージ from langfuse import get_client langfuse = get_client() # 1. Datasetを取得 dataset = langfuse.get_dataset("dataset_name") # 2. 新しいプロンプトで全テストケースを実行 for item in dataset.items: # プロンプトを実行 result = invoke_llm( prompt=new_prompt, input_text=item.input["text"] ) # 3. 結果を評価してスコアを付与 # ここでは予想される結果と一致しているかだけチェック is_correct = (result == item.expected_output) # Langfuseにスコアを記録 langfuse.score( name="accuracy", value=1.0 if is_correct else 0.0, trace_id=trace.id )

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

© LayerX Inc. 技術組織としての分岐点 ● LLMは使い所が肝 ○ 全部をLLMに頼らない ○ 既存の⼿法と組み合わせて、LLMは得意な部分を担当させる ● データに基づいたプロンプトの改善サイクル ○ 精度検証⽤のデータセットを管理 ○ 勘ではなく数値で判断することで、安⼼して改善を続けられる ● プロンプトの変更は⾃動化する ○ PRで精度検証ができる仕組みの導⼊ ○ プロンプトもプロダクトと同じようにCI/CDを回すまとめ：実践的なLLM活⽤で気をつけたこと⼩さい仕事をするLLMと精度検証