Upgrade to Pro — share decks privately, control downloads, hide ads and more …

小さい仕事をするLLMと精度検証

Avatar for Takamichi Omori Takamichi Omori
July 29, 2025
300

 小さい仕事をするLLMと精度検証

https://layerx.connpass.com/event/357964/ の登壇資料です。

LLMやMLをプロダクトに組み込む時、「本当に価値を出す」には何が必要なのか?

AIの活用が広がる中、その裏側にある技術的な挑戦や、事業価値に繋げるための泥臭い試行錯誤について語られる機会は多くありません。

この『Deep into AI』セッションでは、LayerXのAI/MLエンジニアやプロダクトマネージャーたちが、日々の開発現場で向き合っている、より専門的でリアルな技術テーマについてLT形式で語ります。

自動プロンプト最適化、LLMファインチューニングの性能評価といったR&Dの最前線
「LLMでAI-OCR、実際どうなの?」といった現場のリアルな問いへの挑戦
AIエージェント開発における、技術的なロマンと事業的なソロバン勘定の両立

Avatar for Takamichi Omori

Takamichi Omori

July 29, 2025
Tweet

Transcript

  1. © LayerX Inc. Speaker バクラク事業部 AI-UX プロダクト開発グループ ソフトウェアエンジニア AIを前提とした体験を追求する AI-UX

    を 届けるために⽇々頑張っています。 最近は LLMOps が気になっています ⼤森 貴通 OMORI, Takamichi
  2. © LayerX Inc. 技術組織としての分岐点 経費精算‧申請サービスでの悩み • 申請者 ◦ 申請時に社内規定‧ルールを確認するのが⼤変 ◦

    申請内容が間違っていたときに修正して再申請する⼿間 • 承認者 ◦ 申請内容の妥当性‧社内規定との整合性のチェックの負担が⼤きい ◦ 差し戻しが発⽣したときのコミュニケーションコストの増加 こういった申請者‧承認者双⽅の負担を削減したい →「AI申請レビュー」を開発 申請にまつわる課題と機能開発 ⼩さい仕事をするLLMと精度検証
  3. © LayerX Inc. 技術組織としての分岐点 AI申請レビュー機能の設計 ⼩さい仕事をするLLMと精度検証 明細の項⽬に対するレビューの場合 • レビュールールは事前に定義 ◦

    ワークフローで決定的に処理 ◦ ⾼速で確実な判定を実現 • LLMは柔軟性が必要な処理に特化 ◦ ルールベースで定義できない項⽬のチェックが可能 ▪ 「訪問理由」など ルールベースの確実性とLLMの柔軟性を組み合わせた設計
  4. © LayerX Inc. 技術組織としての分岐点 LLMはAI申請レビューの体験の要 - LLMの応答の精度はプロンプトエンジニアリングを通じて⽇々改善を⾏っている - 精度改善に対して、以下の質問に⾃信を持って答えたい -

    「良かれと思った変更」が本当に改善につながっているのか? - ⼀部の⼊⼒例に対する精度が上がっても、他のケースで下がっていないか? 勘ではなく、データで判断するために精度検証の⽅法が必要 精度検証の重要さ ⼩さい仕事をするLLMと精度検証
  5. © LayerX Inc. 技術組織としての分岐点 以下を実現できる LLMOps ツールとして Langfuse を利⽤ 主な機能

    • Prompt Management ◦ LLMのプロンプトのバージョン管理 • Datasets ◦ 評価⽤の⼊出⼒セットの管理 • Scores ◦ LLMの実⾏結果へのスコアつけ‧閲覧 Langfuseを使った精度検証 ⼩さい仕事をするLLMと精度検証
  6. © LayerX Inc. 技術組織としての分岐点 • テストケースとして⼊⼒と期待する出⼒のセットを Dataset の Item として事前に定義

    • Item の⼊⼒をもとにLLMを実⾏し、期待される出⼒と⽐較 • プロンプトごとに出⼒がどうなったか記録することで、精度評価に使⽤できる Datasets & Scores をつかった精度検証 ⼩さい仕事をするLLMと精度検証
  7. © LayerX Inc. 技術組織としての分岐点 Datasets & Scores をつかった精度検証 ⼩さい仕事をするLLMと精度検証 #

    実装のイメージ from langfuse import get_client langfuse = get_client() # 1. Datasetを取得 dataset = langfuse.get_dataset("dataset_name") # 2. 新しいプロンプトで全テストケースを実行 for item in dataset.items: # プロンプトを実行 result = invoke_llm( prompt=new_prompt, input_text=item.input["text"] ) # 3. 結果を評価してスコアを付与 # ここでは予想される結果と一致しているかだけチェック is_correct = (result == item.expected_output) # Langfuseにスコアを記録 langfuse.score( name="accuracy", value=1.0 if is_correct else 0.0, trace_id=trace.id )
  8. © LayerX Inc. 技術組織としての分岐点 • LLMは使い所が肝 ◦ 全部をLLMに頼らない ◦ 既存の⼿法と組み合わせて、LLMは得意な部分を担当させる

    • データに基づいたプロンプトの改善サイクル ◦ 精度検証⽤のデータセットを管理 ◦ 勘ではなく数値で判断することで、安⼼して改善を続けられる • プロンプトの変更は⾃動化する ◦ PRで精度検証ができる仕組みの導⼊ ◦ プロンプトもプロダクトと同じようにCI/CDを回す まとめ:実践的なLLM活⽤で気をつけたこと ⼩さい仕事をするLLMと精度検証