Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIプロダクトの品質をどう守る?

Avatar for matsu802 matsu802
February 15, 2026
330

 AIプロダクトの品質をどう守る?

Avatar for matsu802

matsu802

February 15, 2026
Tweet

Transcript

  1. © LayerX Inc. 3 経歴 • 株式会社ヒューマンクレスト (2014/06 〜 2015/12)

    • 株式会社メルカリ(2016/01 〜 2023/08) • 株式会社LayerX(2023/11 〜) 画像を入れてね 自己紹介 matsu
  2. © LayerX Inc. 9 この処理を3つのステップでAI Agentが実現している バクラク勤怠のAI機能 プロンプトデータセット 説明 extract_sections

    就業規則からの有給休暇関連条文抽出 identify_rule_patterns ルールパターンの識別 その他詳細項目 5個 出勤率や付与日数などの判定
  3. © LayerX Inc. 21 runn: 品質を維持する「結合テスト」 継続的な改善の仕組み 一般的なソフトウェア開発における「リグレッションテスト」の位置付け AIの精度だけでなくシステム全体が正常に動作するか確認するもの 検証プロセス

    1. アプローチ: 実際のAPIエンドポイントへリクエストを送信。 2. 検証内容: レスポンスのステータス、データ構造、を元にスコアリング 3. 目的: モデルの劣化やプロンプトの変更による精度の低下、またはシステム全体のデグレが発生していないことを担保 4. 役割: 開発が進んでも、「壊れていない」ことを担保するガードレールの役割
  4. © LayerX Inc. 25 Langfuse: 精度を向上させる「ユニットテスト」 継続的な改善の仕組み 各プロンプトの精度を評価・改善を目的とするユニットテスト 主に本番環境で失敗したケースなどを継続的に改善していく仕組み 検証プロセス

    1. アプローチ: プロンプトごとに実行し、出力を定量的に検証 2. 検証内容: プロンプトタイプごとに出力をスコアリング 3. 目的: プロンプトの改善を行った際に精度が向上しているかを担保する 4. 役割: 継続的に精度を向上していくための仕組み
  5. © LayerX Inc. 34 まとめ 継続的な改善の仕組み 項目 runn(結合テスト) Langfuse(ユニットテスト) 主な役割

    品質の維持 品質の向上 評価対象 APIによるE2Eの挙動 個別のプロンプト・回答の精度 スコアリング ビジネスロジックに基づく重み付け プロンプトごとにスコアリング方式を持つ テストデータ 精度が高いことが確認済みのパターン 本番で失敗したデータ・新ケース テストの評価 スコア < 90% スコア(PR - main) < 5%