Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIプロダクトの品質をどう守る?

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for matsu802 matsu802
February 15, 2026
5.4k

 AIプロダクトの品質をどう守る?

Avatar for matsu802

matsu802

February 15, 2026
Tweet

Transcript

  1. © LayerX Inc. 3 経歴 • 株式会社ヒューマンクレスト (2014/06 〜 2015/12)

    • 株式会社メルカリ(2016/01 〜 2023/08) • 株式会社LayerX(2023/11 〜) 画像を入れてね 自己紹介 matsu
  2. © LayerX Inc. 9 この処理を3つのステップでAI Agentが実現している バクラク勤怠のAI機能 プロンプトデータセット 説明 extract_sections

    就業規則からの有給休暇関連条文抽出 identify_rule_patterns ルールパターンの識別 その他詳細項目 5個 出勤率や付与日数などの判定
  3. © LayerX Inc. 21 runn: 品質を維持する「結合テスト」 継続的な改善の仕組み 一般的なソフトウェア開発における「リグレッションテスト」の位置付け AIの精度だけでなくシステム全体が正常に動作するか確認するもの 検証プロセス

    1. アプローチ: 実際のAPIエンドポイントへリクエストを送信。 2. 検証内容: レスポンスのステータス、データ構造、を元にスコアリング 3. 目的: モデルの劣化やプロンプトの変更による精度の低下、またはシステム全体のデグレが発生していないことを担保 4. 役割: 開発が進んでも、「壊れていない」ことを担保するガードレールの役割
  4. © LayerX Inc. 25 Langfuse: 精度を向上させる「ユニットテスト」 継続的な改善の仕組み 各プロンプトの精度を評価・改善を目的とするユニットテスト 主に本番環境で失敗したケースなどを継続的に改善していく仕組み 検証プロセス

    1. アプローチ: プロンプトごとに実行し、出力を定量的に検証 2. 検証内容: プロンプトタイプごとに出力をスコアリング 3. 目的: プロンプトの改善を行った際に精度が向上しているかを担保する 4. 役割: 継続的に精度を向上していくための仕組み
  5. © LayerX Inc. 34 まとめ 継続的な改善の仕組み 項目 runn(結合テスト) Langfuse(ユニットテスト) 主な役割

    品質の維持 品質の向上 評価対象 APIによるE2Eの挙動 個別のプロンプト・回答の精度 スコアリング ビジネスロジックに基づく重み付け プロンプトごとにスコアリング方式を持つ テストデータ 精度が高いことが確認済みのパターン 本番で失敗したデータ・新ケース テストの評価 スコア < 90% スコア(PR - main) < 5%