AIプロダクトの品質をどう守る？

目次 Agenda • 自己紹介 • バクラク勤怠のAI機能の紹介 • 品質を定義するための3つの軸 • 継続的な改善のための仕組み

© LayerX Inc. 3 経歴 • 株式会社ヒューマンクレスト (2014/06 〜 2015/12)
• 株式会社メルカリ（2016/01 〜 2023/08) • 株式会社LayerX（2023/11 〜）画像を入れてね自己紹介 matsu

バクラク勤怠のAI機能

© LayerX Inc. 9 この処理を3つのステップでAI Agentが実現しているバクラク勤怠のAI機能プロンプトデータセット説明 extract_sections
就業規則からの有給休暇関連条文抽出 identify_rule_patterns ルールパターンの識別その他詳細項目 5個出勤率や付与日数などの判定

品質を定義をするための3つの軸

© LayerX Inc. 15 System Quality システム全体の信頼性を定義品質を定義するための3つの軸システム全体の安定稼働と信頼性を担保する「土台」従来のソフトウェアテスト（機能、パフォーマンス、セキュリティ）に加え、AIの振る舞いを含めた「受け入れ基準（Acceptance
Criteria）」を定義する

継続的な改善の仕組み

© LayerX Inc. 20 AI開発における品質保証の難しさ継続的な改善の仕組み課題 AIプロダクトは確率的な要素を含むため、予期せぬ箇所で品質低下を引き起こすリスクが高く、また継続的な精度の改善が必要。アプローチ単一のテスト手法ではなく、目的の異なる2つのレイヤーでテストを分離する。
1. integration test: 品質を落とさない「守り」 a. システム全体の整合性と信頼性を担保 2. unit test: 精度の改善を行う「攻め」 a. 個別のプロンプトの精度とエッジケースの克服

© LayerX Inc. 21 runn: 品質を維持する「結合テスト」継続的な改善の仕組み一般的なソフトウェア開発における「リグレッションテスト」の位置付け AIの精度だけでなくシステム全体が正常に動作するか確認するもの検証プロセス
1. アプローチ: 実際のAPIエンドポイントへリクエストを送信。 2. 検証内容: レスポンスのステータス、データ構造、を元にスコアリング 3. 目的: モデルの劣化やプロンプトの変更による精度の低下、またはシステム全体のデグレが発生していないことを担保 4. 役割: 開発が進んでも、「壊れていない」ことを担保するガードレールの役割

© LayerX Inc. 25 Langfuse: 精度を向上させる「ユニットテスト」継続的な改善の仕組み各プロンプトの精度を評価・改善を目的とするユニットテスト主に本番環境で失敗したケースなどを継続的に改善していく仕組み検証プロセス
1. アプローチ: プロンプトごとに実行し、出力を定量的に検証 2. 検証内容: プロンプトタイプごとに出力をスコアリング 3. 目的: プロンプトの改善を行った際に精度が向上しているかを担保する 4. 役割: 継続的に精度を向上していくための仕組み

© LayerX Inc. 27 Langfuseを用いたユニットテスト継続的な改善の仕組み Langfuseは「評価用データの管理と監視の基盤」として機能し、実際の評価ロジック（テスト実行）はアプリケーションコード（Go)側に切り出されている 1. リリースサイクルとプロンプト本番適用
の分離（プロンプトの管理） 2. 本番での実行データのトレース 3. テスト用データセットの管理

© LayerX Inc. 34 まとめ継続的な改善の仕組み項目 runn(結合テスト) Langfuse(ユニットテスト) 主な役割
品質の維持品質の向上評価対象 APIによるE2Eの挙動個別のプロンプト・回答の精度スコアリングビジネスロジックに基づく重み付けプロンプトごとにスコアリング方式を持つテストデータ精度が高いことが確認済みのパターン本番で失敗したデータ・新ケーステストの評価スコア < 90% スコア(PR - main) < 5%

AIプロダクトの品質をどう守る？

AIプロダクトの品質をどう守る？

matsu802

More Decks by matsu802

Featured

Transcript

© LayerX Inc. AIプロダクトの品質をどう守る？ Langfuseによる「評価」とrunnによる「テスト」の実践

目次 Agenda • 自己紹介 • バクラク勤怠のAI機能の紹介 • 品質を定義するための3つの軸 • 継続的な改善のための仕組み

© LayerX Inc. 3 経歴 • 株式会社ヒューマンクレスト (2014/06 〜 2015/12)

バクラク勤怠のAI機能

© LayerX Inc. 5 就業規則を基に、AIが有休を⾃動付与するルールの初期設定案を作成してくれる機能バクラク勤怠のAI機能

バクラク勤怠のAI機能

© LayerX Inc. 7 有休の付与ルールは、就業規則を元に設定付与する⽇数やタイミングは各社様々であり、フォーマットもバラバラバクラク勤怠のAI機能テキストだったり表だったり

© LayerX Inc. 8 就業規則を解釈し、プロダクトの設定に落とし込むのが難しい特に有休の付与⽇≒お⾦なので丁寧に設定‧確認が必要バクラク勤怠のAI機能就業規則（平均50ページ）ルールの設定項⽬（バクラク勤怠）

© LayerX Inc. 9 この処理を3つのステップでAI Agentが実現しているバクラク勤怠のAI機能プロンプトデータセット説明 extract_sections

品質を定義をするための3つの軸

© LayerX Inc. 11 ⽣成AI時代の品質保証は「確率」との戦い品質を定義するための3つの軸

© LayerX Inc. 12 品質を定義する3つの軸品質を定義するための3つの軸

© LayerX Inc. 16 実際にリリース前に行った精度検証の結果品質を定義するための3つの軸各ユースケースパターンを10回実行し、期待する結果になるかで精度検証を行う。精度が90%を超えることを受け入れ基準としている。

継続的な改善の仕組み

© LayerX Inc. 22 runnとは継続的な改善の仕組み YAML形式でシナリオを記述し、APIテストを自動化するためのオープンソースのCLIツール ref: https://github.com/k1LoW/runn

© LayerX Inc. 23 確率的なAIの挙動を定量的に評価する継続的な改善の仕組み

© LayerX Inc. 24 テストの評価にスコアリングを行うことでシステム全体の動作と精度が正常であることを担保継続的な改善の仕組み

© LayerX Inc. 26 Langfuseとは継続的な改善の仕組み LLMアプリケーションのためのオープンソースな監視・評価プラットフォーム ref: https://langfuse.com/docs

© LayerX Inc. 28 ユーザーフィードバックを元にデータセットをテストに追加継続的な改善の仕組み

© LayerX Inc. 29 テストを追加するまでの流れ継続的な改善の仕組み有休付与ルールの自動作成を行ったユーザーに対して、KARTEでアンケートを表示

© LayerX Inc. 30 テストを追加するまでの流れ継続的な改善の仕組み KARTEのフィードバックをもとに、Langfuseでトレースを確認し、原因を分析

© LayerX Inc. 31 テストを追加するまでの流れ継続的な改善の仕組み分析した実データを元に期待値を修正し、データセットを追加することでテストケースになる

© LayerX Inc. 32 プロンプト改善の仕組み継続的な改善の仕組み

© LayerX Inc. 33 Github Actionsによるテストの評価方法継続的な改善の仕組み 5%以上のスコア低下でテストを失敗させる if (PR

© LayerX Inc. 34 まとめ継続的な改善の仕組み項目 runn(結合テスト) Langfuse(ユニットテスト) 主な役割

© LayerX Inc. 35 Open Door Open Door