Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIのテストをするつもりが、プロンプトも書くことになった話

Avatar for qamatsujun qamatsujun
February 16, 2026

 AIのテストをするつもりが、プロンプトも書くことになった話

LayerXさんでのイベント
AIプロダクトの品質保証を語ろう! - freee × マネーフォワード × LayerX の登壇資料です
https://layerx.connpass.com/event/381467/

Avatar for qamatsujun

qamatsujun

February 16, 2026
Tweet

Other Decks in Technology

Transcript

  1. 2 1. 対象機能とシステム構成
 2. AIプロダクトのテストの目的
 3. 開発における課題
 4. 課題の解決
 5.

    精度検証の効率化
 6. 機能別の評価方法
 7. メンテナンス
 8. まとめ
 目次

  2. 4 対象機能とシステム構成 
 
 検索項目自動登録: 
 契約書から以下の項目を抽出・登録する機能
 抽出項目:会社名・金額・契約開始日・契約終了日・自動更新の有 無・解約通知期限
 


    リースチェック: 
 契約書の内容から「リース契約※」に該当するかを判 定し、その根拠も示す機能
 
 どちらの機能も AIの学習は無効となっています 
 
 ※リース契約とは、リース会社が購入・所有する設備や機械などを、利用 者が一定期間・一定額のリース料を払って長期利用する契約形態のこと です。
 
 社内LLM
 OCR
 社内LLM
 リースチェック 
 検索項目自動登録 
 契約書アップロード画面 
 対象機能
 システム構成 

  3. 5 AIプロダクトのテストの目的 
 1. 精度向上(プロンプトのチューニング) 
 AIが実用レベルの回答を出せるよう、出力をコントロールするため
 a. 目標値の設定: 


    精度80%以上を目標に、プロンプトを繰り返し改善
 b. データ準備: 
 実際の契約書、Web上のテンプレート、LLMに生成してもらったデータなど計100件を用意
 c. 専門家による判断(リースチェック機能): 
 単なる正誤判定だけでなく、公認会計士の視点を取り入れ、「判定の根拠」が妥当かどうかも精度の一部として検証
 
 2. 不具合の抽出(品質の担保) 
 システムとして安定して動作し、予期せぬ挙動を防ぐため
 a. LLMとアプリとの連携部分でバグがないか、ユーザーが実際に操作した際に期待通りの挙動をするかを確認
 b. リスクの最小化: 事前にプロンプト側で「想定外の回答」を絞り込んでおくことで、アプリ実装後の致命的な不具合を未然に防止

  4. 6 元々は、機能開発と同様に、
 「開発エンジニアがプロンプトまで書く」という予定ではありました。
 
 実際にやってみると、以下のような課題がでてきてしまいました。
 
 1. 開発のリソースの逼迫 
 a.

    プロンプトの検証コスト思ったよりも大きく、アプリケーション開発のリソースを逼迫してしまうという懸 念がありました。
 
 2. 非効率なテストとスケジュール 
 a. アプリケーション開発が終わった後にアプリケーション上でテストする想定になっており、非効率かつ スケジュール的にもあまり現実的ではない状況でした。
 
 開発における課題 
 要件定義
 プロンプトチューニング 
 QAテスト
 メイン機能開発
 元々想定していた開発フロー 

  5. 7 
 1. 開発のリソースの逼迫の解決 
 a. プロンプト自体は自然言語での記述が大半となっており、開発エンジニアが作業する必要性は薄い のでは?というところから、じゃあQAがやってみようとなりました。
 これにより、開発リソースの問題が解消されました。
 


    2. 非効率なテストとスケジュールの解決 
 a. LLM上で出力の検証もできるのでは?というところからアプリケーションの完成を待たずに、プロンプ トの検証をしてしまおうとなりました。これにより、アプリケーション開発とプロンプトチューニングが並 列して実施できるようになりました。
 b. アプリケーション上でのテストは、大量のデータ検証はとても非効率になるため、専用のツールを開発 してもらいました
 
 課題の解決 
 要件定義
 チューニング
 ツール開発
 プロンプトチューニング 
 QAテスト
 メイン機能開発
 実際の開発フロー 

  6. 9 機能の特性に合わせて、評価の軸を使い分けました。
 機能別の評価方法 
 検索項目自動登録 
 評価軸:期待値一致 
 期待値が明確なため、どれだけ期待値に沿ったアウトプットができるかを評価
 本来取れなくても問題のないデータが取れるケースもあり、ノイズとしてカウントはしているが異

    常値でなければ許容している
 
 リースチェック 
 評価軸:期待値一致・妥当性判断 
 判定は期待値一致として明確ではあるが、判定の「根拠」に定まった正解がないため、公認会 計士の協力を得て、出力が許容できるかを一件ずつ検証

  7. 11 これまでのQAエンジニアは、「裏方」のような立ち位置と感じておりました。
 しかし、今回の経験を経て、「主役」になれる可能性を感じました。
 まとめ:QAが切り拓く、 AI時代のシフトレフト 
 1. プロンプトは「仕様」:
 QAがプロンプト作成に関わることは、「シフトレフト」そのもの。
 


    2. 開発効率の最大化:
 アプリの完成を待たずに精度検証を並列で走らせることで、リリースまでのリードタイムを大幅に短縮。
 
 3. 品質の作り込み:
 「期待値」に誰よりもこだわるQAだからこそ、AIの振る舞いを理想に近づけられる。