LLMによる品質担保戦略

LLMによる品質担保戦略エムスリー株式会社 AI・機械学習チーム氏家翔吾（Shogo Ujiie） 1

• 氏家翔吾 / Shogo Ujiie • AI・機械学習チームチームリーダー •
2015 - 2019 / 2023- 福岡在住 ◦ 福岡データエンジニアリング勉強会運営 • 嵐の最後のシングルが今日発売らしい自己紹介 2

世は大LLM時代 3

生成AIの出現によりコンテンツ生成がより簡単に 4 • 画像生成: ◦ Nano banana pro ◦ stable
diﬀusion • テキスト生成 ◦ Gemini ◦ ChatGPT • コード生成 ◦ Claude Code ◦ Codex

エムスリーでも生成AIを推進 5 • 社内では各生成AIを利用 ◦ セキュリティ審査した上でほぼ全てのツールを制限なく利用 • 各種プロダクトでも生成AI を組み込み
◦ 生成物のプロダクトへの組み込み ◦ コード生成/コードレビュー ◦ etc…

溢れる生成コンテンツはいいことばかりではない 6 • 質の低いPRが大量に出現 ◦ OSS開発者が疲弊 ◦ Pull Request閉鎖やBanなどに •
正確でない and/or 質の低い技術記事も大量に出現 ◦ 検索でのノイズに 1: https://www.linkedin.com/posts/danielstenberg_hackerone-curl-activity-7324820893862363136-glb1 2: https://hbr.org/2025/09/ai-generated-workslop-is-destroying-productivity

プロダクトに組み込む上でも品質の担保が重要 7 • 生成物をビジネスにも組み込みたい ◦ 広告のタイトルや画像 ◦ カスタマーサポート ◦ etc…
• 一方で、低品質な生成物はリスクでもある ◦ 意図しない情報の流出 ◦ レピュテーションリスク

エムスリーでの生成物の品質担保 8 • 生成AIによる生成物をプロダクトに組み込む際の品質担保の戦略を話していきます • 話さないこと ◦ 実際の生成AIプロダクトの事例 ◦
生成AI固有の事情

LLM-as-a-Judge 9

基本戦略：LLM-as-a-Judge 10 • LLM-as-a-Judge: 生成AI（LLM）に評価もさせる • 生成AIでの評価を元にフィルタリングや品質改善へ ◦ 人手でのフィルタリングに比べて圧倒的にスケールする ◦
観点によっては人手よりも適切な評価になる（場合もある）あなたは熟練したソフトウェアエンジニアです。次のプログラミングに関するクイズについて、クイズの評価を5段階でつけてください

LLM-as-a-Judgeに潜むバイアス 11 • 評価させればいいとは言っても単純ではない ◦ Self Enhancement Bias: 自身の出力に高得点をつけがち ◦
Position Bias: 最初の選択肢に高得点をつけがち ◦ Length Bias: 長く冗長な文章ほど高得点をつけがち ◦ etc… 「どうやってLLMに公正/妥当な評価をさせるか」が重要

じゃあどうすればいい？ 12 例: 下記のPythonに関するクイズについて考えていきます次のデータ型のうち、一度作成すると中身を変更できない（イミュータブルな）ものはどれ？ 1. リスト (list)
2. 辞書 (dict) 3. タプル (tuple) 4. セット (set)

① 評価観点の明確化 13 何の観点で評価するかどういう評価基準かを明示することで評価スコアの妥当性を担保以下のPythonクイズを、スライド資料としての「質」の観点から、5点満点（1〜 5）で評価し、その理由を簡潔に述べてください。評価項目： • 有用性:
実務や学習の初期段階で、知らなければ困る重要な知識か。 • 選択肢の罠: 誤答の選択肢に「他言語の癖」や「直感的な勘違い」を誘う説得力があるか。 • 意外性: 正解や解説を聞いたときに、聞き手が「なるほど！」という驚きや納得感を得られるか。 • 汎用性: その問題の答えが他の文法やライブラリ（NumPy等）の理解にも繋がる根本的なルールか。

② 複数モデルでのバリデーション 14 異なるLLMの評価結果を加味することで、より妥当な結果にプロンプト 5点 2点 1点 2.7点平均

③ 人間による生成との対決（ペアワイズ法） 15 絶対評価だけでなく相対評価でも質を担保生成AI作人間作以下の2つはPythonに関するクイズです。どちらがよりソフトウェアエンジニアが監修したクイズとして質が高いでしょう
か。クイズA: XXXXX クイズB: YYYYY クイズA, Bも入れ替えて実施することでより信頼できる結果に

④ 評価理由やリファレンスを生成させる 16 • CoTの文脈で評価精度up • 人手で後から確認する際の効率化にも … 評価レポートを下記形式で出力してください。ただし、修正や批判を行う場合はそれが正しいと主張できる箇所
を原文から抽出して併記してください。 "has_issues": true/false, "issues": [ { "category": "有用性" | "意外性" | "汎用性"", "description": "具体的な問題点の詳細説明", "severity": "high" | "medium" | "low", "details": "カテゴリ分析結果や具体的な指摘内容" } ],

⑤ 人手評価によりプロンプトをチューニング 17 • 一発である程度妥当な評価をできるプロンプトは実現不可能 • 従来の機械学習モデルのように人手でアノテーションしプロンプトの改善を回す 5点プロンプトv1
3点人手評価 2点 3点人手評価とのずれを修正するプロンプトv2を作る

⑥ プロンプトのチューニングもLLMにやらせる 18 • 学習データセットを作れば、誤りについても生成AIに食わせることでプロンプトの修正案を作らせる 5点 3点人手評価 2点
3点プロンプトv2

LLMの評価をプロダクトの運用に組み込む 19 • プロダクトによってはLLM評価のみでは許容できない場合も • LLMの評価を使いつつシステムの一つとして運用に組み込む大量に生成、評価させ、高評価のもののみ人間がチェック

まとめ 20 • LLM-as-a-Judgeによる生成物の評価戦略 ◦ 生成AIを使った評価によるスケール ◦ バイアスを極力排除する評価手法 • 懇親会でみなさんの生成プロダクトについて教えてくださ
い！

エムスリー公式テックチャンネル https://www.youtube.com/channel/UC_DkAOcwgmtQnJLDctci4rQ 社内勉強会やブログなど面白い話題がたくさん！エンジニア公式Xアカウント https://x.com/m3_engineering

LLMによる品質担保戦略

LLMによる品質担保戦略

Shogo Ujiie

More Decks by Shogo Ujiie

Featured

Transcript