Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMによる品質担保戦略
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shogo Ujiie
March 12, 2026
0
11
LLMによる品質担保戦略
2026.03.04 [AI/ML特集] Python Meetup Fukuoka #6
https://lycorptech-fukuoka.connpass.com/event/380867/
Shogo Ujiie
March 12, 2026
Tweet
Share
More Decks by Shogo Ujiie
See All by Shogo Ujiie
pylint custom ruleで始めるレビュー自動化
shogoujiie
0
380
今日から使えるgokart小技集
shogoujiie
0
4.4k
DEIM2022 技術報告(エムスリー株式会社)
shogoujiie
0
550
言語処理学会2020
shogoujiie
0
120
医療情報学会2020
shogoujiie
0
190
言語処理学会2021
shogoujiie
0
300
Featured
See All Featured
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Facilitating Awesome Meetings
lara
57
6.8k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
84
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
270
Chasing Engaging Ingredients in Design
codingconduct
0
140
Utilizing Notion as your number one productivity tool
mfonobong
4
250
The Cult of Friendly URLs
andyhume
79
6.8k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.4k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.9k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.5k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
140
Transcript
LLMによる品質担保戦略 エムスリー株式会社 AI・機械学習チーム 氏家 翔吾(Shogo Ujiie) 1
• 氏家 翔吾 / Shogo Ujiie • AI・機械学習チーム チームリーダー •
2015 - 2019 / 2023- 福岡在住 ◦ 福岡データエンジニアリング勉強会 運営 • 嵐の最後のシングルが今日発売らしい 自己紹介 2
世は大LLM時代 3
生成AIの出現によりコンテンツ生成がより簡単に 4 • 画像生成: ◦ Nano banana pro ◦ stable
diffusion • テキスト生成 ◦ Gemini ◦ ChatGPT • コード生成 ◦ Claude Code ◦ Codex
エムスリーでも生成AIを推進 5 • 社内では各生成AIを利用 ◦ セキュリティ審査した上で ほぼ全てのツールを制限なく利用 • 各種プロダクトでも生成AI を組み込み
◦ 生成物のプロダクトへの組み込み ◦ コード生成/コードレビュー ◦ etc…
溢れる生成コンテンツはいいことばかりではない 6 • 質の低いPRが大量に出現 ◦ OSS開発者が疲弊 ◦ Pull Request閉鎖やBanなどに •
正確でない and/or 質の低い 技術記事も大量に出現 ◦ 検索でのノイズに 1: https://www.linkedin.com/posts/danielstenberg_hackerone-curl-activity-7324820893862363136-glb1 2: https://hbr.org/2025/09/ai-generated-workslop-is-destroying-productivity
プロダクトに組み込む上でも品質の担保が重要 7 • 生成物をビジネスにも組み込みたい ◦ 広告のタイトルや画像 ◦ カスタマーサポート ◦ etc…
• 一方で、低品質な生成物はリスクでもある ◦ 意図しない情報の流出 ◦ レピュテーションリスク
エムスリーでの生成物の品質担保 8 • 生成AIによる生成物をプロダクトに組み込む際の 品質担保の戦略を話していきます • 話さないこと ◦ 実際の生成AIプロダクトの事例 ◦
生成AI固有の事情
LLM-as-a-Judge 9
基本戦略:LLM-as-a-Judge 10 • LLM-as-a-Judge: 生成AI(LLM)に評価もさせる • 生成AIでの評価を元にフィルタリングや品質改善へ ◦ 人手でのフィルタリングに比べて圧倒的にスケールする ◦
観点によっては人手よりも適切な評価になる(場合もある) あなたは熟練したソフトウェアエンジ ニアです。次のプログラミングに関す るクイズについて、クイズの評価を5段 階でつけてください
LLM-as-a-Judgeに潜むバイアス 11 • 評価させればいいとは言っても単純ではない ◦ Self Enhancement Bias: 自身の出力に高得点をつけがち ◦
Position Bias: 最初の選択肢に高得点をつけがち ◦ Length Bias: 長く冗長な文章ほど高得点をつけがち ◦ etc… 「どうやってLLMに公正/妥当な評価をさせるか」が重要
じゃあどうすればいい? 12 例: 下記のPythonに関するクイズについて考えていきます 次のデータ型のうち、一度作成すると中 身を変更できない(イミュータブルな) ものはどれ? 1. リスト (list)
2. 辞書 (dict) 3. タプル (tuple) 4. セット (set)
① 評価観点の明確化 13 何の観点で評価するかどういう評価基準かを明示することで 評価スコアの妥当性を担保 以下のPythonクイズを、スライド資料としての「質」の観点から、5点満点(1〜 5)で評価し、その理由を簡潔に述べてください。 評価項目: • 有用性:
実務や学習の初期段階で、知らなければ困る重要な知識か。 • 選択肢の罠: 誤答の選択肢に「他言語の癖」や「直感的な勘違い」を誘う説得力があるか。 • 意外性: 正解や解説を聞いたときに、聞き手が「なるほど!」という驚きや納得感を得られるか。 • 汎用性: その問題の答えが他の文法やライブラリ(NumPy等)の理解にも繋がる根本的なルールか。
② 複数モデルでのバリデーション 14 異なるLLMの評価結果を加味することで、より妥当な結果に プロンプト 5点 2点 1点 2.7点 平均
③ 人間による生成との対決(ペアワイズ法) 15 絶対評価だけでなく相対評価でも質を担保 生成AI作 人間作 以下の2つはPythonに関するク イズです。どちらがよりソフト ウェアエンジニアが監修したク イズとして質が高いでしょう
か。 クイズA: XXXXX クイズB: YYYYY クイズA, Bも入れ 替えて実施するこ とでより信頼でき る結果に
④ 評価理由やリファレンスを生成させる 16 • CoTの文脈で評価精度up • 人手で後から確認する際の効率化にも … 評価レポートを下記形式で出力してください。ただし、 修正や批判を行う場合はそれが正しいと主張できる箇所
を原文から抽出して併記してください。 "has_issues": true/false, "issues": [ { "category": "有用性" | "意外性" | "汎用性"", "description": "具体的な問題点の詳細説明", "severity": "high" | "medium" | "low", "details": "カテゴリ分析結果や具体的な指摘内容" } ],
⑤ 人手評価によりプロンプトをチューニング 17 • 一発である程度妥当な評価をできるプロンプトは実現不可能 • 従来の機械学習モデルのように人手でアノテーションし プロンプトの改善を回す 5点 プロンプトv1
3点 人手評価 2点 3点 人手評価 とのずれ を修正す るプロン プトv2を 作る
⑥ プロンプトのチューニングもLLMにやらせる 18 • 学習データセットを作れば、誤りについても生成AIに 食わせることでプロンプトの修正案を作らせる 5点 3点 人手評価 2点
3点 プロンプトv2
LLMの評価をプロダクトの運用に組み込む 19 • プロダクトによってはLLM評価のみでは許容できない場合も • LLMの評価を使いつつシステムの一つとして運用に組み込む 大量に生成、評価させ、高評価のもののみ人間がチェック
まとめ 20 • LLM-as-a-Judgeによる生成物の評価戦略 ◦ 生成AIを使った評価によるスケール ◦ バイアスを極力排除する評価手法 • 懇親会でみなさんの生成プロダクトについて教えてくださ
い!
エムスリー公式テックチャンネル https://www.youtube.com/channel/UC_DkAOcwgmtQnJLDctci4rQ 社内勉強会やブログなど面白い話題がたくさん! エンジニア公式Xアカウント https://x.com/m3_engineering