Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMによる品質担保戦略

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Shogo Ujiie Shogo Ujiie
March 12, 2026
11

 LLMによる品質担保戦略

2026.03.04 [AI/ML特集] Python Meetup Fukuoka #6
https://lycorptech-fukuoka.connpass.com/event/380867/

Avatar for Shogo Ujiie

Shogo Ujiie

March 12, 2026
Tweet

Transcript

  1. • 氏家 翔吾 / Shogo Ujiie • AI・機械学習チーム チームリーダー •

    2015 - 2019 / 2023- 福岡在住 ◦ 福岡データエンジニアリング勉強会 運営 • 嵐の最後のシングルが今日発売らしい 自己紹介 2
  2. 生成AIの出現によりコンテンツ生成がより簡単に 4 • 画像生成: ◦ Nano banana pro ◦ stable

    diffusion • テキスト生成 ◦ Gemini ◦ ChatGPT • コード生成 ◦ Claude Code ◦ Codex
  3. 溢れる生成コンテンツはいいことばかりではない 6 • 質の低いPRが大量に出現 ◦ OSS開発者が疲弊 ◦ Pull Request閉鎖やBanなどに •

    正確でない and/or 質の低い 技術記事も大量に出現 ◦ 検索でのノイズに 1: https://www.linkedin.com/posts/danielstenberg_hackerone-curl-activity-7324820893862363136-glb1 2: https://hbr.org/2025/09/ai-generated-workslop-is-destroying-productivity
  4. プロダクトに組み込む上でも品質の担保が重要 7 • 生成物をビジネスにも組み込みたい ◦ 広告のタイトルや画像 ◦ カスタマーサポート ◦ etc…

    • 一方で、低品質な生成物はリスクでもある ◦ 意図しない情報の流出 ◦ レピュテーションリスク
  5. 基本戦略:LLM-as-a-Judge 10 • LLM-as-a-Judge: 生成AI(LLM)に評価もさせる • 生成AIでの評価を元にフィルタリングや品質改善へ ◦ 人手でのフィルタリングに比べて圧倒的にスケールする ◦

    観点によっては人手よりも適切な評価になる(場合もある) あなたは熟練したソフトウェアエンジ ニアです。次のプログラミングに関す るクイズについて、クイズの評価を5段 階でつけてください
  6. LLM-as-a-Judgeに潜むバイアス 11 • 評価させればいいとは言っても単純ではない ◦ Self Enhancement Bias: 自身の出力に高得点をつけがち ◦

    Position Bias: 最初の選択肢に高得点をつけがち ◦ Length Bias: 長く冗長な文章ほど高得点をつけがち ◦ etc… 「どうやってLLMに公正/妥当な評価をさせるか」が重要
  7. ① 評価観点の明確化 13 何の観点で評価するかどういう評価基準かを明示することで 評価スコアの妥当性を担保 以下のPythonクイズを、スライド資料としての「質」の観点から、5点満点(1〜 5)で評価し、その理由を簡潔に述べてください。 評価項目: • 有用性:

    実務や学習の初期段階で、知らなければ困る重要な知識か。 • 選択肢の罠: 誤答の選択肢に「他言語の癖」や「直感的な勘違い」を誘う説得力があるか。 • 意外性: 正解や解説を聞いたときに、聞き手が「なるほど!」という驚きや納得感を得られるか。 • 汎用性: その問題の答えが他の文法やライブラリ(NumPy等)の理解にも繋がる根本的なルールか。
  8. ④ 評価理由やリファレンスを生成させる 16 • CoTの文脈で評価精度up • 人手で後から確認する際の効率化にも … 評価レポートを下記形式で出力してください。ただし、 修正や批判を行う場合はそれが正しいと主張できる箇所

    を原文から抽出して併記してください。 "has_issues": true/false, "issues": [ { "category": "有用性" | "意外性" | "汎用性"", "description": "具体的な問題点の詳細説明", "severity": "high" | "medium" | "low", "details": "カテゴリ分析結果や具体的な指摘内容" } ],