Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM-as-a-Judge奮闘記!(仮) 〜あっ、37歳になりました (仮)〜

Avatar for Yuki, Takada Yuki, Takada
March 02, 2026
16

LLM-as-a-Judge奮闘記!(仮) 〜あっ、37歳になりました (仮)〜

2026/03/02に開催された、「QA engineer at a Startup vol.27 高田 佑樹編」の登壇資料です!

https://qaengineeratastartup.connpass.com/event/384699/

Avatar for Yuki, Takada

Yuki, Takada

March 02, 2026
Tweet

Transcript

  1. LLM-as-a-Judge奮闘記!(仮) ⾼⽥ 佑樹 / @tackaaaada 2026.03.02 QA engineer at a

    Startup(仮)Vol.27 〜あっ、37歳になりました (仮)〜
  2. ⾼⽥佑樹 @tackaaaada 2 ユニファ株式会社 プロダクトデベロップメント本部 AI開発推進部 QAエンジニア 略歴 〜2015年:レコーディングスタジオのスタッフや家電の販売員 2015年〜2019年:SES事業会社で、IT業界デビュー

    2019年〜2024年9⽉:ゲームの第三者検証会社にて従事 2024年10⽉〜現在:ユニファ株式会社でQAエンジニアとして従事 趣味:HIIT‧⾃重トレーニング、ドリップコーヒー (ノルウェー式HIITを導⼊しました)
  3. LLM-as-a-Judgeって? 13 1. 材料を⽤意する(鶏⾁、にんじん、たまねぎ、じゃがいも、カレールー(ス パイスでも可)、バター、⽔、⽶ etc..) 2. 材料を切る 3. ⽶を洗って、炊く

    4. 鍋にバターを⼊れ溶かし、材料を炒める 5. たまねぎが半透明になったら、⽔を加えてひと煮⽴ちさせる 6. カレールーを⼊れて、溶け切るまで混ぜる。 7. じゃがいもが柔らかくなったら、⽕を⽌める 8. ごはんをよそって、カレールーをかける 9. 「チキンカレーの完成??」
  4. はじめの「⼀歩」 25 「軸」を決めるのに、考えたこと① • 背景や⽬的:以下の2つ ◦ 背景:LLM出⼒は確率的に揺れるため、従来のテストケースだけでは判定がぶれる。 ◦ ⽬的:評価者間の判断の差を最⼩化し、評価を迷いなく判断できる基準を定める。 •

    期待アウトカム:最終的な期待アウトカムは何? ◦ AIを使ったプロダクトが、「保育の専⾨性を⾼める業務に、集中するための時間を創り出す “頼れる存在”(役に⽴つパートナー)」であること • NG(絶対回避):絶対に避けたい「振る舞い‧出⼒」は何? ◦ 安全性‧配慮⾯、プライバシー‧倫理⾯、信頼性‧正確性⾯、保育理念⾯に反する振る舞い や出⼒
  5. はじめの「⼀歩」 28 「評価軸」を決めるのに、考えたこと① • 「⽣成されたものは、どのような状態が望ましいか」を⾔語化 • 優先順位を決める:以下の、3つ ◦ 1位:妥当性/⼀意性(ゲート条件) ▪

    誤読の余地や曖昧さがないか。 ▪ ⽂章構成などから読みやすい⽂章になっているか。 ◦ 2位:正確性/信頼性 ▪ ⼊⼒(事実‧元データ)と乖離がないか。 ▪ 事実に基づいているか。 ◦ 3位:有⽤性/⼀貫性 ▪ 園の先⽣向けに有⽤な情報になっているか。 ▪ ⽂脈や内容の⼀貫性があるか。
  6. 難しかったところ 36 • 「AWS Bedrockのプロンプト管理」からだったり、「実装に埋め込まれて いたり」する ◦ LLM-as-a-Judgeの技術選定をする際には、⼊⼒プロンプトの場所を意識したほうがいいと 思う。 ◦

    実際に構築するときとか、アーキテクチャなりデータなりが「こんがらがってしまって」訳 わかんなくなりそう(Bedrock AgentCore Runtimeベースで構築するときに、困りそう) インサイト:⼊⼒(プロンプトやデータ)を意識する。あとは、⼿を動かして確 認してみる。
  7. まとめ 38 • 「軸」ベースで考えながら⾏動したら、⾏動を迷わずに進められた ◦ 軸があったから、⼿を動かせられた ◦ やるべきことにフォーカスして、⾏動できた • 軸の「粒度」を決めるときには、気を付けて

    ◦ バランスをとることが⼤事 ◦ とはいえ、バランスの取り⽅は「現場次第」 • 技術選定は、⼿を動かして決める ◦ 他の⼈に動かしてもらったものを⾒て判断するのも、良いと考える