やわらかな"評価"と、その敵　ーゆるゆる Ver.ー

by Yuki, Takada

Embed

Start on current slide

Slide 1

Slide 1 text

やわらかな”評価”と、その敵⾼⽥佑樹 / @tackaaaada 2025.10.16 QATT番外編ーゆるゆる Ver. ー

Slide 2

Slide 2 text

⾼⽥佑樹 @tackaaaada 2 ユニファ株式会社プロダクトデベロップメント本部 AI開発推進部 QAエンジニア略歴〜2015年：レコーディングスタジオのスタッフや家電の販売員 2015年〜2019年：SES事業会社で、IT業界デビュー 2019年〜2024年9⽉：ゲームの第三者検証会社にて従事 2024年10⽉〜現在：ユニファ株式会社でQAエンジニアとして従事趣味：HIIT‧⾃重トレーニング、ドリップコーヒー（昇降デスクを導⼊して、⽴って仕事してます）

Slide 3

Slide 3 text

3 ユニファ株式会社って、どんな会社？保育施設向けの総合ICTサービス「ルクミー」を提供している会社です https://lookmee.jp/

Slide 4

Slide 4 text

4 LLMを使ったプロダクトの「評価」について、「ゆるっ」とお話します。

Slide 5

Slide 5 text

5 ユニファ株式会社も、LLMを使ったプロダクトを開発してます！園内の⼤量の写真‧⽂書記録を要約しこどもの育ちを簡単に振り返られるようにするプロダクト。オープンβリリース、しました。

Slide 6

Slide 6 text

アジェンダ ● 「検証」ではなく「評価」 ● 「評価」って、難しくね？ ● LLM-as-a-Judge！ ● どうする？ 6

Slide 7

Slide 7 text

7 「検証」ではなく「評価」

Slide 8

Slide 8 text

「検証」ではなく「評価」 8 いままでの品質保証の「検証」 → 期待値が決められた

Slide 9

Slide 9 text

「検証」ではなく「評価」 9 例）チキンカレーを作る

Slide 10

Slide 10 text

「検証」ではなく「評価」 10 1. 材料を⽤意する（鶏⾁、にんじん、たまねぎ、じゃがいも、カレールー（スパイスでも可）、バター、⽔、⽶ etc..） 2. 材料を切る 3. ⽶を洗って、炊く 4. 鍋にバターを⼊れ溶かし、材料を炒める 5. たまねぎが半透明になったら、⽔を加えてひと煮⽴ちさせる 6. カレールーを⼊れて、溶け切るまで混ぜる。 7. じゃがいもが柔らかくなったら、⽕を⽌める 8. ごはんをよそって、カレールーをかける 9. 「チキンカレーの完成！」

Slide 11

Slide 11 text

「検証」ではなく「評価」 11 1. 材料を⽤意する（鶏⾁、にんじん、たまねぎ、じゃがいも、カレールー（スパイスでも可）、バター、⽔、⽶ etc..） 2. 材料を切る 3. ⽶を洗って、炊く 4. 鍋にバターを⼊れ溶かし、材料を炒める 5. たまねぎが半透明になったら、⽔を加えてひと煮⽴ちさせる 6. カレールーを⼊れて、溶け切るまで混ぜる。 7. じゃがいもが柔らかくなったら、⽕を⽌める 8. ごはんをよそって、カレールーをかける 9. 「チキンカレーの完成！」

Slide 12

Slide 12 text

「検証」ではなく「評価」 12 1. 材料を⽤意する（鶏⾁、にんじん、たまねぎ、じゃがいも、カレールー（スパイスでも可）、バター、⽔、⽶ etc..） 2. 材料を切る 3. ⽶を洗って、炊く 4. 鍋にバターを⼊れ溶かし、材料を炒める 5. たまねぎが半透明になったら、⽔を加えてひと煮⽴ちさせる 6. カレールーを⼊れて、溶け切るまで混ぜる。 7. じゃがいもが柔らかくなったら、⽕を⽌める 8. ごはんをよそって、カレールーをかける 9. 「チキンカレーの完成！」緑字：入力赤字：処理青字：条件分岐 ↓ いままでのソフトウェアテストでは、上記のそれぞれがはっきりと書いていたため、「機能として、どのように動くのか、期待値を決めることができた」（「おいしい」かどうかは、さておいて）

Slide 13

Slide 13 text

「検証」ではなく「評価」 13 LLMを使ったプロダクトの「評価」では？ → 期待値が?????

Slide 14

Slide 14 text

「検証」ではなく「評価」 14 例）チキンカレーを作る

Slide 15

Slide 15 text

「検証」ではなく「評価」 15 1. 材料を⽤意する（鶏⾁、にんじん、たまねぎ、じゃがいも、カレールー（スパイスでも可）、バター、⽔、⽶ etc..） 2. 3. 4. 5. 6. 7. 9. 「チキンカレーの完成?????」

Slide 16

Slide 16 text

「検証」ではなく「評価」 16 1. 材料を⽤意する（鶏⾁、にんじん、たまねぎ、じゃがいも、カレールー（スパイスでも可）、バター、⽔、⽶ etc..） 2. 3. 4. 5. 6. 7. 9. 「チキンカレーの完成?????」

Slide 17

Slide 17 text

「検証」ではなく「評価」 17 「チキンカレーの完成???」って、あるけどチキンカレー？グリーンカレー？マッサマンカレー？だったりしない？⼊⼒が同じでも「どのカレーが出来上がるか」は、決定できない

Slide 18

Slide 18 text

「検証」ではなく「評価」 18 LLMを使ったプロダクトの「評価」では? → 期待値が決められない ↓ 「期待値が確率的に変動するから」

Slide 19

Slide 19 text

「評価」って、難しくね？ 19

Slide 20

Slide 20 text

「評価」って、難しくね？ 20 x「ありがとう」⼊⼒X y「感謝」条件 {x | 嬉しい気持ち(x)} 出⼒Y ここ

Slide 21

Slide 21 text

「評価」って、難しくね？ 21 仕組みを知れば、何かわかるかも？

Slide 22

Slide 22 text

「評価」って、難しくね？ 22 Ashish Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS2017 より引用

Slide 23

Slide 23 text

「評価」って、難しくね？ 23 Ashish Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS2017 より引用

Slide 24

Slide 24 text

「評価」って、難しくね？ 24 Ashish Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS2017 より引用

Slide 25

Slide 25 text

「評価」って、難しくね？ 25 「それらしく出⼒されてる」ことを評価するって、難しくないっすか？

Slide 26

Slide 26 text

「評価」って、難しくね？ 26 「それらしく出⼒されてる」ことを評価するって、難しくないっすか？ ↓ ⼈によって捉え⽅違うし、何より「時間（⼯数）かかる」じゃん？

Slide 27

Slide 27 text

「評価」って、難しくね？ 27 えっ、⼈海戦術？（属⼈化→偶像化→機能不全→組織崩壊にならん？）リチャード‧Ｐ‧ルメルト著、村井章⼦訳「戦略の要諦」p.344~ 第13章組織の機能不全から引⽤

Slide 28

Slide 28 text

LLM-as-a-Judge！ 28

Slide 29

Slide 29 text

LLM-as-a-Judge！ 29 そうだ、「LLMに評価してもらえば、いいじゃん！」

Slide 30

Slide 30 text

LLM-as-a-Judge！ 30 Self-hostingでLangfuseを立ち上げる >> LLM-as-a-Judgeにある評価軸を写したもの。全部で、 19個ありました。

Slide 31

Slide 31 text

LLM-as-a-Judge！ 31 Langfuseにある評価軸を「1つずつ」⼿を動かしながらどう動くのか調査していった際の資料（⼀部、抜粋）

Slide 32

Slide 32 text

LLM as a judge！ 32 えっ、じゃあ、何使えばいいの？（評価軸、どれ使えばいいの？）

Slide 33

Slide 33 text

どうする？ 33

Slide 34

Slide 34 text

どうする？ 34 まずは、Langfuseの持っている軸に縛られる必要もなく、⾃分たちが重要だと思う軸を(Langfuseとは関係ないところで)決める AI開発推進部の方からの「めちゃくちゃ良いインサイト」

Slide 35

Slide 35 text

どうする？ 35 その上で、その観点を「どう評価するか」、という視点があってもいいんじゃない？ AI開発推進部の方からの「めちゃくちゃ良いインサイト」

Slide 36

Slide 36 text

どうする？ 36

Slide 37

Slide 37 text

どうする？ 37 導⼊前に「整える」こと = “明証”の規則 ↓ 「期待を明⽂化」する：⽬的の明確化、現状を把握、導⼊の基準を⽰そう

Slide 38

Slide 38 text

どうする？ 38 「導⼊前に「整える」こと = “明証”の規則」で「ピン」と来た⽅は、 2025/9/5のQATT #3を（アーカイブで）チェックしてね！「“品質”は、電気羊の夢を見るか？ーデカルトの四規則で始める「自動テスト導入前」の品質保証ー」というタイトル登壇しました！

Slide 39

Slide 39 text

まとめ 39 ● LLMを使ったプロダクトの「評価」って、難しい（でも、やり甲斐はある） ● LLM-as-a-Judgeって、奥が深いのね〜 ● ⾃分たちが⼤切だと思う「軸」、決めようぜっ！

Slide 40

Slide 40 text

40 ユニファ開発チーム、仲間を探していますゆるっと、お知らせユニファ株式会社会社紹介資料（開発チーム版） / Unifa inc information for dev team - Speaker Deck

Slide 41

Slide 41 text

41 （ゆるっと、終わって）ご清聴、ありがとうございました！