AIエージェント、”どう作るか”で差は出るか？ / AI Agents: Does the "How" Make a Difference?

by r-kagaya

Slide 1

Slide 1 text

2026年1月15日 Asterminds株式会社 r.kagaya AI Agent 大勉強会 in Tokyo 〜2026 Winter〜 AIエージェント、”どう作るか”で差は出るか？

Slide 2

Slide 2 text

2022年に株式会社ログラスに入社経営管理SaaSの開発、開発生産性向上に取り組んだのち、生成AI/LLMチームを立ち上げ、新規AIプロダクトの立ち上げに従事、その後、25年8月に独立・現職翻訳を担当したAIエンジニアリングがオライリージャパンより出版 Asterminds（アスターマインズ）株式会社共同創業者・CTO r.kagaya(@ry0_kaga) 自己紹介

Slide 3

Slide 3 text

Verifiabilityを担保して、自動評価パイプラインで、 10倍の試行を回したい...！今日の内容

Slide 4

Slide 4 text

エージェントの「振る舞い」を設計する  

Slide 5

Slide 5 text

エージェントの「振る舞い」を設計する AIエージェントは、環境とツールによって規定される by オライリーAIエンジニアリング与えられた環境とツールの中で、どう動くか？状況判断行動 e.g. ユーザーの指示、現在の状態 e.g. どのツールをいつ使うか e.g. ツールの実行

Slide 6

Slide 6 text

エージェントの「振る舞い」を設計する AIエージェントは、環境とツールによって規定される by オライリーAIエンジニアリング与えられた環境とツールの中で、どう動くか？状況判断行動 e.g. ユーザーの指示、現在の状態 e.g. どのツールをいつ使うか e.g. ツールの実行「ファイル操作を求められたら、まず影響範囲を確認する。 3ファイル以上に影響するなら、実行前にユーザーに確認を取る。」

Slide 7

Slide 7 text

モデルはIQの高い天才 but... コンテキストがなければ、モデルは適切に動けない可能性「できること」だけではなく、手順まで構造化して渡した方がコンテキストリッチ AIエージェント製品に求められるのは、大抵はExpert 賢さだけでなく、ドメイン知識・手順を保持すること

Slide 8

Slide 8 text

Tool Useの限界 Toolを渡すだけでなく、そのToolをいつ・どう使うか？までセットで構造化実装方法に限らず、「何ができるか」だけではなく、「どう振る舞うか」の実現

Slide 9

Slide 9 text

振る舞いを定義したら、次はそれをどう評価するか？

Slide 10

Slide 10 text

エージェントの「評価」を設計する「正しく動いた」とは何か？を定義する評価なきエージェントは、テストなきコード、振る舞いをどうにか測れる形に評価軸測り方タスク完了率ツール選択の適切さ無駄なステップ安全性検索結果との一致最短経路との比較不要な実行の回数確認なし操作の有無

Slide 11

Slide 11 text

評価ループを回す評価は1回で終わりではない、ループで回す概念振る舞い定義/修正実行評価改善点特定

Slide 12

Slide 12 text

Anthropicのエンジニアリングチームも言ってます。「評価から始めよ」

Slide 13

Slide 13 text

でも、このループが回ると何が実現できそうなのか？嬉しいのか？

Slide 14

Slide 14 text

Verifiability（検証可能性）  

Slide 15

Slide 15 text

Vibe Coding（という名称）の生みの親によるVerifiability（検証可能性） AIの答えや行動が「正しいかどうか」を、自動的に判定できるか？ Verifiableなタスクは、AIは加速度的に学習・進化できる引用: https://karpathy.bearblog.dev/verifiability/

Slide 16

Slide 16 text

Verifiability（検証可能性）検証できることはすべからず自動化・改善サイクルが回せる（意訳） ● Software 1.0: 指定できることを自動化する ● Software 2.0: 検証できることを自動化する引用: https://karpathy.bearblog.dev/verifiability/

Slide 17

Slide 17 text

Verifiability（検証可能性）なタスクの3条件以下3つの特性を満たせば、自動化されたフィードバックループを回せる元記事は、AIの学習に寄った内容だが、参考にできる点は多々ありそう Resettable Efficient Rewardable 何度でも最初からやり直せるか？タスクを繰り返し、初期状態から何度もやり直せること AIは試行錯誤を繰り返して、フィードバックサイクルを回せる短時間で大量の試行ができるか？タスクを高速に反復実行できること。膨大な量の練習やサイクルを回せることが最適化の高速化が期待できる結果の良し悪しを自動でスコアリングできる？タスクの結果を明確なスコアや基準で自動的に評価できること AIは何が良い結果かを学習できる

Slide 18

Slide 18 text

従来は「こう動け」とコードで指定したエージェントは「こう動いたら正解」と評価で検証する

Slide 19

Slide 19 text

AIエージェント開発（だけに限らないが）は Verifiabilityそのものに感じる

Slide 20

Slide 20 text

Verifiabilityを担保して、自動評価パイプラインで、 10倍の試行を回したい...！

Slide 21

Slide 21 text

具体的になにができる？  

Slide 22

Slide 22 text

参考: Anthropic - Bloom AIモデルが「特定の振る舞い」をどの程度起こすかを、AIエージェントを使って自動でテスト・評価するオープンソースフレームワーク「Bloom」引用: https://www.anthropic.com/research/bloom

Slide 23

Slide 23 text

評価を回すには？何をもって正解とするか？どういうシナリオか？どう図るか？どう実際に実行する？

Slide 24

Slide 24 text

最近取り組んでいること評価から改善のサイクルを半自動で回す

Slide 25

Slide 25 text

最近取り組んでいること評価から改善のサイクルを半自動で回すブラウザ操作と評価の半自動化

Slide 26

Slide 26 text

最近取り組んでいること評価から改善のサイクルを半自動で回す正解の流れとの差分判定と近づけるための自動修正

Slide 27

Slide 27 text

最近取り組んでいること評価から改善のサイクルを半自動で回すプロダクト上でFew shotsを動的に差し替える機能

Slide 28

Slide 28 text

Claude CodeとSkills使ったブラウザ操作テストの自動化 Skillsに加えて、理想のシナリオもディレクトリ内管理それを元にひたすらAIでAIのテストを実施。TTS Scriptsなども整備して、音声対話もある程度自動で回せるようにしてる（コストかかるが..）よくやるのは、多言語対応の動作確認ベトナム語・中国語の確認など

Slide 29

Slide 29 text

ブラウザ操作の自動化ブラウザ操作の自動化、最近はVercelのAgent browserを利用 ● CLI でブラウザを操作するツール ● Playwright MCPと比較してコンテキスト消費を抑えることが可能 e.g. 振る舞いの修正であれば、自動で10回テストさせて再現率をチェックする

Slide 30

Slide 30 text

評価から改善へ（Flywheel）ゴールデンデータセットや評価基準が存在したら、一定の試行は自動化可能 1. 実行->実行結果/履歴を収集 2. 「何が良かった？悪かった？」をLLMにJudgeさせる 3. Skills/プロンプトの修正案を生成 4. 修正データを動的にプロンプト・Few-shots等に反映 5. 再評価 → バックグラウンドで回して、人間は結果/レポートを確認する

Slide 31

Slide 31 text

Automated Design for Agent 自動でAIエージェント・AIワークフローを作成する取り組み例はちらほらあり、読み物として面白い。From AI to AIの世界

Slide 32

Slide 32 text

「動くエージェント」は誰でも作れる時代 but 作り方で差が出る時代？とは言え、甘めに見積もっても一部動作確認・修正作業を半自動化できるぐらい先は長いが、現状の仕組みでも裏側でAIが操作させることで、その分だけ自分の手は空いてるループをいかに早く・大量に回せるかで開発スピードにも顕著に差がつくか？

Slide 33

Slide 33 text

評価駆動の改善ループ高速化が進み、開発速度に顕著に差が出る余地はあるか？

Slide 34

Slide 34 text

再掲人間がやるのはここだけになるのが一つの理想？何をもって正解とするか？どういうシナリオか？どう図るか？どう実際に実行する？

Slide 35

Slide 35 text

とはいえ課題は色々

Slide 36

Slide 36 text

一つはシミュレータ・評価自動化AIの評価は誰がやるか？（監視員を監視する監視員の世界）

Slide 37

Slide 37 text

まとめ 

Slide 38

Slide 38 text

まとめ ● モデルを業務の専門家にするためのプロダクト設計 ● AIプロダクトには評価は不可欠、どうせならVerifiabilityを活かせるか？ ○ 振る舞いをモジュールとして設計できるか、検証可能な評価軸を設計できるか、高速で評価ループを回せるか ○ （AIエージェントに限らないが） ● 評価結果をFew shotsに還流させて、フライホイールを作るのは一つの GOODパターンではないか ● Who Validates the Validatorsなどの問題はある

Slide 39

Slide 39 text

終わり