AIエージェント、”どう作るか”で差は出るか？ / AI Agents: Does the "How" Make a Difference?

2026年1月15日 Asterminds株式会社 r.kagaya AI Agent 大勉強会 in Tokyo 〜2026 Winter〜
AIエージェント、”どう作るか”で差は出るか？

2022年に株式会社ログラスに入社経営管理SaaSの開発、開発生産性向上に取り組んだのち、生成AI/LLMチームを立ち上げ、新規AIプロダクトの立ち上げに従事、その後、25年8月に独立・現職翻訳を担当したAIエンジニアリングがオライリージャパンより出版 Asterminds（アスターマインズ）株式会社共同創業者・CTO r.kagaya(@ry0_kaga) 自己紹介

Verifiabilityを担保して、自動評価パイプラインで、 10倍の試行を回したい...！今日の内容

エージェントの「振る舞い」を設計する  

エージェントの「振る舞い」を設計する AIエージェントは、環境とツールによって規定される by オライリーAIエンジニアリング与えられた環境とツールの中で、どう動くか？状況判断行動 e.g. ユーザーの指示、現在
の状態 e.g. どのツールをいつ使うか e.g. ツールの実行

エージェントの「振る舞い」を設計する AIエージェントは、環境とツールによって規定される by オライリーAIエンジニアリング与えられた環境とツールの中で、どう動くか？状況判断行動 e.g. ユーザーの指示、現在
の状態 e.g. どのツールをいつ使うか e.g. ツールの実行「ファイル操作を求められたら、まず影響範囲を確認する。 3ファイル以上に影響するなら、実行前にユーザーに確認を取る。」

モデルはIQの高い天才 but... コンテキストがなければ、モデルは適切に動けない可能性「できること」だけではなく、手順まで構造化して渡した方がコンテキストリッチ AIエージェント製品に求められるのは、大抵はExpert 賢さだけでなく、ドメイン知識・手順を保持すること

Tool Useの限界 Toolを渡すだけでなく、そのToolをいつ・どう使うか？までセットで構造化実装方法に限らず、「何ができるか」だけではなく、「どう振る舞うか」の実現

振る舞いを定義したら、次はそれをどう評価するか？

エージェントの「評価」を設計する「正しく動いた」とは何か？を定義する評価なきエージェントは、テストなきコード、振る舞いをどうにか測れる形に評価軸測り方タスク完了率ツール選択の適切さ無駄なステップ安全性検索結果との一致
最短経路との比較不要な実行の回数確認なし操作の有無

評価ループを回す評価は1回で終わりではない、ループで回す概念振る舞い定義/修正実行評価改善点特定

Anthropicのエンジニアリングチームも言ってます。「評価から始めよ」

でも、このループが回ると何が実現できそうなのか？嬉しいのか？

Verifiability（検証可能性）  

Vibe Coding（という名称）の生みの親によるVerifiability（検証可能性） AIの答えや行動が「正しいかどうか」を、自動的に判定できるか？ Verifiableなタスクは、AIは加速度的に学習・進化できる引用: https://karpathy.bearblog.dev/verifiability/

Verifiability（検証可能性）検証できることはすべからず自動化・改善サイクルが回せる（意訳） • Software 1.0: 指定できることを自動化する • Software 2.0: 検証できることを自動化する
引用: https://karpathy.bearblog.dev/verifiability/

Verifiability（検証可能性）なタスクの3条件以下3つの特性を満たせば、自動化されたフィードバックループを回せる元記事は、AIの学習に寄った内容だが、参考にできる点は多々ありそう Resettable Efficient Rewardable 何度でも最初からやり直せるか？タスクを繰り返し、初期状態から何度もやり直せること
AIは試行錯誤を繰り返して、フィードバックサイクルを回せる短時間で大量の試行ができるか？タスクを高速に反復実行できること。膨大な量の練習やサイクルを回せることが最適化の高速化が期待できる結果の良し悪しを自動でスコアリングできる？タスクの結果を明確なスコアや基準で自動的に評価できること AIは何が良い結果かを学習できる

従来は「こう動け」とコードで指定したエージェントは「こう動いたら正解」と評価で検証する

AIエージェント開発（だけに限らないが）は Verifiabilityそのものに感じる

Verifiabilityを担保して、自動評価パイプラインで、 10倍の試行を回したい...！

具体的になにができる？  

参考: Anthropic - Bloom AIモデルが「特定の振る舞い」をどの程度起こすかを、AIエージェントを使って自動でテスト・評価するオープンソースフレームワーク「Bloom」引用: https://www.anthropic.com/research/bloom

評価を回すには？何をもって正解とするか？どういうシナリオか？どう図るか？どう実際に実行する？

最近取り組んでいること評価から改善のサイクルを半自動で回す

最近取り組んでいること評価から改善のサイクルを半自動で回すブラウザ操作と評価の半自動化

最近取り組んでいること評価から改善のサイクルを半自動で回す正解の流れとの差分判定と近づけるための自動修正

最近取り組んでいること評価から改善のサイクルを半自動で回すプロダクト上でFew shotsを動的に差し替える機能

Claude CodeとSkills使ったブラウザ操作テストの自動化 Skillsに加えて、理想のシナリオもディレクトリ内管理それを元にひたすらAIでAIのテストを実施。TTS Scriptsなども整備して、音声対話もある程度自動で回せるようにしてる（コストかかるが..）よくやるのは、多言語対応の動作確認ベトナム語・中国語の確認など

ブラウザ操作の自動化ブラウザ操作の自動化、最近はVercelのAgent browserを利用 • CLI でブラウザを操作するツール • Playwright MCPと比較してコンテキスト消費を抑えることが可能 e.g.
振る舞いの修正であれば、自動で10回テストさせて再現率をチェックする

評価から改善へ（Flywheel）ゴールデンデータセットや評価基準が存在したら、一定の試行は自動化可能 1. 実行->実行結果/履歴を収集 2. 「何が良かった？悪かった？」をLLMにJudgeさせる 3. Skills/プロンプトの修正案を生成 4. 修正データを動的にプロンプト・Few-shots等に反映
5. 再評価 → バックグラウンドで回して、人間は結果/レポートを確認する

Automated Design for Agent 自動でAIエージェント・AIワークフローを作成する取り組み例はちらほらあり、読み物として面白い。From AI to AIの世界

「動くエージェント」は誰でも作れる時代 but 作り方で差が出る時代？とは言え、甘めに見積もっても一部動作確認・修正作業を半自動化できるぐらい先は長いが、現状の仕組みでも裏側でAIが操作させることで、その分だけ自分の手は空いてるループをいかに早く・大量に回せるかで開発スピードにも顕著に差がつくか？

評価駆動の改善ループ高速化が進み、開発速度に顕著に差が出る余地はあるか？

再掲人間がやるのはここだけになるのが一つの理想？何をもって正解とするか？どういうシナリオか？どう図るか？どう実際に実行する？

とはいえ課題は色々

一つはシミュレータ・評価自動化AIの評価は誰がやるか？（監視員を監視する監視員の世界）

まとめ 

まとめ • モデルを業務の専門家にするためのプロダクト設計 • AIプロダクトには評価は不可欠、どうせならVerifiabilityを活かせるか？ ◦ 振る舞いをモジュールとして設計できるか、検証可能な評価軸を設計できるか、高速で評価ループを回せるか ◦ （AIエージェントに限らないが）
• 評価結果をFew shotsに還流させて、フライホイールを作るのは一つの GOODパターンではないか • Who Validates the Validatorsなどの問題はある

終わり 

AIエージェント、”どう作るか”で差は出るか？ / AI Agents: Does the "...