Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIエージェント、”どう作るか”で差は出るか? / AI Agents: Does the "...
Search
r-kagaya
January 15, 2026
Programming
0
220
AIエージェント、”どう作るか”で差は出るか? / AI Agents: Does the "How" Make a Difference?
AI Agent 大勉強会 in Tokyo ~ 2026 Winter ~の登壇資料です。
https://almondo.connpass.com/event/377152/
r-kagaya
January 15, 2026
Tweet
Share
More Decks by r-kagaya
See All by r-kagaya
Context is King? 〜Verifiability時代とコンテキスト設計 / Beyond "Context is King"
rkaga
10
1.5k
AIエンジニアリングのご紹介 / Introduction to AI Engineering
rkaga
8
3.6k
MCPでVibe Working。そして、結局はContext Eng(略)/ Working with Vibe on MCP And Context Eng
rkaga
5
3.1k
一人でAIプロダクトを作るための工夫 〜技術選定・開発プロセス編〜 / I want AI to work harder
rkaga
14
3.4k
テストから始めるAgentic Coding 〜Claude Codeと共に行うTDD〜 / Agentic Coding starts with testing
rkaga
19
8.2k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
58
41k
CursorとDevinが仲間!?AI駆動で新規プロダクト開発に挑んだ3ヶ月を振り返る / A Story of New Product Development with Cursor and Devin
rkaga
7
4.1k
データと事例で振り返るDevin導入の"リアル" / The Realities of Devin Reflected in Data and Case Studies
rkaga
3
5.8k
AIコーディングエージェントを 「使いこなす」ための実践知と現在地 in ログラス / How to Use AI Coding Agent in Loglass
rkaga
4
3.5k
Other Decks in Programming
See All in Programming
生成AI時代を勝ち抜くエンジニア組織マネジメント
coconala_engineer
0
39k
今こそ知るべき耐量子計算機暗号(PQC)入門 / PQC: What You Need to Know Now
mackey0225
3
220
LLMで複雑な検索条件アセットから脱却する!! 生成的検索インタフェースの設計論
po3rin
4
1.1k
16年目のピクシブ百科事典を支える最新の技術基盤 / The Modern Tech Stack Powering Pixiv Encyclopedia in its 16th Year
ahuglajbclajep
3
670
Giselleで作るAI QAアシスタント 〜 Pull Requestレビューに継続的QAを
codenote
0
340
CSC307 Lecture 01
javiergs
PRO
0
670
DevFest Android in Korea 2025 - 개발자 커뮤니티를 통해 얻는 가치
wisemuji
0
180
.NET Conf 2025 の興味のあるセッ ションを復習した / dotnet conf 2025 quick recap for backend engineer
tomohisa
0
110
ゆくKotlin くるRust
exoego
1
200
0→1 フロントエンド開発 Tips🚀 #レバテックMeetup
bengo4com
0
480
Claude Codeの「Compacting Conversation」を体感50%減! CLAUDE.md + 8 Skills で挑むコンテキスト管理術
kmurahama
1
720
生成AIを利用するだけでなく、投資できる組織へ
pospome
2
440
Featured
See All Featured
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.6k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
46
Design in an AI World
tapps
0
120
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
130
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.8k
Side Projects
sachag
455
43k
sira's awesome portfolio website redesign presentation
elsirapls
0
110
More Than Pixels: Becoming A User Experience Designer
marktimemedia
2
280
Site-Speed That Sticks
csswizardry
13
1k
We Have a Design System, Now What?
morganepeng
54
8k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
Transcript
2026年1月15日 Asterminds株式会社 r.kagaya AI Agent 大勉強会 in Tokyo 〜2026 Winter〜
AIエージェント、”どう作るか”で差は出るか?
2022年に株式会社ログラスに入社 経営管理SaaSの開発、開発生産性向上に取り組んだのち、 生成AI/LLMチームを立ち上げ、新規AIプロダクトの立ち 上げに従事、その後、25年8月に独立・現職 翻訳を担当したAIエンジニアリングが オライリージャパンより出版 Asterminds(アスターマインズ)株式会社 共同創業者・CTO r.kagaya(@ry0_kaga) 自己紹介
Verifiabilityを担保して、 自動評価パイプラインで、 10倍の試行を回したい...! 今日の内容
エージェントの「振る舞い」を設計する
エージェントの「振る舞い」を設計する AIエージェントは、環境とツールによって規定される by オライリーAIエンジニアリング 与えられた環境とツールの中で、どう動くか? 状況 判断 行動 e.g. ユーザーの指示、現在
の状態 e.g. どのツールをいつ使う か e.g. ツールの実行
エージェントの「振る舞い」を設計する AIエージェントは、環境とツールによって規定される by オライリーAIエンジニアリング 与えられた環境とツールの中で、どう動くか? 状況 判断 行動 e.g. ユーザーの指示、現在
の状態 e.g. どのツールをいつ使う か e.g. ツールの実行 「ファイル操作を求められたら、 まず影響範囲を確認する。 3ファイル以上に影響するなら、 実行前にユーザーに確認を取る。」
モデルはIQの高い天才 but... コンテキストがなければ、モデルは適切に動けない可能性 「できること」だけではなく、手順まで構造化して渡した方がコンテキストリッチ AIエージェント製品に求められるのは、大抵はExpert 賢さだけでなく、ドメイン知識・手順を保持すること
Tool Useの限界 Toolを渡すだけでなく、そのToolをいつ・どう使うか?までセットで構造化 実装方法に限らず、「何ができるか」だけではなく、「どう振る舞うか」の実現
振る舞いを定義したら、 次はそれをどう評価するか?
エージェントの「評価」を設計する 「正しく動いた」とは何か?を定義する 評価なきエージェントは、テストなきコード、振る舞いをどうにか測れる形に 評価軸 測り方 タスク完了率 ツール選択の適切さ 無駄なステップ 安全性 検索結果との一致
最短経路との比較 不要な実行の回数 確認なし操作の有無
評価ループを回す 評価は1回で終わりではない、ループで回す概念 振る舞い定義/修正 実行 評価 改善点特定
Anthropicのエンジニアリングチームも 言ってます。 「評価から始めよ」
でも、このループが回ると 何が実現できそうなのか?嬉しいのか?
Verifiability(検証可能性)
Vibe Coding(という名称)の生みの親によるVerifiability(検証可能性) AIの答えや行動が「正しいかどうか」を、自動的に判定できるか? Verifiableなタスクは、AIは加速度的に学習・進化できる 引用: https://karpathy.bearblog.dev/verifiability/
Verifiability(検証可能性) 検証できることはすべからず自動化・改善サイクルが回せる(意訳) • Software 1.0: 指定できることを自動化する • Software 2.0: 検証できることを自動化する
引用: https://karpathy.bearblog.dev/verifiability/
Verifiability(検証可能性)なタスクの3条件 以下3つの特性を満たせば、自動化されたフィードバックループを回せる 元記事は、AIの学習に寄った内容だが、参考にできる点は多々ありそう Resettable Efficient Rewardable 何度でも最初からやり直せ るか? タスクを繰り返し、初期状態 から何度もやり直せること
AIは試行錯誤を繰り返して、 フィードバックサイクルを回 せる 短時間で大量の試行ができ るか? タスクを高速に反復実行で きること。 膨大な量の練習やサイクルを 回せることが最適化の高速 化が期待できる 結果の良し悪しを自動でスコ アリングできる? タスクの結果を明確なスコア や基準で自動的に評価でき ること AIは何が良い結果かを学習 できる
従来は「こう動け」とコードで指定した エージェントは「こう動いたら正解」と評価 で検証する
AIエージェント開発(だけに限らないが)は Verifiabilityそのものに感じる
Verifiabilityを担保して、 自動評価パイプラインで、 10倍の試行を回したい...!
具体的になにができる?
参考: Anthropic - Bloom AIモデルが「特定の振る舞い」をどの程度起こすかを、AIエージェントを使って 自動でテスト・評価するオープンソースフレームワーク「Bloom」 引用: https://www.anthropic.com/research/bloom
評価を回すには? 何をもって正解とするか?どういうシナリオか?どう図るか?どう実際に実行す る?
最近取り組んでいること 評価から改善のサイクルを半自動で回す
最近取り組んでいること 評価から改善のサイクルを半自動で回す ブラウザ操作と評価の 半自動化
最近取り組んでいること 評価から改善のサイクルを半自動で回す 正解の流れとの差分判定と 近づけるための自動修正
最近取り組んでいること 評価から改善のサイクルを半自動で回す プロダクト上でFew shotsを 動的に差し替える機能
Claude CodeとSkills使ったブラウザ操作テストの自動化 Skillsに加えて、理想のシナリオもディレクトリ内管理 それを元にひたすらAIでAIのテストを実施。TTS Scriptsなども整備して、音声 対話もある程度自動で回せるようにしてる(コストかかるが..) よくやるのは、多言語対応の動作確認 ベトナム語・中国語の確認など
ブラウザ操作の自動化 ブラウザ操作の自動化、最近はVercelのAgent browserを利用 • CLI でブラウザを操作するツール • Playwright MCPと比較してコンテキスト消費を抑えることが可能 e.g.
振る舞いの修正であれば、自動で10回テストさせて再現率をチェックする
評価から改善へ(Flywheel) ゴールデンデータセットや評価基準が存在したら、一定の試行は自動化可能 1. 実行->実行結果/履歴を収集 2. 「何が良かった?悪かった?」をLLMにJudgeさせる 3. Skills/プロンプトの修正案を生成 4. 修正データを動的にプロンプト・Few-shots等に反映
5. 再評価 → バックグラウンドで回して、人間は結果/レポートを確認する
Automated Design for Agent 自動でAIエージェント・AIワークフローを作成する取り組み例はちらほらあり、 読み物として面白い。From AI to AIの世界
「動くエージェント」は誰でも作れる時代 but 作り方で差が出る時代? とは言え、甘めに見積もっても一部動作確認・修正作業を半自動化できるぐらい 先は長いが、現状の仕組みでも裏側でAIが操作させることで、その分だけ自分の 手は空いてる ループをいかに早く・大量に回せるかで開発スピードにも顕著に差がつくか?
評価駆動の改善ループ高速化が進み、 開発速度に顕著に差が出る余地はあるか?
再掲 人間がやるのはここだけになるのが一つの理想? 何をもって正解とするか?どういうシナリオか?どう図るか?どう実際に実行す る?
とはいえ課題は色々
一つはシミュレータ・評価自動化AIの 評価は誰がやるか? (監視員を監視する監視員の世界)
まとめ
まとめ • モデルを業務の専門家にするためのプロダクト設計 • AIプロダクトには評価は不可欠、どうせならVerifiabilityを活かせるか? ◦ 振る舞いをモジュールとして設計できるか、検証可能な評価軸を設計で きるか、高速で評価ループを回せるか ◦ (AIエージェントに限らないが)
• 評価結果をFew shotsに還流させて、フライホイールを作るのは一つの GOODパターンではないか • Who Validates the Validatorsなどの問題はある
終わり