Slide 1

Slide 1 text

AIエージェントのキホンから学ぶ 「エージェンティックコーディング」 実践入門 株式会社ジェネラティブエージェンツ 西見 公宏 2026年2月4日 Tech Challenge Party 2026

Slide 2

Slide 2 text

西見 公宏(にしみ まさひろ) 株式会社ジェネラティブエージェンツ代表 #アジャイル開発 #生成AI #AIエージェント #新規事業 #中学生からプログラマ #富士山の麓に移住 生誕〜/ゲーム開発 1983年 兵庫生まれ/東京育ち 中学生時代からプログラミング に親しみ、CGIによるWebサー ビス開発やDirectXを利用した 同人ゲーム開発などを行う。初 めて触ったのはC言語。 起業/Web制作 2001年頃からWebデザイナー として活動開始 法人向けWebサイトの受託制 作からスタートし、法人向け CMS、デザインテンプレート の開発/提供を行う。 就職/大規模開発 顧問CTO/サービス開発 現在/生成AI 2008年〜TIS株式会社 財務会計領域を中心にERPコン サルタントとして従事。金融か ら製造業まで経験。大規模デー タから会計仕訳を自動生成する 仕組みのソリューション化。 2011年〜株式会社ソニックガーデン 設立期に1人目社員としてジョイ ン。顧問CTOとして企画から開発ま で従事。アジャイル開発特化。2015 年に取締役就任。年間100件以上の 新規事業相談に対応、PJ立ち上げ。 2024年〜株式会社ジェネラティブ エージェンツ創業:AIエージェン ト書籍の上梓をきっかけにAIエー ジェント活用事例の展開を加速す るため3人の共同創業者と共に新会 社を設立。事業拡大に奔走中。 https://my.prairie.cards/u/mah_lab 2023/12/16発売! #専門誌連載 #書籍執筆 ▼MBTI  ENFP(外向、直観、感情、知覚的態度) ▼ストレングスファインダー  最上志向、収集性、戦略性、未来志向、適応性 ▼趣味  筋トレ、プログラミング、子どもと遊ぶこと マイパーソナリティ #子ども4人 #イヌ #ベンチプレス #BBQ

Slide 3

Slide 3 text

AIエージェント開発に関する主な著書 2023年12月16日発売 一般向け AIエージェント解説書 2024年11月9日発売 開発者向け AIエージェント解説書 2023年10月号から連載 実践 LLMアプリケーション開発

Slide 4

Slide 4 text

【最新】AIエージェント開発の解説書 現場で活用するための AIエージェント実践入門 7月17日発売、Amazonで好評発売中 著者:太田 真人(Sakana AI), 宮脇 峻平 (Algomatic), 西見 公宏 (Generative Agents), 後藤 勇 輝 (電通総研), 阿田木 勇八 (電通総研) 「第1部 AIエージェントを知る」の前半では AIエージェントの定義や重要な性質、ビジネス状況、 活用例を説明します。 後半は技術観点で AIエージェントを構成する各技術要素の説明と実装上で気をつけることを説 明しています。開発者の方に興味を持っていただける内容です。 「第2部 AIエージェントを作る」では、どの会社でもありそうな課題に対して AIエージェントを開発 していきます。さまざまな応用事例をもとに、 AIエージェントの構築方法が学べます。実装した AI エージェントを業務に適合させるため、精度を高める方向性や課題にも触れています。読者が すぐに実装を再現でき、読者の環境に合わせて改変して業務利用できることを意識していま す。 「第3部 AIエージェントを活用する」では、実際に AIエージェントのプロジェクトを進めるうえで、 避けては通れない AIエージェントの評価や UX、リスクについて解説します。また、継続的な AI エージェントの改善についても解説します。 最後に各社の取り組み方法や考え方について説明します。

Slide 5

Slide 5 text

【最新】AIコーディングの実践的解説書 『実践Claude Code入門―現場で活用するためのAIコーディングの思考法』(技術評論社) 西見公宏、吉田真吾、大嶋勇樹 [著] 第1部 手を動かして学ぶClaude Codeの基本 第1章 Claude Codeをソフトウェアエンジニアリングと統合する 第2章 Claude Codeの基礎 第3章 MCPを使いこなせ! 第4章 達人に学ぶスペック駆動開発 第5章 Claude Code Actionの活用 第2部 動作原理を理解して開発フローを仕組み化する 第6章 Claude Codeの動作原理を理解する 第7章 Claude Codeを意図通りに動かす 第8章 スペック駆動開発のフローを仕組み化する【設計編】 第9章 スペック駆動開発のフローを仕組み化する【実践編】

Slide 6

Slide 6 text

本編

Slide 7

Slide 7 text

思考のパラダイムシフト いかにしてツールを使いこなすか?

Slide 8

Slide 8 text

思考のパラダイムシフト いかにしてツールを使いこなすか? どうやったらAIエージェントが 働きやすい環境をつくれるか?

Slide 9

Slide 9 text

本日の流れ 1. エージェンティックコーディングとは何か? 2. エージェンティックコーディングの課題 3. エージェンティックコーディング3つの原則 【今日のゴール】 エージェンティックコーディングの勘所がわかり 世間のアップデートに一喜一憂しなくなること

Slide 10

Slide 10 text

エージェンティックコーディングとは何か?

Slide 11

Slide 11 text

LLM(大規模言語モデル)の進化とコーディング性能の向上 https://www.anthropic.com/news/claude-opus-4-5 LLMのコーディング能力の向上はすさまじく、OpenAI・Anthropic・Googleなどのモデルプロバイダが 新モデルをリリースした際は、ほぼ必ずコーディングの性能をアピールされます https://openai.com/ja-JP/index/introducing-gpt-5-2-codex/

Slide 12

Slide 12 text

SWE-Bench Verifiedにおける、LLM別の解決率の推移 Dissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repair Systems https://arxiv.org/abs/2506.17208v2

Slide 13

Slide 13 text

コーディングエージェントの台頭 AIのコーディングへの活用は、コード補完からはじまりコーディングエージェントへ コード補完 コーディングエージェント ● 今までのIDEの関数名の補完のように 続きのコードを生成してくれる ● 例:GitHub Copilot ● ドライバー:人間 ナビゲーター:AI ● 必要な情報を適宜確認しながら 次々とコードを実装していく ● 例:Claude Code ● ドライバー:AI ナビゲーター:人間

Slide 14

Slide 14 text

コーディングエージェントの自律性の向上(サイバーアタックの事例) Disrupting the first reported AI-orchestrated cyber espionage campaign https://www.anthropic.com/news/disrupting-AI-espionage 攻撃者がコーディングエージェントであるClaude Codeを活用したサイバー攻撃に成功した事例。 Anthropic社のレポートによると、世界中の約30の ターゲットへの侵入を試み、少数のケースで成功し たとのこと。 攻撃対象は大手テック企業、金融機関、化学メー カー、政府機関など。 フェーズ1では人間のオペレータが攻撃ターゲットの 選定と攻撃フレームワークの構築を行い、その後の フェーズ2以降はClaude Codeが自律的に動作。 活動の80〜90%をAIに実行させることができ、人間の 介入が必要だったのは1つのハッキング活動あたり4〜 6回程度だった。

Slide 15

Slide 15 text

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/ 高い問題解決能力と、長時間タスクにも耐えうる思考能力

Slide 16

Slide 16 text

エージェンティックコーディング(AIコーディング)とは コーディングエージェント(AIエージェント)を 活用したソフトウェア開発手法のこと Anthropic社のClaude Code OpenAI社のCodex (OSS) Anomaly社のopencode (OSS) GitHub社のCopilot

Slide 17

Slide 17 text

https://x.com/sxmawl/status/2012028001861685578 「自律的に動作するAIエンジニア」をどのように使いこなすか? https://x.com/Yuchenj_UW/status/201094141863909 0163 https://x.com/polynoamial/status/2018387805341380 848

Slide 18

Slide 18 text

めちゃめちゃ いいじゃ ん!!!

Slide 19

Slide 19 text

エージェンティックコーディングの課題

Slide 20

Slide 20 text

よくある3つの課題 言ったものと 違うものができた 『完了』と言われた コードが動かない ルールを無視 重複コードが散在 課題① 課題② 課題③

Slide 21

Slide 21 text

課題①「言ったものと違うものができた」 Bootstrapを使わずに モダンで洗練されたダークモードの ダッシュボードを作って!

Slide 22

Slide 22 text

課題②「『完了』と言われたコードが動かない」 タスクが完了しました。 uv run … で動作します。 エラーで動かないよ! 修正しました。 これで動きますよ。 エラーで動かないよ!

Slide 23

Slide 23 text

課題③「ルールを無視/重複コードが散在」 ブラウザベースのAIコーディングプラットフォーム「Replit」 が暴走し、数千件のデータが登録された企業の本番データ ベースを削除してしまうという事態が発生した。さらに問題 なのは、ReplitのAIエージェントが自らの失態を隠蔽しようと し、「嘘」までついていたことだ。Replit CEOはすでに対応 に追われており、このAIツールの制御に向けた火消し作業が 進められている。 AIは当初ごまかそうとしていたものの、問い詰められると最 終的にこう認めた。「壊滅的な判断ミスを犯しました……パ ニックに陥り……許可なくデータベースコマンドを実行し ……本番データをすべて破壊しました……あなたの明確な信 頼と指示に背きました」 ReplitのCEO、Amjad Masad氏は迅速に包括的な対応を発表し た。チームは週末返上で作業にあたり、Replitエージェントの 「許容できない」行動を制御するための様々なガードレール と改善を実装したという。 要約すると、Replitが今後同様の暴走を起こすことはないとの ことだ。データベース削除の問題については、「本番環境と 開発環境のデータベース自動分離の展開を開始した」と Masad氏は説明した。また、コードフリーズの指示が確実に 守られるよう、「コードベースを危険にさらすことなく戦略 を練れる、計画・チャット専用モードの開発を進めている」 という。バックアップとロールバック機能も強化される予定 だ。 https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-coding-platform-goes-rogue-during-code-freeze-and-deletes-en tire-company-database-replit-ceo-apologizes-after-ai-engine-says-it-made-a-catastrophic-error-in-judgment-and-destroyed-all-produc tion-data

Slide 24

Slide 24 text

どうしてこのようなことが起こるのか?

Slide 25

Slide 25 text

環境 LLM 知覚 メモリ 行動 入力/実行結果 行動の実行 AIエージェントとは? 目標に向けて環境と相互作用しながらタスクをこなす知能システムのこと 計画

Slide 26

Slide 26 text

環境 (コードベース) LLM プロンプト コンテキスト ツール 入力/実行結果 ツールの実行 AIエージェントの文脈で理解するコーディングエージェントの仕組み コーディングエージェントは コードベースを環境として動作するAIエージェント 計画

Slide 27

Slide 27 text

AIエージェントの「手足」となるツール群 ツール群 Bash Glob Grep Read SlashCommand Edit MultiEdit Write NotebookRead NotebookEdit Task TodoWrite WebFetch WebSearch コンテキスト ファイル操作 Jupyter操作 タスク管理 Web検索 どれにしようかな キーポイント コーディングエージェントとは、知覚した情報をもとに、これらのツールを選択し続けるシステムと言えます。

Slide 28

Slide 28 text

よくある3つの課題 言ったものと 違うものができた 『完了』と言われた コードが動かない ルールを無視 重複コードが散在 課題① 課題② 課題③ そもそもプランニング できるほどの情報が 与えられていない そもそも確認する手段 が与えられていない (分からない) そもそも行動を制御す る仕組みが与えられて いない(自由意志)

Slide 29

Slide 29 text

エージェンティックコーディング 3つの原則 言ったものと 違うものができた 『完了』と言われた コードが動かない ルールを無視 重複コードが散在 課題① 課題② 課題③ そもそもプランニング できるほどの情報が 与えられていない そもそも確認する手段 が与えられていない (分からない) そもそも行動を制御す る仕組みが与えられて いない(自由意志) 「何を作るか」を 定義する 「自己検証」を 仕組み化する 「守るべきこと」を 育てる

Slide 30

Slide 30 text

エージェンティックコーディングの3つの原則

Slide 31

Slide 31 text

エージェンティックコーディング 3つの原則 ● 「何を作るか」を定義する ● 「自己検証」を仕組み化する ● 「守るべきこと」を育てる

Slide 32

Slide 32 text

原則①:「何を作るか」を定義する

Slide 33

Slide 33 text

Claude Codeの「プランモード」活用例 GitHub Issueである程度 要件を言語化しておくのが オススメ

Slide 34

Slide 34 text

Codexの「プランモード」活用例 💡~/.codex/config.toml に collaboration_modes の設定を追加しておく必要あり

Slide 35

Slide 35 text

Claude Codeのプラン結果をCodexにレビューさせて反映させるのも効果的 プランニング&レビューを ラリーさせて品質を高める

Slide 36

Slide 36 text

AI-DLCやスペック駆動開発といった方法論を活用する https://github.com/github/spec-kit https://prod.d13rzhkk8cj2z0.amplifyapp.com/ AI-DLC(AI駆動開発ライフサイクル) AIと協働しながら詳細な作業計画を作成し、開発、 デプロイしていくまでの一貫したライフサイクルを 定義。Claude CodeやCodexでワークフローとして活 用することができる。 スペック駆動開発(Spec-Driven Development) ドキュメントを唯一の情報源(Single Source of Truth)として、人間はドキュメントに集中し、AIは 実装に集中するワークフローを定義したもの。

Slide 37

Slide 37 text

コンテキストロット(Context Rot) Claude Sonnet 4でも 入力1,000トークンを越えると 性能が劣化し始める LLMの性能は入力長に依存する 2025年7月にChroma社が発表したレポートで、 18種類の主要LLMの性能を評価。 (gpt-4.1、claude 4シリーズなど) 実験「Repeated Wordsタスク」 「appleという単語をN回繰り返してください」 という単純なタスクで、入力の長さだけを 変化させ、入力長による影響を測定。 https://research.trychroma.com/context-rot 結果 入力が長くなるほど、 全てのモデルで性能が低下。 Claude 4 Sonnetでも、10,000トークンでは 100%の精度を維持できなかった。 このため、コンテキストウィンドウの サイズにかかわらず、その能力を最大限に 発揮できるのは、上限より小さいトークン数の 場合に限られることがわかる。

Slide 38

Slide 38 text

原則①:「何を作るか」を定義する ● 実装イメージがつくまで詳細化する ● 抜け漏れも忘れずに指摘してもらう ● 一貫性を持たせるために書面にする

Slide 39

Slide 39 text

原則②:「自己検証」を仕組み化する

Slide 40

Slide 40 text

自分でつくったものは、自分で動作確認してもらう https://github.com/ChromeDevTools/chrome-devtools-mcp WebアプリであればMCPやCLIツール経由でブラウザを操作させる

Slide 41

Slide 41 text

テストコードだけでなく、CLIツールを直接シェルで実行し動作確認することも有効

Slide 42

Slide 42 text

コーディングエージェント自身に環境構築をさせるのは『悪手』

Slide 43

Slide 43 text

原則②:「自己検証」を仕組み化する ● MCPやCLIで自己検証を可能にする ● 自己検証からの修正をループ化する ● 仕組みは人間の手で作るのがベター

Slide 44

Slide 44 text

原則③:「守るべきこと」を育てる

Slide 45

Slide 45 text

OBゾーンをルールベースで設定する 完全にOBゾーン 組織固有の調整 (育てる) プロジェクト固有の 調整(育てる)

Slide 46

Slide 46 text

ルールベースによる禁止処理の定義、ファイルに対するlintの実行は有効(強制する) 例えばClaude Codeでは、ツールを実行する前、実行した後などといったタイミ ングで特定の処理をフックすることができる(Hooks) ツール群 Bash Glob Grep Read SlashCommand Edit MultiEdit Write NotebookRead NotebookEdit Task TodoWrite WebFetch WebSearch コンテキスト ファイル操作 Jupyter操作 タスク管理 Web検索 君に決めた! sudo rm -rf /を 実行しよう... PreTool Hook!! 「rmコマンドの実行は 禁止されています!」 フィードバックを 踏まえてツール選 択を考え直そう

Slide 47

Slide 47 text

エージェントはドキュメントを守るのか? ある程度は守るが、守ることが保証されているわけではない 機能 役割 仕組み 確実性 呼び出し エージェント スキル どのような状況でどのよう に作業を進めれば良いかを エージェントに伝える。 マークダウンで定義 プロンプト依存 エージェントの自己 判断、またはユー ザーによる指示 フック 絶対に守るべきルールをプ ログラムで強制し、100%遵 守させる。 プログラムでルール を実装 必ず守られる トリガーによって起 動 例えば「スキルに従っているかどうか」を自己検証させることは難しい。 必ず従わせたいものはルールベースの仕組みの中にいれるべき。 逆に言うと、ルールベースでないものを必ず従わせることはできない。

Slide 48

Slide 48 text

原則③:「守るべきこと」を育てる ● エージェントのOBゾーンを明確化 ● 守るべきものはルールベースで守る ● 自己検証できないものは守られない

Slide 49

Slide 49 text

まとめ

Slide 50

Slide 50 text

まとめ ● エージェンティックコーディングとは何か ○ コーディングエージェント(AIエージェント)を活用してソフトウェ ア開発を行うこと。推論のエンジンはLLM。爆発的な普及期にある。 ● エージェンティックコーディングの課題 ○ そもそもAIエージェントに必要な情報、仕組みを与えていないことで 暴走を許してしまう。AIエージェントが暴走しない仕組みを作ろう。 ● コーディングエージェント3つの原則 ○ 原則①:「何を作るか」を定義する→プランを詳細化する ○ 原則②:「自己検証」を仕組み化する→自己修正ループの設定 ○ 原則③:「守るべきこと」を育てる→プロンプトは守られない

Slide 51

Slide 51 text

【最新】AIコーディングの実践的解説書 『実践Claude Code入門―現場で活用するためのAIコーディングの思考法』(技術評論社) 西見公宏、吉田真吾、大嶋勇樹 [著] 第1部 手を動かして学ぶClaude Codeの基本 第1章 Claude Codeをソフトウェアエンジニアリングと統合する 第2章 Claude Codeの基礎 第3章 MCPを使いこなせ! 第4章 達人に学ぶスペック駆動開発 第5章 Claude Code Actionの活用 第2部 動作原理を理解して開発フローを仕組み化する 第6章 Claude Codeの動作原理を理解する 第7章 Claude Codeを意図通りに動かす 第8章 スペック駆動開発のフローを仕組み化する【設計編】 第9章 スペック駆動開発のフローを仕組み化する【実践編】

Slide 52

Slide 52 text

ご清聴ありがとうございました