新しいVibe Codingと”自走”について

新しい Vibe Codingと ”自走”について新しいVibe Codingと ”自走”について

本日の勉強会のテーマは「ハーネスエンジニアリング入門」

⽤意するもの 4 ‧スマートフォン ‧Claudeアプリ ‧GitHubアプリ https://www.irasutoya.com/2013/12/blog-post_7777.html たったこれだけ！

Vibe Coding - 1 5 https://www.irasutoya.com/2013/12/blog-post_7777.html GPT Proで作った仕様で依頼しよう！

Vibe Coding - 2 6 https://www.irasutoya.com/2013/12/blog-post_7777.html おまじないを書くぞ！

Vibe Coding - 3 7 https://www.irasutoya.com/2013/12/blog-post_7777.html 後は完成させてもらおう

Vibe Coding - 4 8 あとは完成するまで/goalを繰り返す！ - GitHubのレビュー結果をコピペして直してもらおう -
GitHub Actionsに⾚⾊が出たらコピペして直してもらおう - リリースに主導の⼿順が必要な場合でも⼿順をすべて教えてもらおう https://www.irasutoya.com/2013/12/blog-post_7777.html

Vibe Codingはアンチパターンではなかったのか

Vibe Coding =「コーディングレスのプログラミング」 - 原義Vibe Coding (Andrej Karpathy提唱) - キーボードレス・音声での指示、全てを承認
- Vibe Coding - Agentに委ねてプロセス(How)に介入しない - 生成されたコードは読まない - 要求を指示し続ければバグはいつか直る 11 Vibe Codingとは

”Agentが活⽤されればVibe Coding”という派閥もある Vibe Codingの定義 12 広義Vibe Coding Agentを利⽤した開発楽観的な運⽤悲観的な運⽤
Vibe Coding Agentic Coding

Agentic Codingとは「反Vibe Coding」としての、Agentと共同するスタイルの開発 > Agentに委ねてプロセス(How)に介⼊しない - ⇔ チームのプロセスでAgentに開発させる >
⽣成されたコードは読まない - ⇔ エージェントの⽣成物もメンバと同様にレビュー > 要求を指⽰し続ければバグはいつか直る - ⇔ エージェントと共にバグの根拠を探索する 13

- Step by Step - Chain of Thought, Plan Mode,
Spec-Driven Development - Context Engineering - AGENTS.md, Agentic Search, MCP, Agent Skills - Developer's Best Practices - Git, Everything as Code, CI/CD, DevContainer Agentic Codingの⼀例 14

LLMモデルの転換点 https://x.com/karpathy/status/2026731645169185220 Simon Willison Djangoの共同開発者 > (私訳)2025年11 ⽉の GPT-5.2 と
Opus 4.5 は、本当に転換点を表しているように感じます。

参考：ベンチマーク(SWE-bench Verified) https://www.anthropic.com/news/3-5-models-and-computer-use https://www.anthropic.com/news/claude-opus-4-5 https://openai.com/ja-JP/index/introducing-gpt-5-2/ 2024/10 SWE-bench Verified：49% 2025/11 SWE-bench
Verified：80%

- ベンチマークの変化 - 2025前半 : 知識‧推論中⼼ - 2025後半- :コーディング性能、端末操作性能
- なぜ端末操作‧SWE偏重か - ビジネスとしての需要が明確 - ⾃⾝の⾃⼰改善ループの加速 - GPTの毎⽉リリースベンチマークの遍歴(2025-2026) 17 Claude Fable 5 and Claude Mythos 5 https://www.anthropic.com/news/claude-fable-5-mythos-5

端末操作＋SWE偏重＝⾃⾛性能 https://x.com/karpathy/status/2026731645169185220 (和訳) > (2026年)2⽉以前は基本的に機能していなかったのに、それ以降は基本的に機能しています。モデルの品質、⻑期的な⼀貫性、そして粘り強さが⼤幅に向
上し、⼤規模で⻑時間のタスクを⼒強くこなすことができます。 Andrej Karpathy Vibe Codingの提唱者

19 Ralph Wiggum Loop - 「ザ‧シンプソンズ」のRalph Wiggumのように”諦めない”実装 - Ralph Wiggum
Loopの最⼩系 - AI AgentへPromptを毎回渡す - タスクが完了するまでLoop - Loop毎にContextを初期化 - ⾃⾛に向くタスク - 完了定義が曖昧なタスク - ⼤量のToDo消化 https://github.com/langchain-ai/deepagents/tree/main/examples/ralph_mode

20 /goalコマンド Ralph Wiggum Loop相当、つまり”⾃⾛”の実装 - Codex CLIの場合 - 独⽴したスレッドで状態管理
- ライフサイクル(pause/resume/clear) や予算管理 - Claude Codeの場合 - タスク終了を判定するStop hook相当を内蔵 - セッション内で達成するまで⾃動継続

boris tane⽒の想定する新しいSDLC The Software Development Lifecycle Is Dead https://boristane.com/blog/the-software-development-lifecycle-is-dead/

strongDM社が構築した「ソフトウェア⼯場」 How StrongDM’s AI team build serious software without even
looking at the code https://simonwillison.net/2026/Feb/7/software-factory/ > We built a Software Factory: non-interactive development where specs + scenarios drive agents that write code, run harnesses, and converge without human review. [...] — 私たちはソフトウェアファクトリーを構築しました。これは、仕様とシナリオに基づいてエージェントがコードを記述し、ハーネスを実⾏し、⼈間によるレビューなしで収束する⾮対話型開発です。

”⾃動運転レベル４”の到来副操縦士(Copilot) レベル０ AI支援なしレベル1 AI支援 Chat レベル2 AI支援
補完＋Chat レベル3 Agent 人間が支援レベル4 Agent 人間の支援なしレベル5 実装の完全自動生成操縦士(Pilot) ドライバー席助手席後部座席人間の支援なしでの長時間自走 23 2025/02 2026/02

自走・委任の結果、「Vibe化」したAgentic Coding - Agentに委ねてプロセス(How)に介入しない - Ralph Wiggum Loop, /goal -
生成されたコードは読まない - ユーザーハーネス、「ソフトウェア工場」 - 意図を指示し続ければバグはいつか直る - Loop Engineering：Agentにプロンプトするループの設計 - モデルの進歩、ユーザーハーネス 24 新しいVibe Codingについて

自走・委任の結果、「Vibe化」したAgentic Coding - Agentに委ねてプロセス(How)に介入しない - Ralph Wiggum Loop, /goal -
生成されたコードは読まない - ユーザーハーネス、「ソフトウェア工場」 - 意図を指示し続ければバグはいつか直る - Loop Engineering：Agentにプロンプトするループの設計 - モデルの進歩、ユーザーハーネス 25 新しいVibe Codingについて

「ハーネス」とは何だろうか？ 26

> TLDR: Agent = Model + Harness. 27 AIエージェントをハーネス(⾺具)と呼ぶ⼈たち The
Anatomy of an Agent Harness https://blog.langchain.com/the-anatomy-of-an-agent-harness/

> (私訳)私はこれを「ハーネスエンジニアリング」と呼ぶようになりました。これは、エージェントがミスを犯した際に、そのエージェントが⼆度と同じミスを犯さないように、時間をかけて解決策を設計するという考え⽅です。 28 エージェントのサポートをハーネス(⾺具)と呼ぶ⼈たち My
AI Adoption Journey https://mitchellh.com/writing/my-ai-adoption-journey Mitchell Hashimoto HashiCorpの共同創業者

”ハーネス”というバズワードを読み解くハーネスは2層に分けられる - 内部ハーネス - Modelの外側 - Agent = Model
+ 内部ハーネス - 外部ハーネス - 内部ハーネスの外側 - ハーネス上のハーネス 29 Harness engineering for coding agent users https://martinfowler.com/articles/harness-engineering.html

”ハーネス”というバズワードを読み解くハーネスのスコープは⼤きく2つに分けられる - 内部ハーネス - LangchainやAnthropicが語るハーネスエンジニアリング - AIエージェントにおけるLLMモデル「以外」の実装 - ≒
エージェントの作り⼿側が考慮するハーネス - 外部ハーネス - OpenAIやMitchell Hashimotoが語るハーネスエンジニアリング - AIエージェントが同じミスをしないように、解決策を設計 (Mitchell Hashimoto) - ≒ エージェントの使い⼿側が考慮するハーネス 30

「内部ハーネス」は使い⽅を理解すればいい 31 Scaling Managed Agents: Decoupling the brain from the
hands https://www.anthropic.com/engineering/managed-agents

使い⼿側は「外部ハーネス」を育てる必要があるハーネスのスコープは⼤きく2つに分けられる - 内部ハーネス - LangchainやAnthropicが語るハーネスエンジニアリング - AIエージェントにおけるLLMモデル「以外」の実装 - ≒
エージェントの作り⼿側が考慮するハーネス - 外部ハーネス - OpenAIやMitchell Hashimotoが語るハーネスエンジニアリング - AIエージェントが同じミスをしないように、解決策を設計 (Mitchell Hashimoto) - ≒ エージェントの使い⼿側が考慮するハーネス 32

暗黙知の体系化 2025年からAIエージェントユーザの経験的なベストプラクティスから体系⽴てられた知識たち - プロンプトエンジニアリング - 適切な指⽰を与える - コンテキストエンジニアリング -
適切な指⽰と⽂脈を与える - ハーネスエンジニアリング - 適切な指⽰と⽂脈を与える環境を整備する 33

34 ハーネスエンジニアリングとは何なのだろうか - OpenAIの定義：⼈間を介在させないエンジニアリング - OpenAIの開発チームによる実験 - ハーネスエンジニアリング：エージェントファーストの世界における Codex
の活⽤ - > ⽣成されたコードは、必ずしも⼈間のスタイルの好みに合致するとは限りませんが、それでも構いません。出⼒結果が正しく、保守可能であり、将来の実⾏エージェントが読み取れる限り、基準を満たしています。

35 ハーネスエンジニアリングの構成要素 Harness engineering for coding agent users https://martinfowler.com/articles/harness-engineering.html

ハーネスエンジニアリングは 2種類のプロセスに分けられる - feedforward(Guide)： - ⽣成するために必要な情報 - feedback(Sensors) ： -
⽣成物の評価に必要な情報 36 feedforward / feedback Harness engineering for coding agent users https://martinfowler.com/articles/harness-engineering.html

再掲：Vibe Coding の”おまじない” 37 https://www.irasutoya.com/2013/12/blog-post_7777.html

エージェントで⽣成するために必要な情報 ≒ Context Engineering 38 feedforward(Guide)

39 Context Engineering：書く / 選ぶ / 縮める / 分ける技術
Context Engineering https://blog.langchain.com/context-engineering-for-agents/

40 ワークフロー管理の例：OpenSpec https://github.com/Fission-AI/OpenSpec/discussions/294

エージェントの⽣成物の評価に必要な情報 ≒ DevOps Pipeline + Debug 41 feedback(Sensors)

- フィードバック⾃体の正確性 - 各種ツールの設定誤り、フリーキーテスト - フィードバックの過不⾜ - 情報不⾜もそうだが過剰なコンテキストは課題を隠す - ツールの対応状況‧⾔語毎のエコシステムの成熟度
42 feedbackの課題

- Feedbackの要件が具体化されている場合、それ⾃体をツール化し静的チェックとして実装できる - 既存のLinterがプラグインに対応していればそこから - プロジェクト⽤ツールであれ
ば実装も2-3⽇くらいで8割⽅は作成可能 43 ⾃作Sensorについて

- Python版”Knip” - uvx chokkinで未使⽤ファイル‧ 依存‧公開シンボルを検出 (到達可能性つき依存検出 ) - v0.1版を3⽇でリリース実績
- https://github.com/watany-dev/chokkin 44 実装例：Chokkinについて https://knip.dev/

”⾃⾛”への⼼理的ブロッカー 45

46 ⾃⾛を巡るトラブル https://atmarkit.itmedia.co.jp/ait/articles/2604/30/news046.html https://gigazine.net/news/20260223-aws-ai-outage/

47 ⾃⾛を守る多層防御 - エージェントにも寄るが、概ね以下の多層防御を考える - 1. プロンプト(AGENTS.md、CLAUDE.md) - 2. Permissions(Allow、Deny、Ask)
- 3. Hook(Pre-ToolUse) - 4. 環境分離(Sandbox、Dev Container) - 体系的な⼊⾨には以下の資料が役に⽴つ - Claude Code を安全に使おう勉強会 - https://speakerdeck.com/masahirokawahara/claude-co de-security-basics

48 エージェントの承認とどう向き合うか Claude Codeの例 - ユーザの⼿動承認(Manual) だと⾃⾛を律速する - 承認を無視(Bypass)する場合は隔離環境(Sandbox)が必須
- PermissionsをLLM Judge する機能(Auto) How we built Claude Code auto mode: a safer way to skip permissions https://www.anthropic.com/engineering/claude-code-auto-mode

49 実装例：Hookでの危険操作抑⽌⾃作ツールの紹介 - 下のような危険動作を Tool実⾏前に静的検査し、 Agentへフィードバック - rm -rm
- Curl <url> | bash - .env、.awsなどの Credential読み取り - マルチエージェント対応 - Claude Code, Codex - GitHub Copilot CLI - Cline CLI, Kiro CLI, Cursor CLI ptuf https://github.com/watany-dev/ptuf

50 Sandbox環境 - 簡易に始めるなら以下 - Dev Container - WebIDE(e.g. GitHub
Workspaces) - Devinの様にSandbox環境ごと提供する事業者も増えた - 冒頭の「スマホアプリ」の動作環境 - Claude Code on the Web - Kiro Web(Preview) - Cursor Cloud Agents

51 まとめ - “⾃⾛”を前提に、Vibe Codingの定義が拡張している - 問題なく⾃⾛させるにはハーネスエンジニアリングが前提になっている - ロボット掃除機を動かす前の⽚付け
- ⾃⾛のハードルを以下に取り除くか - エージェントに設定できる多層防御モデルの理解

新しいVibe Codingと”自走”について

新しいVibe Codingと”自走”について

More Decks by watany

Other Decks in Technology

Featured

Transcript