Skill Creatorの技術設計と動作原理

Skill Creatorの技術設計＆動作原理エージェントが新たなスキルを自律的に獲得し、確実に実行できる理由 Presented by MOAI
Lab

現代のエージェント開発の限界と課題アドホックなプロンプトの限界エージェント開発の初期段階では、システムプロンプトや命令の『継ぎ足し』が行われがちです。しかし、命令が増大するにつれ、LLMが指示を無視したり、過去の命令と矛盾した行動をとる『指示ドリフト』が頻発します。コンテキスト制限と指示の希釈プロンプトの肥大化は、LLMの注意力を薄れさせ、タスク精度を著しく低下させます。
車輪の再発明とハルシネーション計算や正確な手続きをLLMに推論させると、もっともらしい嘘（ハルシネーション）を語り始めます。 2

Skill Creator の革新的なパラダイム単なるプロンプトから「スキル」へ私たちは、エージェントへの直接指示という密結合な開発から、機能ごとに分離された疎結合な『カプセル化』へと移行します。機能、実行スクリプト、アセットを1つのディレクトリにまとめ、必要に応じてエージェントにロードさせるのが『スキル』です。
自律的な獲得ループ人間が詳細なコーディングをすることなく、対話を通じてエージェント自身がスキルを設計・構築します。ポータブルなエコシステム生成されたスキルは .skill 形式でパッケージ化され、他のエージェントに一瞬で配布・インポート可能です。 3

「スキル (Skill)」を構成する4大要素 SKILL.md (振る舞いの定義) トリガー条件、詳細なデザイン原則、注意すべきアンチパターンが記述された、エージェントのための『マニフェストドキュメント』。 scripts/ (オフロードコード) 計算やデータ操作など、LLMが本質的に苦手な手続き型処
理を肩代わりするPythonやJavaScriptなどの実行コード。 references/ (仕様・知識ベース) APIスキーマ、仕様書、ドキュメントなど。通常時はコンテキストを節約し、必要な場合のみエージェントが参照する。 assets/ (一貫性アセット) テンプレート、静的ロゴ、固定データ、共通フォントなど、出力物の品質を一貫させるために事前定義されたアセット群。 4

「オンデマンド・ロード」のメリットコンテキスト効率の極大化エージェントにすべてのスキルを常時記憶させておく必要はありません。ユーザーの入力意図を検知した瞬間のみ、特定のスキルフォルダがロードされ、タスク完了とともにアンロードされることで、コンテキストの圧迫とコストを最小化します。ロスト・イン・ザ・ミドルの回避コンテキストが極限まで絞り込まれるため、LLMの集中力は
『ロードされた特定のルール』にのみ注がれます。機能の衝突（衝突バグ）の防止スキル同士の競合が発生しないため、エージェントの挙動が常に極めてクリーンに保たれます。 5

P A R T 0 2 スキル定義 (SKILL.md) の解剖エージェントの頭脳を規定するドキュメント設計のすべて

メタデータ（フロントマター）の設計仕様 YAML形式による厳格な定義 SKILL.md の最上部には、エージェントのメタシステムが読み取るための YAML フロントマターを定義します。ここにはスキルの名前、ライセンス、そして何よりも重要な『description』が格納され、これがス
キルのエントリーポイントとなります。 name: システム識別子システムがスキルを識別し、フォルダパスや実行権限を関連付けるためのユニークな小文字のID。 description: トリガー条件エージェントが『このスキルをロードすべきか』を判定するための最重要情報（次のスライドで詳述）。 7

説明文（Description）の極限の役割トリガー判定の唯一のトリガー description は単なる説明書きではありません。エージェント自身のシステムプロンプトの最上部に常にインポートされ、ユーザーの曖昧な指示やニアミスな要求に対して、このスキルを起動すべきかどうかのルーティングに使用されます。「おせっかい」な設計の推奨ユーザーが直接スキルを指定しなくても、関連するタスク（
typo、ファイル拡張子、カジュアル指示）で自律起動するよう強気に書く。非トリガーガードの設定余計な起動を防ぐため、キーワードが類似していてもロードしてはならない『除外条件』も記述する。 8

クイックリファレンスとワークフロー設計迷わせないためのナビゲーションスキルがロードされた直後、エージェントが最初に行動すべきルートを規定します。『どのスクリプトをどの引数で叩くか』『どのドキュメントを真っ先に読み込むべきか』が簡潔なテーブルや箇条書きで示され、エージェントを迷わせません。コマンド実行指示の統一 python3
scripts/xxx.py --arg のように、実行コマンドの絶対パスと必要な引数の形式を明記する。スキーマへの依存関係定義 scripts実行前に references/ の JSONスキーマでパラメータが合致しているか確認するルールを敷く。 9

デザイン原則とルール（Design Guidelines）「超おせっかい」な品質の言語化単にタスクをこなすだけでなく、出力物の『美しさ』や『プレミアム感』を保証するための詳細な命令群です。『原色の赤・青・緑は使用せず、洗練されたダークテーマ配色を用いること』『フォントは Georgiaを使用すること』など、極めて詳細かつ厳格なルールを書き込みます。
AI Slop (安直な出力) の排除 AIがよく出力しがちな凡庸なデザイン（グラデーション下線や無駄なアイコン配置）をルールレベルで禁止する。エッジケースへの対応規定データにマイナス値がある場合、日本語フォントがインストールされていない場合など、エラーを防ぐ先回りルールを記述。 10

QA（クオリティ・アシュアランス）の規定セルフ検証のための自己テスト定義エージェントがアウトプットを生成した後に、自律的にそれをダブルチェックするための基準（アサーション）を規定します。エージェントは自身で markitdown を実行して出力にプレースホルダーが残っていないか、文字溢れがないかを自己チェックします。
検証用コマンドの記述 python3 -m markitdown output.pptx のような、チェックに使用する検証ツールの起動手順を包含。ビジュアルアサーションの定義『文字サイズはタイトルが36pt以上、本文は14pt以上で、重なりがないこと』などの厳格な視覚検証基準。 11

SKILL.md のアンチパターンと失敗事例抽象的な指示のみの記述『綺麗に可視化してください』といった抽象的な指示は、 LLMの気まぐれな解釈を招き、品質を著しく低下させます。具体的なフォント、カラー、サイズを指定すべきです。スクリプト実行手順の欠落 scripts/配下にスクリプトがあっても、SKILL.mdにその使い方が無ければエージェントは忘れてしまい、自力でプログラミングしてバグを生み出します。
エッジケース対策の未記入空白データや文字化け対策が書かれていないと、特殊なデータが入力された瞬間にスキルがクラッシュし、タスク全体の失敗に直結します。トリガー条件が弱すぎる description が曖昧だと、無関係なタスク（PDF変換など）で無駄に起動し、エージェントのコンテキストと実行リソースを無駄に浪費します。 12

P A R T 0 3 支援スクリプトの動作原理 LLMの限界をプログラムコードで超越する技術設計

スクリプトの最大の役割：ロジックのオフロード知性と計算の役割分担 LLMは優れた知性（Contextual Intelligence）を持っていますが、計算、厳密な手続き、大量データのソートなどのロジック（Logical Computation）は本質的に苦手です。 scripts/ 配下のコードは、LLMが一番やりたがらない『作業』を引き受け、エージェントには『ロ
ードと判断』のみを集中させます。確実性の担保 (Determinism) コード化された処理は常に100%同じ結果を返し、ハルシネーションの付け入る隙を完全に消し去ります。パフォーマンスの最適化 PandasやPillow、Sharpなどのネイティブライブラリを直接実行し、LLMによるテキスト生成よりも何十倍も高速に処理します。 14

scripts/quick_validate.py の仕様スキルの文法・構造チェッカースキル開発の最初の門番として機能するバリデーションスクリプトです。 SKILL.md が正しい YAML フロントマターを持っているか、必須セクション（Quick
Reference, QA, Design Ideas等）が存在するかを瞬時にパースして確認します。 YAML構文エラーの即時検知フロントマター内のタイポやインデントズレをパースエラーとして検知し、ロード不能になるのを防ぎます。依存アセットの存在確認 SKILL.md内で指定されているスクリプトファイルが、実際に scripts/ 内に存在するかをマッピングします。 15

scripts/run_eval.py の動作メカニズムダブルラン評価のテストエンジンスキルの真の価値を測定するための、最も重要なテストランナーです。 evals/evals.json に定義された各テストプロンプトを読み込み、同じ入力に対して『スキルをインポートして実行した場合 (with_skill)』と『イン
ポートせずデフォルトで実行した場合 (without_skill / baseline)』の2種類を並行実行します。成果物の独立した出力 with_skill/ と without_skill/ の別々のフォルダに生成された成果物HTMLや画像を出力します。実行メトリクスのトラッキング各実行におけるトークン消費量、APIリクエスト回数、所要時間（ミリ秒）を正確に計測し保存します。 16

scripts/aggregate_benchmark.py の集計定量的なアサーション合否の集計各ランの完了後、実行されたすべてのテストケースの結果を統合・集計するスクリプトです。各ラン配下の grading.json (アサーション合否) と timing.json
をスキャンし、最終的なスコアと改善率（デルタ値）を算出します。 benchmark.json の生成定量的な通過率、平均実行時間、消費トークンを構造化した JSONファイルを合成します。 benchmark.md の生成集計データを人間がパッと見て理解できるようにマークダウンのテーブル形式に整形して出力します。 17

generate_review.py と eval-viewer 人間中心のビジュアル比較ビューアデータ集計が終わると、このスクリプトが超高機能な HTML ビューア（review.html）を合成出力します。このビューアは、ユーザーがブラウザ上で直接
with_skill と without_skill のビジュアル出力を切り替えて比較し、その場で各ケースにコメントを書き込めるように設計されています。スタンドアロン HTML (--static) サーバーを起動しなくても、ブラウザで直接クリックして完璧に動作する静的HTMLを出力可能。フィードバックのエクスポートすべてのコメントを集約し、ワンクリックで feedback.json をダウンロードするクライアントサイドロジックを搭載。 18

scripts/run_loop.py の自動化ループ自己修正ループを回すメインランナー開発全体のイテレーションを統括するオーケストレータです。 1. スキルの検証 (quick_validate) 2. テスト実行
(run_eval) 3. ベンチマーク集計 (aggregate_benchmark) 4. 評価ビューア生成 (generate_review) をワンステップで連続実行し、開発ループを完全に自動化します。イテレーション管理の自動化コマンド一発で全テストを再実行し、前回からの改善スコアを比較出力します。最適化処理の連動 description の自動最適化プロセスと連携し、最適解が出るまでループを回し続けます。 19

scripts/package_skill.py による最終出力スキルのプロダクション・パッケージ化すべてのイテレーションが完了し、アサーションを100%クリアしたスキルをプロダクション環境用にパッケージングするスクリプトです。開発用の evals/ やテストデータを綺麗にフィルタ
リングし、必要なアセットとコードだけを圧縮して極めてコンパクトな .skill アーカイブファイルを生成します。最終クイックバリデーションの連動パッケージ化の直前に、再度 quick_validate を自動実行し、破損が無いことを再確認する安全設計。クリーンなポータビリティ余分なテストファイルを排除し、エージェントが即座にパースできるクリーンなファイル構成を保つ。 20

P A R T 0 4 評価・イテレーション・最適化ループ AIが自己評価し、自らをアップデートし続ける設計のすべて

テスト仕様 evals/evals.json の設計評価基準の明文化と構造化エージェントが正しく動作したかを判定するための、テストケースの設計図です。テスト用プロンプト、入力用データファイルのパス、期待される出力ファイル名、および合否を分ける複数の『assertions』を配列形式で定義します。
多様なデータのインプット定義時系列、多次元カテゴリ、アンケートなど、スキルの対応範囲を網羅する異なるファイルを指定。評価アサーションの定義『〇〇という要素がHTML内に含まれていること』など、検証可能な具体的な基準を記述。 22

アサーションによる「客観的測定」の科学感覚的評価から定量的測定へ『なんとなく綺麗』という感覚的な評価では、スキルの継続的な改善は不可能です。アサーションは、生成された成果物ファイルをプログラム的にパースし、指定された正規表現やタグ、スタイル記述が含まれているかを客観的にジャッジします。自動合格率 (Pass
Rate) の算出全アサーションに対する合格率を算出し、スキル適用による品質の絶対的な差を定量化。デグレーション（品質後退）の即時検出スキルの一部を修正したことで、別のテストケースが動かなくなるデグレーションを即時発見。 23

人間中心フィードバック (feedback.json) の力人間の感性をAIのコンテキストに繋ぐアサーションだけでは判定しきれない『デザインの高級感』や『レイアウトの使いやすさ』は、人間が評価ビューアに書き込みます。エクスポートされた feedback.json は、エージェ
ントのコンテキストに再装填され、AIが『何を修正すべきか』の最も強力な指針となります。定性データの定量データ化人間のレビューコメントをJSON形式で構造化し、LLMが確実に理解・処理できるデータ形式に変換。意図のギャップの解消仕様書の行間にある『人間の本当の望み』を、対話を通じてスキル定義に正確に反映させます。 24

メタプログラミングによる「自己修復 (Self- Correction)」 AIみずからが脳（SKILL.md）を書き換えるエージェントは feedback.json を読み込むと、エラー箇所や改善要望を自律的に分析します。そして、自分自身の行動指針である『SKILL.md
』のデザインルールを追加・改訂したり、 scripts/ のバグを自分で修正して再コンパイルします。これが自律的な自己修復ループです。人間の介入コストの最小化人間はビューアに感想を書き込むだけで、コードの修正やドキュメントの改訂はAIがすべて裏で完了。知能の漸進的進化ループを回すごとにスキル定義が洗練され、エージェントの処理精度は対数曲線を描いて向上します。 25

トリガー説明文の最適化アルゴリズム run_loop.py による自動説明文最適化スキルのdescriptionを最適化するために、テスト用の仮想クエリ群を使用します。『起動すべきクエリ（should-trigger）』と『起動してはならないクエリ（should-not-trigger）』をそれぞれ10個程度用意し、エージェントが description の微調整を繰り返しながら、トリガ
ー成功率100%を目指してテストを回します。過学習の防止 (Generalization) 特定のキーワードだけでなく、類義語や意図の揺らぎに対しても強固に反応するように説明文を汎用化。ニアミス検知の精緻化類似した無関係なタスクを弾くガード条件（not trigger）を自動で説明文に組み込みます。 26

パッケージ化と配布エコシステム (.skill) プロダクション環境への即時インポート完成した .skill ファイルは、他のユーザーのエージェントにロードするだけで、そのエージェントの『システム能力』として即座に追加されます。機能の衝突を完全に防止各
.skill は完全に独立したネームスペースとフォルダを持つため、他のスキルやシステムの設定を汚すリスクがゼロです。アセットのパッケージング実行スクリプトだけでなく、一貫性を保つためのフォント、ロゴ、テンプレートが同梱されており、インポートしたエージェントはどこでも同じ高品質な出力を生成できます。バージョニングと再現性検証されたテストケースとアサーション情報が含まれているため、異なる環境でもスキルが同じ品質で動作することを保証・再現できます。 27

P A R T 0 5 結論＆エージェント開発の未来
指示から進化する知性へ：新たなソフトウェアパラダイム

エージェント開発のネクストステージ静的プロンプトから動的エージェントへこれまでの開発は、人間が長大なシステムプロンプトを固定して与える『静的』なものでした。 Skill Creator は、エージェント自身が新しいスキル（能力）を必要に応じて自律獲得し、自己学習・自己修正し続ける『動的』な知性のステージを
切り拓きます。知能のオンデマンド構成タスクに応じて、その場で最適な知能構造をモジュール式に組み立てる能力。成長し続けるシステム使えば使うほど、フィードバックによってスキル定義が洗練され、エラー率が下がっていく成長型AI。 29

開発者（人間）の新しい役割の定義コーダーから意図のデザイナーへ人間はもはや、1行ずつのコードや長大な命令を書く作業に時間を費やす必要はありません。人間の最も重要な役割は、エージェントが目指すべき『ゴール（意図）』を明確にし、それを厳格に検証するための『アサーション』をデザインすることにシフトします。ゲートキーパーとしての人間 AIが生成したビジュアルやコードの最終的な良し悪し（品質・
ブランド感）を感覚的にジャッジする。ハイレベルな要件定義『何が起きるべきか』『何をしてはならないか』というシステム境界（境界条件）を設計する役割。 30

協調的知性 (Collaborative Intelligence) の未来人間とAIのハイブリッド共生システム Skill Creator が示す未来は、AIによる人間のリプレイスではありません。人間が『魂（感性と意図）』を吹き込み、AIが『
手足（コードとドキュメンテーション）』を動かし、対話を通じて共にソフトウェアを成長させる、究極の協調的開発パラダイムです。自律的な進化スピード手動開発に比べ、イテレーション速度が何十倍も向上し、アイデアから実装までの時間が極限まで圧縮される。信頼性の高いシステム共創アサーションとコードオフロードにより、大規模AIシステムでも極めて堅牢でバグのない設計を共創可能に。 31

Skill Creator 技術設計の総括 ① カプセル化による絶対的信頼性 SKILL.mdとscriptsを結合し、必要な時にだけロードするオンデマンド・アーキテクチャが、コンテキスト希釈と命令衝突を完全に防ぐ。 ② 客観的アサーションと人間中心ビューア定量的テスト（evals.json）と人間の定性的フィードバック（feedback.json）を評価ビューアでシームレスに結
合し、確実な改善のコンパスとする。 ③ メタプログラミングによる自律的な自己修正人間がレビューするだけで、AI自身がSKILL.mdのデザイン原則や実行コードを自動修正し、クオリティを対数曲線的に成長させる。 32

Skill Creatorの技術設計と動作原理

Skill Creatorの技術設計と動作原理

MIKIO KUBO

More Decks by MIKIO KUBO

Other Decks in Business

Featured

Transcript

Skill Creatorの技術設計＆動作原理エージェントが新たなスキルを自律的に獲得し、確実に実行できる理由 Presented by MOAI

P A R T 0 2 スキル定義 (SKILL.md) の解剖エージェントの頭脳を規定するドキュメント設計のすべて

P A R T 0 3 支援スクリプトの動作原理 LLMの限界をプログラムコードで超越する技術設計

scripts/quick_validate.py の仕様スキルの文法・構造チェッカースキル開発の最初の門番として機能するバリデーションスクリプトです。 SKILL.md が正しい YAML フロントマターを持っているか、必須セクション（Quick

scripts/aggregate_benchmark.py の集計定量的なアサーション合否の集計各ランの完了後、実行されたすべてのテストケースの結果を統合・集計するスクリプトです。各ラン配下の grading.json (アサーション合否) と timing.json

generate_review.py と eval-viewer 人間中心のビジュアル比較ビューアデータ集計が終わると、このスクリプトが超高機能な HTML ビューア（review.html）を合成出力します。このビューアは、ユーザーがブラウザ上で直接

scripts/run_loop.py の自動化ループ自己修正ループを回すメインランナー開発全体のイテレーションを統括するオーケストレータです。 1. スキルの検証 (quick_validate) 2. テスト実行

P A R T 0 4 評価・イテレーション・最適化ループ AIが自己評価し、自らをアップデートし続ける設計のすべて

P A R T 0 5 結論＆エージェント開発の未来

協調的知性 (Collaborative Intelligence) の未来人間とAIのハイブリッド共生システム Skill Creator が示す未来は、AIによる人間のリプレイスではありません。人間が『魂（感性と意図）』を吹き込み、AIが『