”知のインストール”戦略：テキスト資産をAIの文脈理解に活かす

by KNOWLEDGE WORK / 株式会社ナレッジワーク

Slide 1

Slide 1 text

”知のインストール”戦略：テキスト資産をAIの⽂脈理解に活かす @zawakin (株式会社ナレッジワーク)

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

© Knowledge Work Inc. AIの進化とコンテキストサイズ 8 8 理論上は、⼤規模コードベースも扱える！？ → これで⼤規模開発の課題は全て解決… ？？ AIコーディングツール、⽇々進化中 → Cursor, Cline, Devin, … → AI Agent でソフトウェア開発をするのが当たり前の時代に突⼊ LLMの驚異的な進化、特に「コンテキストウィンドウ増加」 ● 2023年: 10万トークンが最先端 ● → 2025年初頭: 100万~200万トークン時代へ！ (数百万トークン）

Slide 9

Slide 9 text

Slide 10

Slide 10 text

© Knowledge Work Inc. 巨⼤なコンテキストサイズだけでは解決しない「壁」 10 10 ⼤きなコンテキストサイズを持つだけでは、 AIは真の「組織の⼀員」にはなれない深い「⽂脈理解」の難しさ ● 組織⽂化、歴史的経緯、暗黙のルール、設計思想の"ニュアンス" etc. ● 例：「この部分は昔問題があったから、あえてこう書いてる」等はAIには分からない効率‧コスト‧ノイズの問題 ● 巨⼤なコンテキストを毎回処理 → コスト‧速度は現実的？ ● ⼤量の情報（ノイズ含む）から本当に重要な情報を⾒つけられる？組織ルールの反映不⾜ ● コンテキストサイズが⼤きくても「私たちのチームのコーディングスタイル」を完全に守ってはくれない…

Slide 11

Slide 11 text

Slide 12

Slide 12 text

© Knowledge Work Inc. 「AIに教える」側の難しさ 12 12 AIの限界 (⽂脈理解など) ＋⼈間の限界 (ルール作成など) → AIに「何を」「どうやって効率的に」教えるかが、これからの鍵！ここで⾔う「AIに組織知⾒を教える」とは主に以下の⼆つ ● ルールファイル/コンテキスト(Cursor,Cline等) ● プロンプトエンジニアリング⾔語化が難しい（暗黙知をどうやってルールに？）粒度が難しい（どこまで細かく書けばいいの？）管理が⼤変（ルールが増えるとメンテできない…）

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

© Knowledge Work Inc. 戦略：テキスト資産からの「知」の抽出と構造化 16 16 ⼤量の⽣情報（ノイズ含む）をAIに探させるのではなく… → 凝縮された重要な「知」を与えることで効率と精度を両⽴ ● Step1: テキスト資産から「知（ルール、原則、価値観）」を抽出 ● Step2: AIが理解しやすい形に構造化‧凝縮する ● Step3: 構造化された「知」をAIにインストール（ルールや原則をプロンプトに⼊れる）

Slide 17

Slide 17 text

Slide 18

Slide 18 text

© Knowledge Work Inc. ⽬指す姿：AIを「良き開発パートナー」へ 18 18 AIを真の「良き開発パートナー」に育てましょう AIが組織の「⽂脈」を深く理解 ● 単なるコード⽣成ツールを超えた存在へより「筋の良い」コード⽣成 ● 組織のルールや設計思想を⾃然に反映 ○ → コード品質向上、レビュー負荷軽減に繋がる⼈間とAIのより⾼度な協調 ● AI：組織知に基づいた的確な提案‧⽀援 ● ⼈間：より創造的なタスク、本質的な課題解決に集中

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

© Knowledge Work Inc. Step 1: 貴重な「テキスト資産」の収集 22 22 対象ユーザーや期間を絞って収集も可能対象データ: 厳選されたGitHubレビューコメント(数千件) ● なぜコメント？ → コードベースの「Why」を含む質の⾼い知⾒の宝庫だから収集⽅法: GitHub API を利⽤ (Tips) ● 権限は Read access to metadata and pull requests でOK (Fine-grained Token) ● ⾃動化: Pythonスクリプトで⼀括ダウンロード GitHub コメントコメントコメントコメント

Slide 23

Slide 23 text

© Knowledge Work Inc. ⽬的: ⼤量のコメントから「ルール」の候補を効率的に抽出 (1) まず「観点」を設定: ● ChatGPT等に問いかけ、⼀般的なレビュー観点6つを⽣成 ○ 例: 「コードスタイル」「機能実装」「設計」「設計‧モジュール化およびAPI/インターフェース設計」「ドキュメント‧コメントのルール」「テストコードとテスト戦略」「インフラ‧設定‧その他の改善点」 (2) バッチ処理で効率化: ● 全コメントを100件ずつのバッチに分割 ● 各バッチ × 6観点でLLM (OpenAI o3-mini) でルール抽出 (3) LLMへの指⽰ (プロンプト): ● 例：以下のレビューコメント群から、「{観点名}」に関するルールとその具体例を抽出してください。 ● 特に、内容例とポイントを具体的に⽰してください。 (4) 結果: ● 各観点ごとにルール候補が多数抽出される ● → 全体で約62万⽂字のルールテキスト (JSON) が⽣成！ルールルールコメントコメントコメントコメント Step 2: LLMを活⽤したルールの⾃動抽出 23 23 同じコメントセットから多⾓的に情報を抽出 → 情報損失を最⼩化！

Slide 24

Slide 24 text

Slide 25

Slide 25 text

© Knowledge Work Inc. Step 3: Geminiによる原則への抽象化 25 25 ⼤規模コンテキストを活⽤し、全体像を踏まえた本質的な原則を抽出⽬的: 抽出された⼤量のルール候補（重複も含む）から、本質的で汎⽤的な「原則」を導き出す⽅法: ● 約62万⽂字のルールJSONを Gemini 2.5 Pro (1M トークン!) に⼀括⼊⼒！ ● → LLMにルールのグルーピングと抽象化を指⽰ルールルールルールルール原則原則ルールルール 3600個 30個