Upgrade to Pro — share decks privately, control downloads, hide ads and more …

企業の生成AIガバナンスにおけるエージェントとセキュリティ

 企業の生成AIガバナンスにおけるエージェントとセキュリティ

変化のスピードが加速する生成AI時代において、企業が押さえるべき生成AIガバナンスの要点を俯瞰的に解説します。そのうえで、AIエージェントに特有のセキュリティ課題に焦点を当てます。
生成AIの急速な普及はリスク評価を難しくし、さらに敵対的攻撃、ジェイルブレイク、プロンプトインジェクション、バックドア攻撃など多様な脅威が拡大しています。特に、LLMを基盤としたエージェントは接点が増えることで攻撃の起点も広がり、従来のLLM単体利用とは異なる複雑なリスクに直面しています。
本講演では、最近報告された脆弱性の事例を踏まえつつ、多層防御の重要性を強調するとともに、歴史的に培われた情報システムのセキュリティ設計原則が依然として有効であることを示します。

More Decks by LINEヤフーTech (LY Corporation Tech)

Other Decks in Technology

Transcript

  1. © LY Corporation 2 自己紹介 LINEヤフー株式会社 鎌田 篤慎 (カマタ シゲノリ)

    LINEヤフー株式会社 生成AI統括本部 技術戦略室 室長 兼 技術戦略室 テクノロジーインテリジェンス リーダー 兼 マーケットインテリジェンス室 サイエンス・データ リーダー 兼 生成AI統括本部 戦略企画本部 兼 生成AI統括本部 AI倫理・ガバナンス部 兼 生成AI統括本部 アライアンス推進部 兼 データ人材戦略部 エヴァンジェリストチーム 兼 ソフトバンク株式会社 AI戦略室 • 業務内容 • AIなど先端技術のリサーチ、および、経営への提言 • AIや先端技術、データ分析などの社員教育 • マーケットリサーチ、および、経営への提言 • AI技術、ガバナンス、データ利活用の教育設計 • LINEヤフーのAI倫理ガバナンス制度設計
  2. © LY Corporation 5 本日の進め方(鳥の目・虫の目の流れ) ガバナンスの観点から俯瞰的な視座をお示しし、徐々に開発におけるAIセキュリティにディープ・ダイブ Overview (企業の生成AIガバナンス) Deep Dive

    (エージェントのセキュリティ) • 企業における生成AIガバナンスで、どのよ うな観点に注意が置かれるか? • エンジニア目線でどの部分に注意を払うか の大局観を持つにはどうすべきか? • 身近な生成AIに関連した攻撃の概要 • AIエージェントで拡大するリスクとは? • リスクをどのように軽減するか?
  3. © LY Corporation 8 生成AIガバナンスとデータローカライゼーションの課題 生成AIの活用ではデータの取り扱いが複雑化しやすく、データローカライゼーションの影響も大きく受ける 日本 政府アクセス国 (一般論として中国など) 北米

    EU圏 小規模・計算資源の限られる 生成AIスタートアップ 日本リージョン 3rd Party製品 etc… クラウドベンダーの運用監視の領域 に情勢の変化で政府からの アクセス可能性がある国 中国AIは情報法 対応のハードル EUはAI Actへ の対応可能性 法対応が 見えない OpenAI, Gemini 以外のモデル Gemini系 Googleモデル中心 OpenAI, Microsoft その他のモデル 生成AIモデル提供企業 • モデルが日本にある場合は データ越境もなく考慮すべ きガバナンスポイントが減 る • クラウド毎にモデルが違う モデルロックイン構造あり • 3rd Party製品は自社モデルの 場合は法対応を期待できる が、他社のモデルを利用す ることが大半で、データ管 理の自由度が低い • データの流れが不透明 • 新しい生成AIは北米から提供開始 • 生成AIの主要企業はデータ管理の 信頼性は高いが、日本法の準拠を 依頼するハードルは高い。 • データ越境リスクは比較的低い • 各国で対応は異なるが、中国以外 にも政府が企業のデータにアクセ スする可能性がある国が存在し、 クラウドベンダーの監視業務から のアクセスが懸念されることもあ る。 契約で個情法対応を特別実施 特別対応せずに日本リージョンの クラウドを中心に利用 各国法まで対応できない データ管理にも不安 AWS GCP Azure 法対応は企業 ごとに異なる 個別対応不可な主要企業 個別対応可能な主要企業 法対応 能力不足 ZoomやSlack 法対応を特 別実施 法対応特別対 応不可 一般にAI機能を提供している ※個情法:個人情報保護法
  4. © LY Corporation 9 オープンウェイトモデルの課題(悪意のあるモデルのリスクとその他のリスク) 安全性の面の課題や将来的なスリーパー・エージェントの懸念など、頭の片隅におくべき対応やリスク 資料:Safety at Scale: A

    Comprehensive Survey of Large Model and Agent Safety https://arxiv.org/abs/2502.05206 Estimating Worst-Case Frontier Risks of Open-Weight LLMs https://arxiv.org/abs/2508.03153v2 Risks and Opportunities of Open-Source Generative AI https://arxiv.org/abs/2405.08597 Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training https://arxiv.org/abs/2401.05566 A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly https://arxiv.org/abs/2312.02003 OWASP Top 10 for Large Language Model Applications https://owasp.org/www-project-top-10-for-large-language-model-applications/ モデルの選定時 モデルの導入時 モデルの運用時 • ライセンス解釈の誤解リスク • 学習データの権利リスク • Fine-Tuning Model リスク • Malicious Fine-Tuning • 安全性の低下 • バイアス・有害出力増 • ハルシネーション • ガバメントアライメントリスク • 出力と既存規制類の適合リスク (業界別規制適合などユースケース毎) • 追加アライメント:モデル内 (免責表示や安全フィルタの追加など) • 追加ガードレール:モデル外 (入出力に対するバリデーションなど) • 設備投資と既存環境との接続 • モニタリング需要増 • 既存規制類の適合性 • 有害・バイアス出力 • etc… • 出力の権利侵害リスク ※コーディングなら類似性に伴うGPLや 知財侵害など、特にOSSにする場合は 注意をしておく • 悪意のあるモデルの顕在化リスク • Backdoor Model • Sleeper Agent ※オーダー66のようなもの、選定時の発見は困難 低コストでLLMの恩恵を受けられるが、その分の自己責任と対応が増す トレードオフがあり、ユースケースに応じたリスクとリターンのバラン スを見た使い分けが特に重要。リスクの認識が正しい判断の第一歩。
  5. © LY Corporation 11 本日のテーマで関係が深い生成AIへの攻撃手法や対策とその概要 大分類だけでもこれ以上存在し、掘り下げた小分類は多種多様。生成AIの汎用性の高さと裏返しな構図 資料:Safety at Scale: A

    Comprehensive Survey of Large Model and Agent Safety https://arxiv.org/abs/2502.05206 攻撃対象 手法 概要 Large Language Models (LLMs) & Vision-Language Models (VLMs) 敵対的攻撃 入力テキストを微妙に改変することで、ターゲットモデルを誤った応答を生成するように誤誘導する攻撃。VLMでは視覚モダリティを ターゲットにし、知覚できない変更を画像に追加することで、画像キャプションや視覚的質問応答などのタスクを妨害する攻撃。 ジェイルブレイク攻撃 手動または自動のジェイルブレイクプロンプトを介して、組み込みの安全ポリシーやアライメントをバイパスし、LLMに不適切なコンテ ンツ(有害なコンテンツや欺瞞的なコンテンツなど)を生成させる。VLMでは視覚モダリティの追加により攻撃経路が広がる。 プロンプトインジェクション 攻撃 悪意のある指示を良性のプロンプトに注入することで、LLMを意図しない出力に操作する攻撃。VLMでは視覚モダリティが、敵対的攻撃 や直接注入によってより簡単に悪用される。敵対的攻撃がモデルの正確性を狙うのに対し、本攻撃は安全性やポリシー運用が攻撃対象 バックドア攻撃 隠されたトリガーを埋め込み、特定の条件下でのみ悪意のある動作を活性化させる攻撃。 エネルギー遅延攻撃 計算要求を増加させることで、LLMやVLMの推論効率を低下させ、推論遅延とエネルギー消費を増大させる攻撃 モデル抽出攻撃 戦略的にクエリを送信し、その応答を分析することで、ターゲットLLMの機能を複製する代替モデルを作成する攻撃 データ抽出攻撃 LLMの訓練データの一部を回復し、個人識別情報(PII)、著作権で保護されたコンテンツ、機密データなどの機密情報を漏洩させる 安全性アライメント LLMが人間の価値観と整合するように確保し、有害な行動(有害なコンテンツの生成、誤情報の拡散、バイアスの永続化など)を避ける ことを目的としたプロセスです。これは攻撃ではなく、安全性を確保するための研究領域。ただし、悪用も可能 Agent 間接プロンプトインジェク ション攻撃 サードパーティの統合(ウェブページ、ドキュメントなど)を利用して、エージェントの動作をユーザーの直接的な要求なしに操作する 基本的な攻撃 メモリアタック エージェントの記憶モジュール(短期記憶または長期記憶)に隠されたトリガーを埋め込み、特定の条件下で悪意のある動作を活性化さ せるバックドア攻撃、または悪意のあるデータを注入してエージェントの行動を操作するポイズニング攻撃 を含む ツール呼び出し攻撃 エージェントが外部ツールを使用する能力を悪用し、悪意のあるツールを使用させたり、有害な指示に従わせたりするようにエージェン トを操作する攻撃 VLMエージェント攻撃 視覚とテキストの両方のモダリティを悪用する洗練された攻撃ベクトルで、入力データの直接的な改変や環境コンテキストの悪用によっ てエージェントの行動を操作する マルチエージェントシステム 攻撃 分散通信および協調メカニズムを悪用し、エージェントネットワーク全体にウイルスのような特性を持つ脅威を伝播させる攻撃 身体化エージェント攻撃 マルチモーダルな知覚と物理的な相互作用能力から生じる実質的な展開リスクに直面する攻撃です。敵対的摂動によるセンサー入力の破 損、ジェイルブレイク技術による安全メカニズムのバイパス、バックドアトリガーの埋め込みなどが含まれる エージェンティック攻撃 自律的なエージェントが、人間の監視をほとんど必要とせずに、攻撃戦略を反復的に考案・実行し、大規模な被害につながる可能性のあ る攻撃 「Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety」より、 本日のトピックに近しい領域の手法をピックアップ。実際には生成AIへの攻撃の手法はこれ以上に多様。
  6. © LY Corporation 12 生成AI利用のアーキテクチャの変化の比較 これまで(LLM単体) これから(エージェント) Tool Use Memory

    Planning input input output output 2024年に主流だったアーキテクチャから、2025年以降はよりエージェンティックに変化傾向
  7. © LY Corporation 13 これまでとこれからの生成AI利用のセキュリティ対策の起点 これまで(direct prompt injection) これから(indirect prompt

    injection) Tool Use Memory Planning input input output output • Direct Prompt Injection • Jailbreaking • Backdoored Models • Model Stealing • Biased Alignment Models • Tool Poisoning • Command Injection • Tool Misuse • Direct Prompt Injection • Jailbreaking • Malicious Output • Cross-System Injection • Data Leakage • Memory Poisoning • Information Leakage • Indirect Prompt Injection • Goal Hijacking • Backdoored/Biased Alignment LLMに対する入出力を監視すれば済んだ時代から、エージェントの台頭により問題が複雑化しやすい時代へ
  8. © LY Corporation 14 これまでとこれからの生成AI利用のセキュリティ対策の起点 これまで(direct prompt injection) これから(indirect prompt

    injection) Tool Use Memory Planning input input output output LLMに対し、悪意のあるプロンプトを接触させれば、攻撃が一定成功してしまう認識を持つことが重要 エージェントに限らず、LLMに接触する頻度が高いほど、相対的にセキュリティリスクが上昇する LLMは利用者の指示も悪意のある攻撃者の指示も素直に聞いてしまう仕組みのため攻撃の起点を広げる
  9. © LY Corporation 15 2025年6月13日:CVE-2025-49596(CVSS Score 9.4) ブラウザの脆弱性によるローカルホストへのリクエスト送信に伴うMCP Inspectorのハイジャック 資料:0.0.0.0

    day exploit https://en.wikipedia.org/wiki/0.0.0.0#0.0.0.0_day_exploit CVE-2025-49596 Detail https://nvd.nist.gov/vuln/detail/CVE-2025-49596 Critical RCE Vulnerability in Anthropic MCP Inspector - CVE-2025-49596 https://www.oligo.security/blog/critical-rce-vulnerability-in-anthropic-mcp-inspector-cve-2025-49596 攻撃の起点:0.0.0.0 day exploit CVE-2025-49596 Internet 悪意のある サイト 0.0.0.0 day exploit によりローカルホスト経由で認証に不備があったMCP Inspectorを介して、MCP Serverからコマンド実行できる可能性を示した脆弱性だが、LLMと接続しているMCPサーバーも想定され、悪意 のあるプロンプトを接触させる可能性もあることから、影響範囲が広がることも想定される ブラウザ MCP Inspector (認証不備ver) アクセス Private Network MCP Server 0.0.0.0 経由 リクエスト リクエスト コマンド実行 • ファイル操作 • API実行 • DBアクセス • etc… 悪意のあるウェブサイトがブラウザの 「0.0.0.0」の扱いを悪用し、標準的なセキュリ ティプロトコルを迂回、ユーザーのlocalhost経 由で内部ネットワーク上で実行されているサー ビスに直接リクエストを送信することが可能な 脆弱性
  10. © LY Corporation 17 生成AI・エージェントの利用時における多層防御 無害なテキストファイルで攻撃が成立するため、一般的な対策を多層に講じるのが特に重要となる Anomaly, Detection AuthN/AuthZ ACL,

    Rate Limiting Sanitization/Validation Output, Filtering Monitoring, Audit Logs 仮にモデルへのアクセスが 成功し、LLMがハイジャック されても、クリティカルな 処理をさせていなければ リスクは下がる
  11. © LY Corporation 18 歴史ある情報システムの8つのセキュリティ設計原則 資料:https://web.mit.edu/Saltzer/www/publications/protection/index.html 生成AI特有のセキュリティ対策もあるが、歴史ある設計原則は新しい技術の登場でも有効に機能する The Protection of

    Information in Computer Systems Economy of mechanism (機構の経済性) 設計をシンプルで小さく保つ Fail-safe defaults (安全なデフォルト) 許可ベースでアクセス決定 Complete mediation (完全な仲介) 全アクセスを権限チェック Open design (オープンな設計) 設計を秘密にしない Separation of privilege (権限(鍵)の分離) 複数鍵による保護が堅牢 Least privilege (最小権限) 必要最小限の権限で動作 Least common mechanism (最小共通機構) 共通機構を最小化 Psychological acceptability (心理的受容性) 使いやすいインターフェース設計 1 2 3 4 5 6 7 8 <原則> <概要> 50年前の論文で提唱された8つの設計原則は「Cloud Native Security Architecture」にも共通する考え方で、 エージェントなどのセキュリティ対策において、現在でも有効に機能する重要な指針
  12. © LY Corporation 22 References • Safety at Scale: A

    Comprehensive Survey of Large Model and Agent Safety • https://arxiv.org/abs/2502.05206 • Estimating Worst-Case Frontier Risks of Open-Weight LLMs • https://arxiv.org/abs/2508.03153v2 • Risks and Opportunities of Open-Source Generative AI • https://arxiv.org/abs/2405.08597 • A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly • https://arxiv.org/abs/2312.02003 • Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training • https://arxiv.org/abs/2401.05566 • Design Patterns for Securing LLM Agents against Prompt Injections • https://arxiv.org/abs/2506.08837 • BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models • https://arxiv.org/abs/2408.12798 • A Survey of LLM-Driven AI Agent Communication: Protocols, Security Risks, and Defense Countermeasures • https://arxiv.org/abs/2506.19676 • The Protection of Information in Computer Systems • https://web.mit.edu/Saltzer/www/publications/protection/index.html • OWASP Top 10 for Large Language Model Applications • https://owasp.org/www-project-top-10-for-large-language-model-applications/ • 0.0.0.0 day exploit • https://en.wikipedia.org/wiki/0.0.0.0#0.0.0.0_day_exploit • CVE-2025-49596 Detail • https://nvd.nist.gov/vuln/detail/CVE-2025-49596 • Critical RCE Vulnerability in Anthropic MCP Inspector - CVE-2025-49596 • https://www.oligo.security/blog/critical-rce-vulnerability-in-anthropic-mcp-inspector-cve-2025-49596 • Everything Wrong with MCP • https://blog.sshh.io/p/everything-wrong-with-mcp