企業の生成AIガバナンスにおけるエージェントとセキュリティ

© LY Corporation 生成AI統括本部 AI開発本部技術戦略室鎌田篤慎企業の生成AIガバナンスにおけるエージェントとセキュリティ
Cloud Native Community Japan Coding Agent x Security

© LY Corporation 2 自己紹介 LINEヤフー株式会社鎌田篤慎（カマタシゲノリ）
LINEヤフー株式会社生成AI統括本部技術戦略室室長兼技術戦略室テクノロジーインテリジェンスリーダー兼マーケットインテリジェンス室サイエンス・データリーダー兼生成AI統括本部戦略企画本部兼生成AI統括本部 AI倫理・ガバナンス部兼生成AI統括本部アライアンス推進部兼データ人材戦略部エヴァンジェリストチーム兼ソフトバンク株式会社 AI戦略室 • 業務内容 • AIなど先端技術のリサーチ、および、経営への提言 • AIや先端技術、データ分析などの社員教育 • マーケットリサーチ、および、経営への提言 • AI技術、ガバナンス、データ利活用の教育設計 • LINEヤフーのAI倫理ガバナンス制度設計

© LY Corporation 4 免責事項（disclaimer）生成AIの技術と企業ガバナンスは詳しいですが、それ以外は専門外の立場だという前提でお聞きください I’m no Security Expert
I’m no Cloud-Native Expert GenAI ﾁｮｯﾄﾜｶﾘﾏｽ

© LY Corporation 5 本日の進め方（鳥の目・虫の目の流れ）ガバナンスの観点から俯瞰的な視座をお示しし、徐々に開発におけるAIセキュリティにディープ・ダイブ Overview （企業の生成AIガバナンス） Deep Dive
（エージェントのセキュリティ） • 企業における生成AIガバナンスで、どのような観点に注意が置かれるか？ • エンジニア目線でどの部分に注意を払うかの大局観を持つにはどうすべきか？ • 身近な生成AIに関連した攻撃の概要 • AIエージェントで拡大するリスクとは？ • リスクをどのように軽減するか？

© LY Corporation 7 企業におけるAIガバナンスの変化：弊社における生成AIガバナンス体制生成AIの登場で多くのドメインで多種多様な影響が生じ、その影響を評価・適応する必要性が増しています資料：https://www.lycorp.co.jp/ja/sustainability/esg/social/responsible-ai/ 従来のドメイン知識だけでは生成AIのリスク評価は困難あらゆる分野で生成AIにアジャストしたガバナンスが求められるが有識者が少数

© LY Corporation 8 生成AIガバナンスとデータローカライゼーションの課題生成AIの活用ではデータの取り扱いが複雑化しやすく、データローカライゼーションの影響も大きく受ける日本政府アクセス国（一般論として中国など）北米
EU圏小規模・計算資源の限られる生成AIスタートアップ日本リージョン 3rd Party製品 etc… クラウドベンダーの運用監視の領域に情勢の変化で政府からのアクセス可能性がある国中国AIは情報法対応のハードル EUはAI Actへの対応可能性法対応が見えない OpenAI, Gemini 以外のモデル Gemini系 Googleモデル中心 OpenAI, Microsoft その他のモデル生成AIモデル提供企業 • モデルが日本にある場合はデータ越境もなく考慮すべきガバナンスポイントが減る • クラウド毎にモデルが違うモデルロックイン構造あり • 3rd Party製品は自社モデルの場合は法対応を期待できるが、他社のモデルを利用することが大半で、データ管理の自由度が低い • データの流れが不透明 • 新しい生成AIは北米から提供開始 • 生成AIの主要企業はデータ管理の信頼性は高いが、日本法の準拠を依頼するハードルは高い。 • データ越境リスクは比較的低い • 各国で対応は異なるが、中国以外にも政府が企業のデータにアクセスする可能性がある国が存在し、クラウドベンダーの監視業務からのアクセスが懸念されることもある。契約で個情法対応を特別実施特別対応せずに日本リージョンのクラウドを中心に利用各国法まで対応できないデータ管理にも不安 AWS GCP Azure 法対応は企業ごとに異なる個別対応不可な主要企業個別対応可能な主要企業法対応能力不足 ZoomやSlack 法対応を特別実施法対応特別対応不可一般にAI機能を提供している ※個情法：個人情報保護法

© LY Corporation 9 オープンウェイトモデルの課題（悪意のあるモデルのリスクとその他のリスク）安全性の面の課題や将来的なスリーパー・エージェントの懸念など、頭の片隅におくべき対応やリスク資料：Safety at Scale: A
Comprehensive Survey of Large Model and Agent Safety https://arxiv.org/abs/2502.05206 Estimating Worst-Case Frontier Risks of Open-Weight LLMs https://arxiv.org/abs/2508.03153v2 Risks and Opportunities of Open-Source Generative AI https://arxiv.org/abs/2405.08597 Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training https://arxiv.org/abs/2401.05566 A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly https://arxiv.org/abs/2312.02003 OWASP Top 10 for Large Language Model Applications https://owasp.org/www-project-top-10-for-large-language-model-applications/ モデルの選定時モデルの導入時モデルの運用時 • ライセンス解釈の誤解リスク • 学習データの権利リスク • Fine-Tuning Model リスク • Malicious Fine-Tuning • 安全性の低下 • バイアス・有害出力増 • ハルシネーション • ガバメントアライメントリスク • 出力と既存規制類の適合リスク（業界別規制適合などユースケース毎） • 追加アライメント：モデル内（免責表示や安全フィルタの追加など） • 追加ガードレール：モデル外（入出力に対するバリデーションなど） • 設備投資と既存環境との接続 • モニタリング需要増 • 既存規制類の適合性 • 有害・バイアス出力 • etc… • 出力の権利侵害リスク ※コーディングなら類似性に伴うGPLや知財侵害など、特にOSSにする場合は注意をしておく • 悪意のあるモデルの顕在化リスク • Backdoor Model • Sleeper Agent ※オーダー66のようなもの、選定時の発見は困難低コストでLLMの恩恵を受けられるが、その分の自己責任と対応が増すトレードオフがあり、ユースケースに応じたリスクとリターンのバランスを見た使い分けが特に重要。リスクの認識が正しい判断の第一歩。

© LY Corporation 11 本日のテーマで関係が深い生成AIへの攻撃手法や対策とその概要大分類だけでもこれ以上存在し、掘り下げた小分類は多種多様。生成AIの汎用性の高さと裏返しな構図資料：Safety at Scale: A
Comprehensive Survey of Large Model and Agent Safety https://arxiv.org/abs/2502.05206 攻撃対象手法概要 Large Language Models (LLMs) & Vision-Language Models (VLMs) 敵対的攻撃入力テキストを微妙に改変することで、ターゲットモデルを誤った応答を生成するように誤誘導する攻撃。VLMでは視覚モダリティをターゲットにし、知覚できない変更を画像に追加することで、画像キャプションや視覚的質問応答などのタスクを妨害する攻撃。ジェイルブレイク攻撃手動または自動のジェイルブレイクプロンプトを介して、組み込みの安全ポリシーやアライメントをバイパスし、LLMに不適切なコンテンツ（有害なコンテンツや欺瞞的なコンテンツなど）を生成させる。VLMでは視覚モダリティの追加により攻撃経路が広がる。プロンプトインジェクション攻撃悪意のある指示を良性のプロンプトに注入することで、LLMを意図しない出力に操作する攻撃。VLMでは視覚モダリティが、敵対的攻撃や直接注入によってより簡単に悪用される。敵対的攻撃がモデルの正確性を狙うのに対し、本攻撃は安全性やポリシー運用が攻撃対象バックドア攻撃隠されたトリガーを埋め込み、特定の条件下でのみ悪意のある動作を活性化させる攻撃。エネルギー遅延攻撃計算要求を増加させることで、LLMやVLMの推論効率を低下させ、推論遅延とエネルギー消費を増大させる攻撃モデル抽出攻撃戦略的にクエリを送信し、その応答を分析することで、ターゲットLLMの機能を複製する代替モデルを作成する攻撃データ抽出攻撃 LLMの訓練データの一部を回復し、個人識別情報（PII）、著作権で保護されたコンテンツ、機密データなどの機密情報を漏洩させる安全性アライメント LLMが人間の価値観と整合するように確保し、有害な行動（有害なコンテンツの生成、誤情報の拡散、バイアスの永続化など）を避けることを目的としたプロセスです。これは攻撃ではなく、安全性を確保するための研究領域。ただし、悪用も可能 Agent 間接プロンプトインジェクション攻撃サードパーティの統合（ウェブページ、ドキュメントなど）を利用して、エージェントの動作をユーザーの直接的な要求なしに操作する基本的な攻撃メモリアタックエージェントの記憶モジュール（短期記憶または長期記憶）に隠されたトリガーを埋め込み、特定の条件下で悪意のある動作を活性化させるバックドア攻撃、または悪意のあるデータを注入してエージェントの行動を操作するポイズニング攻撃を含むツール呼び出し攻撃エージェントが外部ツールを使用する能力を悪用し、悪意のあるツールを使用させたり、有害な指示に従わせたりするようにエージェントを操作する攻撃 VLMエージェント攻撃視覚とテキストの両方のモダリティを悪用する洗練された攻撃ベクトルで、入力データの直接的な改変や環境コンテキストの悪用によってエージェントの行動を操作するマルチエージェントシステム攻撃分散通信および協調メカニズムを悪用し、エージェントネットワーク全体にウイルスのような特性を持つ脅威を伝播させる攻撃身体化エージェント攻撃マルチモーダルな知覚と物理的な相互作用能力から生じる実質的な展開リスクに直面する攻撃です。敵対的摂動によるセンサー入力の破損、ジェイルブレイク技術による安全メカニズムのバイパス、バックドアトリガーの埋め込みなどが含まれるエージェンティック攻撃自律的なエージェントが、人間の監視をほとんど必要とせずに、攻撃戦略を反復的に考案・実行し、大規模な被害につながる可能性のある攻撃「Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety」より、本日のトピックに近しい領域の手法をピックアップ。実際には生成AIへの攻撃の手法はこれ以上に多様。

© LY Corporation 12 生成AI利用のアーキテクチャの変化の比較これまで（LLM単体）これから（エージェント） Tool Use Memory
Planning input input output output 2024年に主流だったアーキテクチャから、2025年以降はよりエージェンティックに変化傾向

© LY Corporation 13 これまでとこれからの生成AI利用のセキュリティ対策の起点これまで（direct prompt injection）これから（indirect prompt
injection） Tool Use Memory Planning input input output output • Direct Prompt Injection • Jailbreaking • Backdoored Models • Model Stealing • Biased Alignment Models • Tool Poisoning • Command Injection • Tool Misuse • Direct Prompt Injection • Jailbreaking • Malicious Output • Cross-System Injection • Data Leakage • Memory Poisoning • Information Leakage • Indirect Prompt Injection • Goal Hijacking • Backdoored/Biased Alignment LLMに対する入出力を監視すれば済んだ時代から、エージェントの台頭により問題が複雑化しやすい時代へ

© LY Corporation 14 これまでとこれからの生成AI利用のセキュリティ対策の起点これまで（direct prompt injection）これから（indirect prompt
injection） Tool Use Memory Planning input input output output LLMに対し、悪意のあるプロンプトを接触させれば、攻撃が一定成功してしまう認識を持つことが重要エージェントに限らず、LLMに接触する頻度が高いほど、相対的にセキュリティリスクが上昇する LLMは利用者の指示も悪意のある攻撃者の指示も素直に聞いてしまう仕組みのため攻撃の起点を広げる

© LY Corporation 15 2025年6月13日：CVE-2025-49596（CVSS Score 9.4）ブラウザの脆弱性によるローカルホストへのリクエスト送信に伴うMCP Inspectorのハイジャック資料：0.0.0.0
day exploit https://en.wikipedia.org/wiki/0.0.0.0#0.0.0.0_day_exploit CVE-2025-49596 Detail https://nvd.nist.gov/vuln/detail/CVE-2025-49596 Critical RCE Vulnerability in Anthropic MCP Inspector - CVE-2025-49596 https://www.oligo.security/blog/critical-rce-vulnerability-in-anthropic-mcp-inspector-cve-2025-49596 攻撃の起点：0.0.0.0 day exploit CVE-2025-49596 Internet 悪意のあるサイト 0.0.0.0 day exploit によりローカルホスト経由で認証に不備があったMCP Inspectorを介して、MCP Serverからコマンド実行できる可能性を示した脆弱性だが、LLMと接続しているMCPサーバーも想定され、悪意のあるプロンプトを接触させる可能性もあることから、影響範囲が広がることも想定されるブラウザ MCP Inspector （認証不備ver）アクセス Private Network MCP Server 0.0.0.0 経由リクエストリクエストコマンド実行 • ファイル操作 • API実行 • DBアクセス • etc… 悪意のあるウェブサイトがブラウザの「0.0.0.0」の扱いを悪用し、標準的なセキュリティプロトコルを迂回、ユーザーのlocalhost経由で内部ネットワーク上で実行されているサービスに直接リクエストを送信することが可能な脆弱性

© LY Corporation 17 生成AI・エージェントの利用時における多層防御無害なテキストファイルで攻撃が成立するため、一般的な対策を多層に講じるのが特に重要となる Anomaly, Detection AuthN/AuthZ ACL,
Rate Limiting Sanitization/Validation Output, Filtering Monitoring, Audit Logs 仮にモデルへのアクセスが成功し、LLMがハイジャックされても、クリティカルな処理をさせていなければリスクは下がる

© LY Corporation 18 歴史ある情報システムの8つのセキュリティ設計原則資料：https://web.mit.edu/Saltzer/www/publications/protection/index.html 生成AI特有のセキュリティ対策もあるが、歴史ある設計原則は新しい技術の登場でも有効に機能する The Protection of
Information in Computer Systems Economy of mechanism （機構の経済性）設計をシンプルで小さく保つ Fail-safe defaults （安全なデフォルト）許可ベースでアクセス決定 Complete mediation （完全な仲介）全アクセスを権限チェック Open design （オープンな設計）設計を秘密にしない Separation of privilege （権限（鍵）の分離）複数鍵による保護が堅牢 Least privilege （最小権限）必要最小限の権限で動作 Least common mechanism （最小共通機構）共通機構を最小化 Psychological acceptability （心理的受容性）使いやすいインターフェース設計 1 2 3 4 5 6 7 8 ＜原則＞＜概要＞ 50年前の論文で提唱された８つの設計原則は「Cloud Native Security Architecture」にも共通する考え方で、エージェントなどのセキュリティ対策において、現在でも有効に機能する重要な指針

© LY Corporation 20 本日のまとめ１２ 3 生成AIは生産性向上に大きく寄与するが、ガバナンスの範囲も急拡大エージェント時代は攻撃の起点も急増、LLMへの接点にはリスクが伴う
急激に変化する時代ほど、従来のセキュリティ原則の徹底が重要

© LY Corporation 22 References • Safety at Scale: A
Comprehensive Survey of Large Model and Agent Safety • https://arxiv.org/abs/2502.05206 • Estimating Worst-Case Frontier Risks of Open-Weight LLMs • https://arxiv.org/abs/2508.03153v2 • Risks and Opportunities of Open-Source Generative AI • https://arxiv.org/abs/2405.08597 • A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly • https://arxiv.org/abs/2312.02003 • Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training • https://arxiv.org/abs/2401.05566 • Design Patterns for Securing LLM Agents against Prompt Injections • https://arxiv.org/abs/2506.08837 • BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models • https://arxiv.org/abs/2408.12798 • A Survey of LLM-Driven AI Agent Communication: Protocols, Security Risks, and Defense Countermeasures • https://arxiv.org/abs/2506.19676 • The Protection of Information in Computer Systems • https://web.mit.edu/Saltzer/www/publications/protection/index.html • OWASP Top 10 for Large Language Model Applications • https://owasp.org/www-project-top-10-for-large-language-model-applications/ • 0.0.0.0 day exploit • https://en.wikipedia.org/wiki/0.0.0.0#0.0.0.0_day_exploit • CVE-2025-49596 Detail • https://nvd.nist.gov/vuln/detail/CVE-2025-49596 • Critical RCE Vulnerability in Anthropic MCP Inspector - CVE-2025-49596 • https://www.oligo.security/blog/critical-rce-vulnerability-in-anthropic-mcp-inspector-cve-2025-49596 • Everything Wrong with MCP • https://blog.sshh.io/p/everything-wrong-with-mcp

企業の生成AIガバナンスにおけるエージェントとセキュリティ

企業の生成AIガバナンスにおけるエージェントとセキュリティ

LINEヤフーTech (LY Corporation Tech) PRO

More Decks by LINEヤフーTech (LY Corporation Tech)

Other Decks in Technology

Featured

Transcript

© LY Corporation 生成AI統括本部 AI開発本部技術戦略室鎌田篤慎企業の生成AIガバナンスにおけるエージェントとセキュリティ

© LY Corporation 2 自己紹介 LINEヤフー株式会社鎌田篤慎（カマタシゲノリ）

© LY Corporation 4 免責事項（disclaimer）生成AIの技術と企業ガバナンスは詳しいですが、それ以外は専門外の立場だという前提でお聞きください I’m no Security Expert

© LY Corporation 5 本日の進め方（鳥の目・虫の目の流れ）ガバナンスの観点から俯瞰的な視座をお示しし、徐々に開発におけるAIセキュリティにディープ・ダイブ Overview （企業の生成AIガバナンス） Deep Dive

© LY Corporation 企業の生成AIガバナンス 6

© LY Corporation 9 オープンウェイトモデルの課題（悪意のあるモデルのリスクとその他のリスク）安全性の面の課題や将来的なスリーパー・エージェントの懸念など、頭の片隅におくべき対応やリスク資料：Safety at Scale: A

© LY Corporation 生成AIとエージェントのセキュリティ 10

© LY Corporation 11 本日のテーマで関係が深い生成AIへの攻撃手法や対策とその概要大分類だけでもこれ以上存在し、掘り下げた小分類は多種多様。生成AIの汎用性の高さと裏返しな構図資料：Safety at Scale: A

© LY Corporation 12 生成AI利用のアーキテクチャの変化の比較これまで（LLM単体）これから（エージェント） Tool Use Memory

© LY Corporation 13 これまでとこれからの生成AI利用のセキュリティ対策の起点これまで（direct prompt injection）これから（indirect prompt

© LY Corporation 14 これまでとこれからの生成AI利用のセキュリティ対策の起点これまで（direct prompt injection）これから（indirect prompt

© LY Corporation 15 2025年6月13日：CVE-2025-49596（CVSS Score 9.4）ブラウザの脆弱性によるローカルホストへのリクエスト送信に伴うMCP Inspectorのハイジャック資料：0.0.0.0

© LY Corporation 生成AIの脆弱性に備える 16

© LY Corporation 17 生成AI・エージェントの利用時における多層防御無害なテキストファイルで攻撃が成立するため、一般的な対策を多層に講じるのが特に重要となる Anomaly, Detection AuthN/AuthZ ACL,

© LY Corporation 本日のまとめ 19

© LY Corporation 20 本日のまとめ１２ 3 生成AIは生産性向上に大きく寄与するが、ガバナンスの範囲も急拡大エージェント時代は攻撃の起点も急増、LLMへの接点にはリスクが伴う

© LY Corporation Materials used in preparing this presentation References

© LY Corporation 22 References • Safety at Scale: A

© LY Corporation EOP 23