LLMレッドチーミングの監査フローとガードレールの構築

STRICTLY CONFIDENTIAL©Acompany Co.,Ltd. 1 STRICTLY CONFIDENTIAL©Acompany Co.,Ltd. LLMレッドチーミングの監査フローとガードレールの構築
株式会社Acompany 平岡拓海 (@takuuuuu_h__) Nagoya Tech Talk #2 〜AI x 〇〇〜【冬の陣】 1

Who are you? • 株式会社Acompany のEng & PdM ◦ 名古屋大学発スタートアップ
◦ 秘密計算を用いたプロダクト開発を行う ◦ Startup World Cup 2025 世界TOP 10 • 学生時代の研究 ◦ 学部：コンパイラ・プロセッサ ◦ 修士：差分プライバシー • 趣味 ◦ 海外旅行 ◦ 霜降り明星 • 今日のLTは以下の記事により詳細が書かれています ◦ https://zenn.dev/acompany/articles/c642c09bd1 67a6 平岡拓海 (ヒラオカタクミ ) 2

©Acompany Co.,Ltd. 秘密計算 (Confidential Computing) 概要 3

ビックテックを中心に秘密計算の活用が加速 • AppleやMetaなど大手企業がサーバーでのデータ処理に秘密計算を採用 • サービス提供者でもユーザーのデータを見ることができない形でのサービスを提供 Apple Intelligence オンデバイスとサーバーの組み合わせで、シチュエーションに応じて、ユーザー情報を保護しながら生成 AIを利用
Meta Private Processing WhatsAppのメッセージ情報をサーバーにて生成 AIで分析する際に、メッセージの秘匿性を担保出典：Apple Intelligence紹介ページ、Engineering at Meta「Building Private Processing for AI tools on WhatsApp」 4

秘密計算技術（ PETsの代表技術）データを暗号化（秘匿）したままの状態で計算を実行する技術従来秘密計算通信時保管
時計算時計算時通信時保管時計算時暗号化のラストワンマイルネットワークストレージメモリ（生データ）外部攻撃者、内部不正者、受託事業者、クラウド事業者、 Acompany、など 5

秘密計算には様々な種類が存在 TEE （ハードウェア型） MPC （マルチパーティ計算） HE （準同型暗号）概要計算結果暗号化
データ保護領域ハードウェア環境計算結果データ分割した断片のみを送信計算結果の断片値を集計秘密分散 / 復元計算結果暗号化データ暗号化したまま計算実行復号秘密計算の種類 6

特殊なCPUからの命令しか受け付けない暗号化領域を用意し、データの中身を外部に知られることなく計算する CPU CPUメモリ Enclave （信頼可能領域）信頼不可能領域機密データ機密データ Enclave
生成内部の演算は平文で行われるため高速 EnclaveをCPUが持つメモリ暗号化エンジンで生成 TEEの概要 7

生成AI・他社データ連携といった、高い信頼性が求められる場合に有益生成AI×機密データの安全な利用事業者間の機密データを安全に連携 ✔ 利用者の入力データを外部LLMに見せない ✔ 機密な箇所を自動で抽出してマスキングなど非・秘密計算秘密計算
マスキング突合・分析秘密計算統計データ ✔ お互いのデータを開示せずに分析を行う ✔ 顧客データを突合する際のプライバシー保護 Acompanyのプロダクト 8 https://service.acompany.tech/

©Acompany Co.,Ltd. LLMアプリケーションの脅威 9

LLM01: Prompt Injection ユーザー⼊⼒による命令の上書き。アプリ層での対策が必須。 LLM02: Sensitive Info
Disclosure 学習データやRAG参照データからの機密情報流出。 LLM07: System Prompt Leakage 知的財産であるプロンプト⾃体の窃取。 LLM09: Misinformation ハルシネーションによる偽情報の拡散。 OWASP Top 10 for LLM (2025)が警告する主要リスク（一部を紹介） 10 https://genai.owasp.org/llm-top-10/

「たかがチャットボット」が引き起こすビジネス・法的損失 🚨 LLMの暴走は、金銭的損失・法的責任・社会的信用の失墜に直結する 🚨 11 https://bunshun.jp/articles/-/82074 https://pc.watch.impress.co.jp/docs/news/y ajiuma/1490904.html https://news.livedoor.com/article/deta il/25903425/

モデルの「誤動作」や「逸脱」を意図的に誘発し、リリース前に脆弱性を発見するプロセス。 Red Teaming テスト手法   説明  直接攻撃   単発の敵対的プロンプトを送信し、即座に脆弱性を検証
  反復攻撃（Iterative）   複数回の試行で徐々に制約を緩めさせる   マルチターン攻撃   対話を重ねて文脈を操作し、最終的に目的を達成（例：Crescendo Attack）   エンコーディング攻撃   Base64、ROT13等でフィルターを回避   ロールプレイ攻撃   架空のシナリオやキャラクター設定で制約を回避   言語切り替え攻撃   異なる言語に翻訳させて検閲をすり抜け   12

Red Teaming ツール比較 Garak 既知の脆弱性を総当たりスキャン。(LLM版 Nmap) PyRIT (Microsoft)
マルチターン(会話の往復)による⾼度な攻撃が可能。 Promptfoo YAMLでテストを定義可能で、開発パイプラインに統合しやすい。 ★本⽇紹介 13

右は設定ファイル • Purpose: ◦ 対象とするアプリケーション概要 ◦ これを元に攻撃テストを作成 • Plugins: ◦
攻撃の種類とその回数 • Strategies: ◦ 攻撃の戦略 ◦ jailbreak戦略では反復攻撃が行われる Promptfoo 14

Promptfoo 監査結果例 15

ガードレール : モデルを信頼せず、外部で制御する LLMの入出力を監視・制御しモデルが意図しない動作をしないように防ぐ仕組み 16

• NVIDIAが開発したLLMアプリケーションに、ガードレールを追加するためのオープンソース・ツールキット ◦ https://docs.nvidia.com/nemo/guardrails/latest/index.html • 主なガードレール機能 ◦ トピックの制御 (Topical
Guardrails) ◦ 安全性とセキュリティ (Safety & Security) ◦ 対話フローの制御 (Dialogue Control) NeMo Guardrails 17

NeMo Guardrails使用例 ↑ 特定のワードを検知する関数の実装 ↑ Colangによる出力レールの実装 18

最後に: LLMアプリケーションセキュリティの 3つの要点 Deterministic > Probabilistic DevSecOps Integration Defence in
Depth (多層防御) アプリ層、モデル層、アーキテクチャ層での対策を組み合わせる。可能な限りはルールベースのガードレールを用いる。 Promptfoo等をCI/CDに組み込み、開発プロセスの中で継続的に「自動レッドチーミング」を行う。 20

安全にデータ・ AIを利用可能な未来を作っていきたい方、絶賛採用中！ https://recruit.acompany.tech/career/category/all エンジニア、リサーチャー、 Biz、話聞いてみたいだけの方、お気軽に！！ 21

LLMレッドチーミングの監査フローとガードレールの構築

LLMレッドチーミングの監査フローとガードレールの構築

Takumi Hiraoka

More Decks by Takumi Hiraoka

Featured

Transcript

STRICTLY CONFIDENTIAL©Acompany Co.,Ltd. 1 STRICTLY CONFIDENTIAL©Acompany Co.,Ltd. LLMレッドチーミングの監査フローとガードレールの構築

Who are you? • 株式会社Acompany のEng & PdM ◦ 名古屋大学発スタートアップ

©Acompany Co.,Ltd. 秘密計算 (Confidential Computing) 概要 3

秘密計算技術（ PETsの代表技術）データを暗号化（秘匿）したままの状態で計算を実行する技術従来秘密計算通信時保管

秘密計算には様々な種類が存在 TEE （ハードウェア型） MPC （マルチパーティ計算） HE （準同型暗号）概要計算結果暗号化

特殊なCPUからの命令しか受け付けない暗号化領域を用意し、データの中身を外部に知られることなく計算する CPU CPUメモリ Enclave （信頼可能領域）信頼不可能領域機密データ機密データ Enclave

©Acompany Co.,Ltd. LLMアプリケーションの脅威 9

LLM01: Prompt Injection ユーザー⼊⼒による命令の上書き。アプリ層での対策が必須。 LLM02: Sensitive Info

モデルの「誤動作」や「逸脱」を意図的に誘発し、リリース前に脆弱性を発見するプロセス。 Red Teaming テスト手法   説明  直接攻撃   単発の敵対的プロンプトを送信し、即座に脆弱性を検証

Red Teaming ツール比較 Garak 既知の脆弱性を総当たりスキャン。(LLM版 Nmap) PyRIT (Microsoft)

右は設定ファイル • Purpose: ◦ 対象とするアプリケーション概要 ◦ これを元に攻撃テストを作成 • Plugins: ◦

Promptfoo 監査結果例 15

ガードレール : モデルを信頼せず、外部で制御する LLMの入出力を監視・制御しモデルが意図しない動作をしないように防ぐ仕組み 16

• NVIDIAが開発したLLMアプリケーションに、ガードレールを追加するためのオープンソース・ツールキット ◦ https://docs.nvidia.com/nemo/guardrails/latest/index.html • 主なガードレール機能 ◦ トピックの制御 (Topical

NeMo Guardrails使用例 ↑ 特定のワードを検知する関数の実装 ↑ Colangによる出力レールの実装 18

©Acompany Co.,Ltd. 最後に 19

最後に: LLMアプリケーションセキュリティの 3つの要点 Deterministic > Probabilistic DevSecOps Integration Defence in

安全にデータ・ AIを利用可能な未来を作っていきたい方、絶賛採用中！ https://recruit.acompany.tech/career/category/all エンジニア、リサーチャー、 Biz、話聞いてみたいだけの方、お気軽に！！ 21

LLMレッドチーミングの 監査フローと ガードレールの構築

LLMレッドチーミングの 監査フローと ガードレールの構築

More Decks by Takumi Hiraoka

Featured

Transcript

LLMレッドチーミングの監査フローとガードレールの構築

LLMレッドチーミングの監査フローとガードレールの構築