Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMレッドチーミングの 監査フローと ガードレールの構築

Avatar for Takumi Hiraoka Takumi Hiraoka
January 25, 2026
120

LLMレッドチーミングの 監査フローと ガードレールの構築

Nagoya Tech Talk #2 〜AI x 〇〇〜【冬の陣】

Avatar for Takumi Hiraoka

Takumi Hiraoka

January 25, 2026
Tweet

Transcript

  1. Who are you? • 株式会社Acompany のEng & PdM ◦ 名古屋大学発スタートアップ

    ◦ 秘密計算を用いたプロダクト開発を行う ◦ Startup World Cup 2025 世界TOP 10 • 学生時代の研究 ◦ 学部:コンパイラ・プロセッサ ◦ 修士:差分プライバシー • 趣味 ◦ 海外旅行 ◦ 霜降り明星 • 今日のLTは以下の記事により詳細が書かれています ◦ https://zenn.dev/acompany/articles/c642c09bd1 67a6 平岡 拓海 (ヒラオカタクミ ) 2
  2. 秘密計算技術( PETsの代表技術) データを暗号化(秘匿)したままの状態で計算を実行 する技術 従来 秘密 計算 通信 時 保管

    時 計算 時 計算 時 通信 時 保管 時 計算時 暗号化のラストワンマイル ネットワーク ストレージ メモリ (生データ) 外部攻撃者、内部不正者、 受託事業者、クラウド事業者、 Acompany、など 5
  3. 秘密計算には様々な種類が存在 TEE (ハードウェア型) MPC (マルチパーティ計算) HE (準同型暗号) 概要 計算結果 暗号化

    データ 保護領域 ハードウェア環境 計算結果 データ 分割した 断片のみ を送信 計算結果の 断片値を 集計 秘密分散 / 復元 計算結果 暗号化 データ 暗号化したまま 計算実行 復号 秘密計算の種類 6
  4. 生成AI・他社データ連携といった、高い信頼性が求められる場合に有益 生成AI×機密データの安全な利用 事業者間の機密データを安全に連携 ✔ 利用者の入力データを外部LLMに見せない ✔ 機密な箇所を自動で抽出してマスキング など 非・秘密計算 秘密計算

    マスキング 突合・分析 秘密計算 統計データ ✔ お互いのデータを開示せずに分析を行う ✔ 顧客データを突合する際のプライバシー保護 Acompanyのプロダクト 8 https://service.acompany.tech/
  5. LLM01: Prompt Injection ユーザー⼊⼒による 命令の上書き。アプ リ層での対策が必 須。 LLM02: Sensitive Info

    Disclosure 学習データやRAG参 照データからの機密 情報流出。 LLM07: System Prompt Leakage 知的財産であるプロ ンプト⾃体の窃取。 LLM09: Misinformation ハルシネーションに よる偽情報の拡散。 OWASP Top 10 for LLM (2025)が警告する主要リスク (一部を紹介) 10 https://genai.owasp.org/llm-top-10/
  6. モデルの「誤動作」や「逸脱」を意図的に誘発し、リリース前に脆弱性を発見するプロセ ス。 Red Teaming テスト手法 
 説明
 直接攻撃 
 単発の敵対的プロンプトを送信し、即座に脆弱性を検証

    
 反復攻撃(Iterative) 
 複数回の試行で徐々に制約を緩めさせる 
 マルチターン攻撃 
 対話を重ねて文脈を操作し、最終的に目的を達成(例:Crescendo Attack) 
 エンコーディング攻撃 
 Base64、ROT13等でフィルターを回避 
 ロールプレイ攻撃 
 架空のシナリオやキャラクター設定で制約を回避 
 言語切り替え攻撃 
 異なる言語に翻訳させて検閲をすり抜け 
 12
  7. Red Teaming ツール 比較 Garak 既知の脆弱性を総当たりス キャン。(LLM版 Nmap) PyRIT (Microsoft)

    マルチターン(会話の往復)によ る⾼度な攻撃が可能。 Promptfoo YAMLでテストを定義可能で、 開発パイプラインに統合しや すい。 ★本⽇紹介 13
  8. 右は設定ファイル • Purpose: ◦ 対象とするアプリケーション概要 ◦ これを元に攻撃テストを作成 • Plugins: ◦

    攻撃の種類とその回数 • Strategies: ◦ 攻撃の戦略 ◦ jailbreak戦略では反復攻撃が行われる Promptfoo 14
  9. 最後に: LLMアプリケーションセキュリティの 3つの要点 Deterministic > Probabilistic DevSecOps Integration Defence in

    Depth (多層防御) アプリ層、モデル層、アーキテクチャ層 での対策を組み合わせる。 可能な限りはルールベースのガード レールを用いる。 Promptfoo等をCI/CDに組み込み、開 発プロセスの中で継続的に「自動レッ ドチーミング」を行う。 20