Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMレッドチーミングの 監査フローと ガードレールの構築

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Takumi Hiraoka Takumi Hiraoka
January 25, 2026
110

LLMレッドチーミングの 監査フローと ガードレールの構築

Nagoya Tech Talk #2 〜AI x 〇〇〜【冬の陣】

Avatar for Takumi Hiraoka

Takumi Hiraoka

January 25, 2026
Tweet

Transcript

  1. Who are you? • 株式会社Acompany のEng & PdM ◦ 名古屋大学発スタートアップ

    ◦ 秘密計算を用いたプロダクト開発を行う ◦ Startup World Cup 2025 世界TOP 10 • 学生時代の研究 ◦ 学部:コンパイラ・プロセッサ ◦ 修士:差分プライバシー • 趣味 ◦ 海外旅行 ◦ 霜降り明星 • 今日のLTは以下の記事により詳細が書かれています ◦ https://zenn.dev/acompany/articles/c642c09bd1 67a6 平岡 拓海 (ヒラオカタクミ ) 2
  2. 秘密計算技術( PETsの代表技術) データを暗号化(秘匿)したままの状態で計算を実行 する技術 従来 秘密 計算 通信 時 保管

    時 計算 時 計算 時 通信 時 保管 時 計算時 暗号化のラストワンマイル ネットワーク ストレージ メモリ (生データ) 外部攻撃者、内部不正者、 受託事業者、クラウド事業者、 Acompany、など 5
  3. 秘密計算には様々な種類が存在 TEE (ハードウェア型) MPC (マルチパーティ計算) HE (準同型暗号) 概要 計算結果 暗号化

    データ 保護領域 ハードウェア環境 計算結果 データ 分割した 断片のみ を送信 計算結果の 断片値を 集計 秘密分散 / 復元 計算結果 暗号化 データ 暗号化したまま 計算実行 復号 秘密計算の種類 6
  4. 生成AI・他社データ連携といった、高い信頼性が求められる場合に有益 生成AI×機密データの安全な利用 事業者間の機密データを安全に連携 ✔ 利用者の入力データを外部LLMに見せない ✔ 機密な箇所を自動で抽出してマスキング など 非・秘密計算 秘密計算

    マスキング 突合・分析 秘密計算 統計データ ✔ お互いのデータを開示せずに分析を行う ✔ 顧客データを突合する際のプライバシー保護 Acompanyのプロダクト 8 https://service.acompany.tech/
  5. LLM01: Prompt Injection ユーザー⼊⼒による 命令の上書き。アプ リ層での対策が必 須。 LLM02: Sensitive Info

    Disclosure 学習データやRAG参 照データからの機密 情報流出。 LLM07: System Prompt Leakage 知的財産であるプロ ンプト⾃体の窃取。 LLM09: Misinformation ハルシネーションに よる偽情報の拡散。 OWASP Top 10 for LLM (2025)が警告する主要リスク (一部を紹介) 10 https://genai.owasp.org/llm-top-10/
  6. モデルの「誤動作」や「逸脱」を意図的に誘発し、リリース前に脆弱性を発見するプロセ ス。 Red Teaming テスト手法 
 説明
 直接攻撃 
 単発の敵対的プロンプトを送信し、即座に脆弱性を検証

    
 反復攻撃(Iterative) 
 複数回の試行で徐々に制約を緩めさせる 
 マルチターン攻撃 
 対話を重ねて文脈を操作し、最終的に目的を達成(例:Crescendo Attack) 
 エンコーディング攻撃 
 Base64、ROT13等でフィルターを回避 
 ロールプレイ攻撃 
 架空のシナリオやキャラクター設定で制約を回避 
 言語切り替え攻撃 
 異なる言語に翻訳させて検閲をすり抜け 
 12
  7. Red Teaming ツール 比較 Garak 既知の脆弱性を総当たりス キャン。(LLM版 Nmap) PyRIT (Microsoft)

    マルチターン(会話の往復)によ る⾼度な攻撃が可能。 Promptfoo YAMLでテストを定義可能で、 開発パイプラインに統合しや すい。 ★本⽇紹介 13
  8. 右は設定ファイル • Purpose: ◦ 対象とするアプリケーション概要 ◦ これを元に攻撃テストを作成 • Plugins: ◦

    攻撃の種類とその回数 • Strategies: ◦ 攻撃の戦略 ◦ jailbreak戦略では反復攻撃が行われる Promptfoo 14
  9. 最後に: LLMアプリケーションセキュリティの 3つの要点 Deterministic > Probabilistic DevSecOps Integration Defence in

    Depth (多層防御) アプリ層、モデル層、アーキテクチャ層 での対策を組み合わせる。 可能な限りはルールベースのガード レールを用いる。 Promptfoo等をCI/CDに組み込み、開 発プロセスの中で継続的に「自動レッ ドチーミング」を行う。 20