Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMレッドチーミングの 監査フローと ガードレールの構築
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Takumi Hiraoka
January 25, 2026
0
110
LLMレッドチーミングの 監査フローと ガードレールの構築
Nagoya Tech Talk #2 〜AI x 〇〇〜【冬の陣】
Takumi Hiraoka
January 25, 2026
Tweet
Share
More Decks by Takumi Hiraoka
See All by Takumi Hiraoka
Azureで学ぶ Confidential Computing 入門
takumi_hiraoka
0
470
Featured
See All Featured
The agentic SEO stack - context over prompts
schlessera
0
650
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
0
1.1k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
We Have a Design System, Now What?
morganepeng
54
8k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Amusing Abliteration
ianozsvald
0
110
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.1k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
330
Chasing Engaging Ingredients in Design
codingconduct
0
120
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
KATA
mclloyd
PRO
34
15k
Transcript
STRICTLY CONFIDENTIAL©Acompany Co.,Ltd. 1 STRICTLY CONFIDENTIAL©Acompany Co.,Ltd. LLMレッドチーミングの 監査フローと ガードレールの構築
株式会社Acompany 平岡拓海 (@takuuuuu_h__) Nagoya Tech Talk #2 〜AI x 〇〇〜【冬の陣】 1
Who are you? • 株式会社Acompany のEng & PdM ◦ 名古屋大学発スタートアップ
◦ 秘密計算を用いたプロダクト開発を行う ◦ Startup World Cup 2025 世界TOP 10 • 学生時代の研究 ◦ 学部:コンパイラ・プロセッサ ◦ 修士:差分プライバシー • 趣味 ◦ 海外旅行 ◦ 霜降り明星 • 今日のLTは以下の記事により詳細が書かれています ◦ https://zenn.dev/acompany/articles/c642c09bd1 67a6 平岡 拓海 (ヒラオカタクミ ) 2
©Acompany Co.,Ltd. 秘密計算 (Confidential Computing) 概要 3
ビックテックを中心に秘密計算の活用が加速 • AppleやMetaなど大手企業がサーバーでのデータ処理に秘密計算を採用 • サービス提供者でもユーザーのデータを見ることができない形でのサービスを提供 Apple Intelligence オンデバイスとサーバーの組み合わせで、シチュエーショ ンに応じて、ユーザー情報を保護しながら生成 AIを利用
Meta Private Processing WhatsAppのメッセージ情報をサーバーにて生成 AIで分 析する際に、メッセージの秘匿性を担保 出典:Apple Intelligence紹介ページ 、Engineering at Meta「Building Private Processing for AI tools on WhatsApp」 4
秘密計算技術( PETsの代表技術) データを暗号化(秘匿)したままの状態で計算を実行 する技術 従来 秘密 計算 通信 時 保管
時 計算 時 計算 時 通信 時 保管 時 計算時 暗号化のラストワンマイル ネットワーク ストレージ メモリ (生データ) 外部攻撃者、内部不正者、 受託事業者、クラウド事業者、 Acompany、など 5
秘密計算には様々な種類が存在 TEE (ハードウェア型) MPC (マルチパーティ計算) HE (準同型暗号) 概要 計算結果 暗号化
データ 保護領域 ハードウェア環境 計算結果 データ 分割した 断片のみ を送信 計算結果の 断片値を 集計 秘密分散 / 復元 計算結果 暗号化 データ 暗号化したまま 計算実行 復号 秘密計算の種類 6
特殊なCPUからの命令しか受け付けない暗号化領域を用意し、データの中身を外部に 知られることなく計算する CPU CPUメモリ Enclave (信頼可能領域) 信頼不可能領域 機密データ 機密データ Enclave
生成 内部の演算は 平文で行われるため高速 EnclaveをCPUが持つ メモリ暗号化エンジンで生成 TEEの概要 7
生成AI・他社データ連携といった、高い信頼性が求められる場合に有益 生成AI×機密データの安全な利用 事業者間の機密データを安全に連携 ✔ 利用者の入力データを外部LLMに見せない ✔ 機密な箇所を自動で抽出してマスキング など 非・秘密計算 秘密計算
マスキング 突合・分析 秘密計算 統計データ ✔ お互いのデータを開示せずに分析を行う ✔ 顧客データを突合する際のプライバシー保護 Acompanyのプロダクト 8 https://service.acompany.tech/
©Acompany Co.,Ltd. LLMアプリケーションの脅威 9
LLM01: Prompt Injection ユーザー⼊⼒による 命令の上書き。アプ リ層での対策が必 須。 LLM02: Sensitive Info
Disclosure 学習データやRAG参 照データからの機密 情報流出。 LLM07: System Prompt Leakage 知的財産であるプロ ンプト⾃体の窃取。 LLM09: Misinformation ハルシネーションに よる偽情報の拡散。 OWASP Top 10 for LLM (2025)が警告する主要リスク (一部を紹介) 10 https://genai.owasp.org/llm-top-10/
「たかがチャットボット」が引き起こすビジネス・法的損失 🚨 LLMの暴走は、金銭的損失・法的責任・社会的信用の失墜に直結する 🚨 11 https://bunshun.jp/articles/-/82074 https://pc.watch.impress.co.jp/docs/news/y ajiuma/1490904.html https://news.livedoor.com/article/deta il/25903425/
モデルの「誤動作」や「逸脱」を意図的に誘発し、リリース前に脆弱性を発見するプロセ ス。 Red Teaming テスト手法 説明 直接攻撃 単発の敵対的プロンプトを送信し、即座に脆弱性を検証
反復攻撃(Iterative) 複数回の試行で徐々に制約を緩めさせる マルチターン攻撃 対話を重ねて文脈を操作し、最終的に目的を達成(例:Crescendo Attack) エンコーディング攻撃 Base64、ROT13等でフィルターを回避 ロールプレイ攻撃 架空のシナリオやキャラクター設定で制約を回避 言語切り替え攻撃 異なる言語に翻訳させて検閲をすり抜け 12
Red Teaming ツール 比較 Garak 既知の脆弱性を総当たりス キャン。(LLM版 Nmap) PyRIT (Microsoft)
マルチターン(会話の往復)によ る⾼度な攻撃が可能。 Promptfoo YAMLでテストを定義可能で、 開発パイプラインに統合しや すい。 ★本⽇紹介 13
右は設定ファイル • Purpose: ◦ 対象とするアプリケーション概要 ◦ これを元に攻撃テストを作成 • Plugins: ◦
攻撃の種類とその回数 • Strategies: ◦ 攻撃の戦略 ◦ jailbreak戦略では反復攻撃が行われる Promptfoo 14
Promptfoo 監査結果例 15
ガードレール : モデルを信頼せず、外部で制御する LLMの入出力を監視・制御しモデルが意図しない動作をしないように防ぐ仕組み 16
• NVIDIAが開発したLLMアプリケーションに、ガードレールを追加するためのオープン ソース・ツールキット ◦ https://docs.nvidia.com/nemo/guardrails/latest/index.html • 主なガードレール機能 ◦ トピックの制御 (Topical
Guardrails) ◦ 安全性とセキュリティ (Safety & Security) ◦ 対話フローの制御 (Dialogue Control) NeMo Guardrails 17
NeMo Guardrails使用例 ↑ 特定のワードを検知する関数の実装 ↑ Colangによる出力レールの実装 18
©Acompany Co.,Ltd. 最後に 19
最後に: LLMアプリケーションセキュリティの 3つの要点 Deterministic > Probabilistic DevSecOps Integration Defence in
Depth (多層防御) アプリ層、モデル層、アーキテクチャ層 での対策を組み合わせる。 可能な限りはルールベースのガード レールを用いる。 Promptfoo等をCI/CDに組み込み、開 発プロセスの中で継続的に「自動レッ ドチーミング」を行う。 20
安全にデータ・ AIを利用可能な未来を作っていきたい方、絶賛採用中! https://recruit.acompany.tech/career/category/all エンジニア、リサーチャー、 Biz、話聞いてみたいだけの方、お気軽に!! 21