Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
言語モデルに対する攻撃とその予防策について
Search
Daisuke Akagawa (Akasan)
September 30, 2025
0
2
言語モデルに対する攻撃とその予防策について
昨今さまざまな場所で利用されている言語モデルについて、その攻撃手法と予防策に関してLTをさせていただいた時の資料になります
Daisuke Akagawa (Akasan)
September 30, 2025
Tweet
Share
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
49
14k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.2k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.5k
The Cost Of JavaScript in 2023
addyosmani
55
9.1k
Docker and Python
trallard
46
3.6k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
190
55k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Speed Design
sergeychernyshev
32
1.2k
Unsuck your backbone
ammeep
671
58k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6k
Transcript
言語モデルに対する攻撃と その予防策について 株式会社スリーシェイク Sreake事業部 赤川大空 Copyright © 3-shake, Inc. All
Rights Reserved.
自己紹介 写真 - 赤川大空(Akasan) - 株式会社スリーシェイク Sreake事業部 アプリチームの中で、特にML領域を担当 - 直近ではMLOpsの構築支援など
- 最近の興味 - MLOps - ML/AI - クラウド(Google Cloudを中心) - セルフエンドレスアドベントカレンダー
目次 1. 言語モデルに対する攻撃ってどんなのがあるか 2. 攻撃を防ぐ方法 3. まとめ おまけ ※ 時間の都合上、具体的な技術スタックについては言及しないです
なぜこんな話を今回するか テックブログなどでみる記事の多くは言語モデルをいかに便利に利 用していくかが大半な印象 便利なものにはリスクが伴うことを認識した上で使って欲しい いいところがたくさんアピールされている今だからこそ それ相応のリスクがあることを認識して欲しい
言語モデルに対する攻撃ってどんなのがあるか 01 Copyright © 3-shake, Inc. All Rights Reserved.
言語モデルおさらい 1. 言語モデルとは? - ざっくりいうと「あなたが普段使う言葉を使ってやり取りできる」AI - 様々な言語、多様な話題で学習されたモデル 1. 言語モデル利用をサービスに組み込む時のコンポーネント LLM
MCP Agent Vector DB クラウドインフラ オンプレミスサーバ RDB オブジェクトストレージ
従来のMLモデルと言語モデルの構成の違い LLM MCP Agent Vector DB 従来モデル モデル 基本的に 1:1のやり取り※
言語モデル Agent ユーザからすれば 1:1のやり取り 裏側では登場人物がとても多い ※従来モデル全てがこの構成ではないです
従来のMLモデルへの攻撃 モデル - 攻撃対象が「ユーザ」か「モデル」の二つ だけ 代表的な攻撃手法 - 敵対的事例生成 - 転移攻撃
- クエリベースの攻撃
言語モデルへの攻撃 LLM MCP Agent Vector DB Agent - 攻撃対象が「ユーザ」とそのほか多数の コンポーネント
- 攻撃者が選択できる幅が広がってしまう 攻撃対象が多すぎる!! 代表的な攻撃手法 - ジェイルブレイク - 間接的プロンプトインジェクション - DBの汚染
例え話:DB汚染されたらこんなこと起きるかも? 前提: - 指定した材料で作れる料理レシピを提供するサービスを展開 - 攻撃者はデータベースやファイルのフォーマットを盗んでいる - 料理に利用されているデータに対して材料名のラベルが付与されている - ユーザからの評価が5段階で付けられるようになっておりその結果に応
じて表示順が変わる
例え話:DB汚染されたらこんなこと起きるかも? 次のページの注意事項 あくまで思考実験ですので真似しないでください
例え話:DB汚染されたらこんなこと起きるかも? 攻撃内容:爆弾の作り方を結果に表示させる 1. 爆弾の作り方をドキュメントにまとめ、ドキュメントDBにアップロードする 2. 小麦粉を利用した料理と判定されるようにラベルをつける 3. ドキュメントの評価として5をつける 4. ユーザが小麦粉料理を調べる
5. 爆弾の作り方が表示されてしまう
言語モデルへの攻撃について 1. ジェイルブレイク - 言語モデルに対して悪意のあるプロンプトを入力する攻撃 - モデル開発者が設定した安全フィルターを回避させる 1. 間接的プロンプトインジェクション -
ジェイルブレイクは直接言語モデルに入力されるプロンプトを調整 - この手法は言語モデルがソースとして扱う場所に悪意のある指示を埋 め込む 1. DBの汚染 - RAGで参照されるようなDBに悪意のある情報を埋め込む
話題になった攻撃 https://www.securityweek.com/grok-4-falls-to-a-jailbreak-two-days-after-its-release/
言語モデルへの攻撃に関する論文数 arXiv上で何件の関連論文がアップロードされているか(2025/9/23時点) - Large language model: 61,544 - +attack: 2,472
- +vulnerability: 2,137 - +security: 2,965 - Agent: 51,425 - +attack: 1,405 - +vulnerability: 859 - +security: 1,788
攻撃はどうやって防ぐの? 02 Copyright © 3-shake, Inc. All Rights Reserved.
大前提 銀の弾丸は存在しません
防御手法例 1. Guardrailsの導入 - 想定外の挙動やリスクを制限するための防御手段 2. プロンプトサニタイズの導入 - 言語モデルの入出力を検証し、有害な情報をやり取りできないようにす る
3. アクセス制御の徹底 - コンポーネントにアクセスできる権限の厳格な制限 - ブラックリストではなくホワイトリストを作ること 4. アクセスログの徹底収集 - 不正アクセスをいち早く検出すること
まとめ 03 Copyright © 3-shake, Inc. All Rights Reserved.
まとめ - 言語モデルは便利だけど、さまざまなリスクがあることを認識してほしい - 攻撃されなかったとしても言語モデルが勝手によくない出力するかもしれない のでチェック機構は入れて欲しい - 防御手段は一応いくつかあるので試してみてほしい
おまけ Copyright © 3-shake, Inc. All Rights Reserved.
社内勉強会で発表した資料もブログにしたりしてます! https://sreake.com/blog/commercial-llm-agents-are-already-vulnerable-to-simple-yet-dangerous-attacks/