言語モデルに対する攻撃とその予防策について

言語モデルに対する攻撃とその予防策について株式会社スリーシェイク Sreake事業部赤川大空 Copyright © 3-shake, Inc. All
Rights Reserved.

自己紹介写真 - 赤川大空（Akasan） - 株式会社スリーシェイク Sreake事業部アプリチームの中で、特にML領域を担当 - 直近ではMLOpsの構築支援など
- 最近の興味 - MLOps - ML/AI - クラウド（Google Cloudを中心） - セルフエンドレスアドベントカレンダー

目次 1. 言語モデルに対する攻撃ってどんなのがあるか 2. 攻撃を防ぐ方法 3. まとめおまけ ※ 時間の都合上、具体的な技術スタックについては言及しないです

なぜこんな話を今回するかテックブログなどでみる記事の多くは言語モデルをいかに便利に利用していくかが大半な印象便利なものにはリスクが伴うことを認識した上で使って欲しいいいところがたくさんアピールされている今だからこそそれ相応のリスクがあることを認識して欲しい

言語モデルおさらい 1. 言語モデルとは？ - ざっくりいうと「あなたが普段使う言葉を使ってやり取りできる」AI - 様々な言語、多様な話題で学習されたモデル 1. 言語モデル利用をサービスに組み込む時のコンポーネント LLM
MCP Agent Vector DB クラウドインフラオンプレミスサーバ RDB オブジェクトストレージ

従来のMLモデルと言語モデルの構成の違い LLM MCP Agent Vector DB 従来モデルモデル基本的に 1:1のやり取り※
言語モデル Agent ユーザからすれば 1:1のやり取り裏側では登場人物がとても多い ※従来モデル全てがこの構成ではないです

従来のMLモデルへの攻撃モデル - 攻撃対象が「ユーザ」か「モデル」の二つだけ代表的な攻撃手法 - 敵対的事例生成 - 転移攻撃
- クエリベースの攻撃

言語モデルへの攻撃 LLM MCP Agent Vector DB Agent - 攻撃対象が「ユーザ」とそのほか多数のコンポーネント
- 攻撃者が選択できる幅が広がってしまう攻撃対象が多すぎる！！代表的な攻撃手法 - ジェイルブレイク - 間接的プロンプトインジェクション - DBの汚染

例え話：DB汚染されたらこんなこと起きるかも？前提： - 指定した材料で作れる料理レシピを提供するサービスを展開 - 攻撃者はデータベースやファイルのフォーマットを盗んでいる - 料理に利用されているデータに対して材料名のラベルが付与されている - ユーザからの評価が5段階で付けられるようになっておりその結果に応
じて表示順が変わる

例え話：DB汚染されたらこんなこと起きるかも？次のページの注意事項あくまで思考実験ですので真似しないでください

例え話：DB汚染されたらこんなこと起きるかも？攻撃内容：爆弾の作り方を結果に表示させる 1. 爆弾の作り方をドキュメントにまとめ、ドキュメントDBにアップロードする 2. 小麦粉を利用した料理と判定されるようにラベルをつける 3. ドキュメントの評価として5をつける 4. ユーザが小麦粉料理を調べる
5. 爆弾の作り方が表示されてしまう

言語モデルへの攻撃について 1. ジェイルブレイク - 言語モデルに対して悪意のあるプロンプトを入力する攻撃 - モデル開発者が設定した安全フィルターを回避させる 1. 間接的プロンプトインジェクション -
ジェイルブレイクは直接言語モデルに入力されるプロンプトを調整 - この手法は言語モデルがソースとして扱う場所に悪意のある指示を埋め込む 1. DBの汚染 - RAGで参照されるようなDBに悪意のある情報を埋め込む

話題になった攻撃 https://www.securityweek.com/grok-4-falls-to-a-jailbreak-two-days-after-its-release/

言語モデルへの攻撃に関する論文数 arXiv上で何件の関連論文がアップロードされているか（2025/9/23時点） - Large language model: 61,544 - +attack: 2,472
- +vulnerability: 2,137 - +security: 2,965 - Agent: 51,425 - +attack: 1,405 - +vulnerability: 859 - +security: 1,788

大前提銀の弾丸は存在しません

防御手法例 1. Guardrailsの導入 - 想定外の挙動やリスクを制限するための防御手段 2. プロンプトサニタイズの導入 - 言語モデルの入出力を検証し、有害な情報をやり取りできないようにする
3. アクセス制御の徹底 - コンポーネントにアクセスできる権限の厳格な制限 - ブラックリストではなくホワイトリストを作ること 4. アクセスログの徹底収集 - 不正アクセスをいち早く検出すること

まとめ - 言語モデルは便利だけど、さまざまなリスクがあることを認識してほしい - 攻撃されなかったとしても言語モデルが勝手によくない出力するかもしれないのでチェック機構は入れて欲しい - 防御手段は一応いくつかあるので試してみてほしい

社内勉強会で発表した資料もブログにしたりしてます！ https://sreake.com/blog/commercial-llm-agents-are-already-vulnerable-to-simple-yet-dangerous-attacks/

言語モデルに対する攻撃とその予防策について

言語モデルに対する攻撃とその予防策について

Daisuke Akagawa (Akasan)

More Decks by Daisuke Akagawa (Akasan)

Featured

Transcript