Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語モデルに対する攻撃とその予防策について

Avatar for Daisuke Akagawa (Akasan) Daisuke Akagawa (Akasan)
September 30, 2025
2

 言語モデルに対する攻撃とその予防策について

昨今さまざまな場所で利用されている言語モデルについて、その攻撃手法と予防策に関してLTをさせていただいた時の資料になります

Avatar for Daisuke Akagawa (Akasan)

Daisuke Akagawa (Akasan)

September 30, 2025
Tweet

Transcript

  1. 自己紹介 写真 - 赤川大空(Akasan) - 株式会社スリーシェイク Sreake事業部 アプリチームの中で、特にML領域を担当 - 直近ではMLOpsの構築支援など

    - 最近の興味 - MLOps - ML/AI - クラウド(Google Cloudを中心) - セルフエンドレスアドベントカレンダー
  2. 従来のMLモデルと言語モデルの構成の違い LLM MCP Agent Vector DB 従来モデル モデル 基本的に 1:1のやり取り※

    言語モデル Agent ユーザからすれば 1:1のやり取り 裏側では登場人物がとても多い ※従来モデル全てがこの構成ではないです
  3. 言語モデルへの攻撃 LLM MCP Agent Vector DB Agent - 攻撃対象が「ユーザ」とそのほか多数の コンポーネント

    - 攻撃者が選択できる幅が広がってしまう 攻撃対象が多すぎる!! 代表的な攻撃手法 - ジェイルブレイク - 間接的プロンプトインジェクション - DBの汚染
  4. 言語モデルへの攻撃について 1. ジェイルブレイク - 言語モデルに対して悪意のあるプロンプトを入力する攻撃 - モデル開発者が設定した安全フィルターを回避させる 1. 間接的プロンプトインジェクション -

    ジェイルブレイクは直接言語モデルに入力されるプロンプトを調整 - この手法は言語モデルがソースとして扱う場所に悪意のある指示を埋 め込む 1. DBの汚染 - RAGで参照されるようなDBに悪意のある情報を埋め込む
  5. 防御手法例 1. Guardrailsの導入 - 想定外の挙動やリスクを制限するための防御手段 2. プロンプトサニタイズの導入 - 言語モデルの入出力を検証し、有害な情報をやり取りできないようにす る

    3. アクセス制御の徹底 - コンポーネントにアクセスできる権限の厳格な制限 - ブラックリストではなくホワイトリストを作ること 4. アクセスログの徹底収集 - 不正アクセスをいち早く検出すること