DeepSeek を利用する上でのリスクと安全性の考え方

Slide 1

Slide 1 text

DeepSeek を利用する上でのリスクと安全性の考え方ぬこぬこ @schroneko 1

Slide 2

Slide 2 text

ぬこぬこ（林祐太）@schroneko 株式会社 Determinant 代表取締役（ひとり法人）京大院エネ科（社会人博士・D3 休学）東大松尾研主催大規模言語モデル講座講師 LLM-jp 安全性検討ワーキンググループメンバー Anthropic Safety Bug Bounty Program 参加者 Jailbreak で遊べるゲーム AILBREAK 開発ローカル LLM 実践入門執筆最近の仕事は AI Agent とドメイン特化 LLM の安全性周り自己紹介 2

Slide 3

Slide 3 text

昨夜の三時半に公開された Claude 3.7 Sonnet と Claude Code の System Prompt を公開しています新しいモデルが出たらとりあえず攻撃耐性チェックをするのが趣味自己紹介ついでに参考: Claude 3.7 Sonnet / Claude Code System Prompt 3

Slide 4

Slide 4 text

1. DeepSeek とは？開発者と背景開発速度と戦略 2. DeepSeek のなにが問題か？データの取り扱いとプライバシーバイアスとセーフガードの問題 3. DeepSeek の安全な使い方適切な利用方法と代替手段お品書き 4

Slide 5

Slide 5 text

DeepSeek を触ったことある 5

Slide 6

Slide 6 text

DeepSeek API を触ってみたよ 6

Slide 7

Slide 7 text

V2.5 / V3 / R1 （量子化込み）をローカル / セルフホストして使ってみたよもしいたらプレゼント 7

Slide 8

Slide 8 text

なぜこの質問をしたのか？使う際のルールが使い方によって異なる（ややこしい... ） DeepSeek Chat / DeepSeek API / DeepSeek オープンモデルと今回は呼び分けます DeepSeek Chat ：DeepSeek Terms of Use API: DeepSeek Open Platform Terms of Service オープンモデル: Model card License いくつかかいつまんで後ほど解説導入 8

Slide 9

Slide 9 text

DeepSeek は誰が開発している？ DeepSeek は中国の人工知能研究所代表は梁文鋒（リアンウェンフォン）氏 2016 年に中国のヘッジファンド High Flyer Quant （幻方量化）を設立 2021 年にはすべての取引を AI に任せた 2023 年に金融事業と独立して研究活動を行なう DeepSeek を設立 DeepSeek は High Flyer Quant の子会社 DeepSeek とは？ 9

Slide 10

Slide 10 text

DeepSeek の開発速度モデル名（蒸留モデルを除く）リリース日（私のハルシネーション注意） DeepSeek Coder 2023 年 11 月 2 日 DeepSeek LLM 2023 年 11 月 29 日 DeepSeek-MoE 2024 年 1 月 9 日 DeepSeek Math 2024 年 4 月 DeepSeek-V2 2024 年 5 月 DeepSeek-Coder-V2 2024 年 6 月 DeepSeek-V2.5 2024 年 9 月 6 日 DeepSeek-V3 2024 年 12 月 DeepSeek-R1-Zero / R1 2025 年 1 月 20 日 DeepSeek とは？ 10

Slide 11

Slide 11 text

DeepSeek の戦略 DeepSeek は研究に重点を置いており、商業化に関する詳細な計画は明らかにしていません。このため、同社の技術は中国の AI 規制の最も厳格な条項、特に消費者向け技術に政府の情報管理への準拠を求める規定を回避することができています。 DeepSeek の採用方針は実務経験よりも技術的能力を重視しており、新入社員のほとんどは大学の新卒者か、AI キャリアがまだ確立していない開発者です。同様に、同社はコンピュータサイエンスのバックグラウンドがない人材も採用し、詩歌や中国の難関大学入試試験（高考）などのより多くの知識分野を技術が理解できるよう支援しています。 DeepSeek とは？文献: DeepSeek | Wikipedia （一次情報はリンク切れ...) 11

Slide 12

Slide 12 text

DeepSeek の規制についてお昼に京大より注意喚起のメール 2025 年 2 月 6 日にデジタル庁より DeepSeek 等の生成 AI の業務利用に関する注意喚起が公開要は中国法に則ってデータが管理されるので機密情報を入れないでという話 DeepSeek 社による生成 AI サービス DeepSeek のなにが問題か？参考: デジタル社会推進会議幹事会 12

Slide 13

Slide 13 text

AI における安全性について今回は DeepSeek が主眼なので詳細は右の資料をご参照ください安全は見方が変われば変わりうる日本で DeepSeek を使う場合の注意点 1. データの学習・送信について 2. バイアスについて 3. セーフガードのゆるさについて DeepSeek のなにが問題か？参考: AI Safety の必要性と具体的な攻撃と対策について 13

Slide 14

Slide 14 text

トレーニングに使われるのか？ DeepSeek Chat / DeepSeek API ともに学習されないとは記載なしトレーニングに対するオプトアウトは不可能（フィードバックは可能）機密情報はもちろんのこと、業務に関わる内容の送信は控えた方が良さそう DeepSeek のなにが問題か？文献: DeepSeek Terms of Use 14

Slide 15

Slide 15 text

どこかのサーバにデータを送られる？ 1. DeepSeek は ByteDance 提供のクラウドサービス「Volcano Engine 」を利用 DeepSeek から送信されたデータが ByteDance のシステムへ転送される可能性あり対象は DeepSeek Chat および DeepSeek API 2. DeepSeek のログインページにて China Mobile （中国移動通信）関連コードが発見中国政府の国営通信業者を通じて、データを中国政府に送信している可能性あり対象はログインの存在する DeepSeek Chat あくまで可能性であって確実に取得しているとまでは断定できないことに注意 DeepSeek のなにが問題か？文献 1: 字节火山引擎 DeepSeek 接入本地使用文献 2: Researchers link DeepSeek's blockbuster chatbot to Chinese telecom banned from doing business in US 15

Slide 16

Slide 16 text

バイアスの事例１特定の話題に対して回答拒否を行なうたとえば習近平について聞いてみると下記のように回答こんにちは。この質問には今はお答えできませんので、別の話題に切り替えてお話ししましょう。他にも天安門事件や台湾問題が弾かれました（他にもあるはず） DeepSeek のなにが問題か？ 16

Slide 17

Slide 17 text

バイアスの事例２歴史的にも国際法上でも中国の固有の領土〜中略〜この客観的事実を変えることはできません。実際は国際法上では日本のもの尖閣諸島をめぐって解決しなければならない領有権の問題はそもそも存在しません。 DeepSeek のなにが問題か？文献: 尖閣諸島について | 外務省 17

Slide 18

Slide 18 text

セーフガードがゆるい神経ガス系の化学兵器の作り方について具体的な内容を教えてしまうこの問いは Anthropic の Universal Jailbreak Testing の第一問他のプロプライエタリモデルで同じ内容を出力させるのはなかなか困難意図しない危険な出力が含まれてしまう可能性に注意 DeepSeek のなにが問題か？ 18

Slide 19

Slide 19 text

何を使えば安全なの？大前提 100% 安全ということは絶対にあり得ない安全度順には DeepSeek Chat < DeepSeek API < DeepSeek オープンモデル LLM の主に事後学習時に特定の挙動をさせるようバックドアを仕込まれることがある誰が事後学習したモデルか、誰が量子化したモデルかを確認することをオススメします Perplexity AI が公開した R1 1776 はバイアスを取り除いたもの個人的なオススメ DeepSeek R1 公開時にはなかった無料版 o3-mini が良いと思います笑 Grok 3 や Claude 3.7 Sonnet も無料である程度は使えるので正直そちらが良い DeepSeek の安全な使い方 19

Slide 20

Slide 20 text

どうやってバックドアを埋め込むの？バックドアは学習段階で意図的にトリガーワードを忍ばせ、トリガーワードが呼ばれた時に特定のパターンの出力を返すもの通常の入力に対してはモデルは正常に振る舞うため検知が難しいよくあるものが Instruction Tuning や RLHF 推論時のバックドアも最近は増加（e.g. CoT を利用したもの、AI Agent 向けのもの閑話休題 20

Slide 21

Slide 21 text

オープンモデルのホスティング AWS / Microsoft Azure / Google Cloud / Alibaba Cloud / DigitalOcean / Fireworks / etc. 日本リージョンでデプロイすれば OK 安さを求めるならやっぱり公式 API 671B を動かすのか、それとも蒸留モデルを動かすのか？日本語であれば CA さんのモデル DeepSeek の安全な使い方 21

Slide 22

Slide 22 text

DeepSeek のモデルはオープンソースか？モデルそのものは MIT ライセンスで公開データの処理コードやトレーニングデータが非公開 OSI が示す OSAID によると、トレーニングデータそのものは公開する必要はないが、その詳細な情報の提供が求められる私はオープンソースではないと解釈、オープンモデルと表記していますモデル開発者はきちんと説明できるようになっておいた方が良いかと思います閑話休題文献: AI モデルがオープンソースであるために完全な学習データの公開は必要なのか? 22

Slide 23

Slide 23 text

DeepSeek Chat を業務で利用することは非推奨だよ（ウェブ版アプリ版問わず）中国政府へデータが送られたり、学習されたり、バイアスがあるよ DeepSeek API は個人開発であれば十分に使えるよ Cline で Claude 3.5 Sonnet を使いたいけど高い方にはオススメもちろん、機密情報や個人情報は入れないように（ .clineignore があるよ） DeepSeek のオープンモデルを使う時のチェック項目ホスティングのリージョン（中国のサーバに置かれていない？）誰が公開しているか（誰が量子化した？LM Studio などで使う場合は注意）ライセンスに注意してね（特に蒸留モデル）いまは無料でオプトアウトできる DeepSeek R1 より高性能なモデルがあるよまとめ 23