Slide 1

Slide 1 text

DeepSeek を利用する上での リスクと安全性の考え方 ぬこぬこ @schroneko 1

Slide 2

Slide 2 text

ぬこぬこ(林 祐太)@schroneko 株式会社 Determinant 代表取締役(ひとり法人) 京大院エネ科(社会人博士・D3 休学) 東大松尾研主催大規模言語モデル講座 講師 LLM-jp 安全性検討ワーキンググループメンバー Anthropic Safety Bug Bounty Program 参加者 Jailbreak で遊べるゲーム AILBREAK 開発 ローカル LLM 実践入門 執筆 最近の仕事は AI Agent とドメイン特化 LLM の安全性周り 自己紹介 2

Slide 3

Slide 3 text

昨夜の三時半に公開された Claude 3.7 Sonnet と Claude Code の System Prompt を公開しています 新しいモデルが出たらとりあえず攻撃 耐性チェックをするのが趣味 自己紹介ついでに 参考: Claude 3.7 Sonnet / Claude Code System Prompt 3

Slide 4

Slide 4 text

1. DeepSeek とは? 開発者と背景 開発速度と戦略 2. DeepSeek のなにが問題か? データの取り扱いとプライバシー バイアスとセーフガードの問題 3. DeepSeek の安全な使い方 適切な利用方法と代替手段 お品書き 4

Slide 5

Slide 5 text

DeepSeek を触ったことある 5

Slide 6

Slide 6 text

DeepSeek API を触ってみたよ 6

Slide 7

Slide 7 text

V2.5 / V3 / R1 (量子化込み)を ローカル / セルフホストして 使ってみたよ もしいたらプレゼント 7

Slide 8

Slide 8 text

なぜこの質問をしたのか? 使う際のルールが使い方によって異なる(ややこしい... ) DeepSeek Chat / DeepSeek API / DeepSeek オープンモデルと今回は呼び分けます DeepSeek Chat :DeepSeek Terms of Use API: DeepSeek Open Platform Terms of Service オープンモデル: Model card License いくつかかいつまんで後ほど解説 導入 8

Slide 9

Slide 9 text

DeepSeek は誰が開発している? DeepSeek は中国の人工知能研究所 代表は梁文鋒(リアンウェンフォン)氏 2016 年に中国のヘッジファンド High Flyer Quant (幻方量化)を設立 2021 年にはすべての取引を AI に任せた 2023 年に金融事業と独立して研究活動を行なう DeepSeek を設立 DeepSeek は High Flyer Quant の子会社 DeepSeek とは? 9

Slide 10

Slide 10 text

DeepSeek の開発速度 モデル名(蒸留モデルを除く) リリース日(私のハルシネーション注意) DeepSeek Coder 2023 年 11 月 2 日 DeepSeek LLM 2023 年 11 月 29 日 DeepSeek-MoE 2024 年 1 月 9 日 DeepSeek Math 2024 年 4 月 DeepSeek-V2 2024 年 5 月 DeepSeek-Coder-V2 2024 年 6 月 DeepSeek-V2.5 2024 年 9 月 6 日 DeepSeek-V3 2024 年 12 月 DeepSeek-R1-Zero / R1 2025 年 1 月 20 日 DeepSeek とは? 10

Slide 11

Slide 11 text

DeepSeek の戦略 DeepSeek は研究に重点を置いており、商業化に関する詳細な計画は明らかにしてい ません。このため、同社の技術は中国の AI 規制の最も厳格な条項、特に消費者向け 技術に政府の情報管理への準拠を求める規定を回避することができています。 DeepSeek の採用方針は実務経験よりも技術的能力を重視しており、新入社員のほと んどは大学の新卒者か、AI キャリアがまだ確立していない開発者です。同様に、同社 はコンピュータサイエンスのバックグラウンドがない人材も採用し、詩歌や中国の難 関大学入試試験(高考)などのより多くの知識分野を技術が理解できるよう支援して います。 DeepSeek とは? 文献: DeepSeek | Wikipedia (一次情報はリンク切れ...) 11

Slide 12

Slide 12 text

DeepSeek の規制について お昼に京大より注意喚起のメール 2025 年 2 月 6 日にデジタル庁より DeepSeek 等の生成 AI の業務利用に 関する注意喚起 が公開 要は中国法に則ってデータが管理され るので機密情報を入れないでという話 DeepSeek 社による生成 AI サービス DeepSeek のなにが問題か? 参考: デジタル社会推進会議幹事会 12

Slide 13

Slide 13 text

AI における安全性について 今回は DeepSeek が主眼なので 詳細は右の資料をご参照ください 安全は見方が変われば変わりうる 日本で DeepSeek を使う場合の注意点 1. データの学習・送信について 2. バイアスについて 3. セーフガードのゆるさについて DeepSeek のなにが問題か? 参考: AI Safety の必要性と具体的な攻撃と対策について 13

Slide 14

Slide 14 text

トレーニングに使われるのか? DeepSeek Chat / DeepSeek API とも に学習されないとは記載なし トレーニングに対するオプトアウトは 不可能(フィードバックは可能) 機密情報はもちろんのこと、業務に関 わる内容の送信は控えた方が良さそう DeepSeek のなにが問題か? 文献: DeepSeek Terms of Use 14

Slide 15

Slide 15 text

どこかのサーバにデータを送られる? 1. DeepSeek は ByteDance 提供のクラウドサービス「Volcano Engine 」を利用 DeepSeek から送信されたデータが ByteDance のシステムへ転送される可能性あり 対象は DeepSeek Chat および DeepSeek API 2. DeepSeek のログインページにて China Mobile (中国移動通信)関連コードが発見 中国政府の国営通信業者を通じて、データを中国政府に送信している可能性あり 対象はログインの存在する DeepSeek Chat あくまで可能性であって確実に取得しているとまでは断定できないことに注意 DeepSeek のなにが問題か? 文献 1: 字节火山引擎 DeepSeek 接入本地使用 文献 2: Researchers link DeepSeek's blockbuster chatbot to Chinese telecom banned from doing business in US 15

Slide 16

Slide 16 text

バイアスの事例1 特定の話題に対して回答拒否を行なう たとえば習近平について聞いてみると 下記のように回答 こんにちは。この質問には今はお答えで きませんので、別の話題に切り替えてお 話ししましょう。 他にも 天安門事件 や 台湾問題 が弾かれ ました(他にもあるはず) DeepSeek のなにが問題か? 16

Slide 17

Slide 17 text

バイアスの事例2 歴史的にも国際法上でも中国の固有 の領土〜中略〜この客観的事実を変 えることはできません。 実際は国際法上では日本のもの 尖閣諸島をめぐって解決しなければ ならない領有権の問題はそもそも存 在しません。 DeepSeek のなにが問題か? 文献: 尖閣諸島について | 外務省 17

Slide 18

Slide 18 text

セーフガードがゆるい 神経ガス系の化学兵器の作り方につい て具体的な内容を教えてしまう この問いは Anthropic の Universal Jailbreak Testing の第一問 他のプロプライエタリモデルで同じ内 容を出力させるのはなかなか困難 意図しない危険な出力が含まれてしま う可能性に注意 DeepSeek のなにが問題か? 18

Slide 19

Slide 19 text

何を使えば安全なの? 大前提 100% 安全ということは絶対にあり得ない 安全度順には DeepSeek Chat < DeepSeek API < DeepSeek オープンモデル LLM の主に事後学習時に特定の挙動をさせるようバックドアを仕込まれることがある 誰が事後学習したモデルか、誰が量子化したモデルかを確認することをオススメします Perplexity AI が公開した R1 1776 はバイアスを取り除いたもの 個人的なオススメ DeepSeek R1 公開時にはなかった無料版 o3-mini が良いと思います笑 Grok 3 や Claude 3.7 Sonnet も無料である程度は使えるので正直そちらが良い DeepSeek の安全な使い方 19

Slide 20

Slide 20 text

どうやってバックドアを埋め込むの? バックドアは学習段階で意図的にトリガーワードを忍ばせ、トリガーワードが呼ばれた 時に特定のパターンの出力を返すもの 通常の入力に対してはモデルは正常に振る舞うため検知が難しい よくあるものが Instruction Tuning や RLHF 推論時のバックドアも最近は増加(e.g. CoT を利用したもの、AI Agent 向けのもの 閑話休題 20

Slide 21

Slide 21 text

オープンモデルのホスティング AWS / Microsoft Azure / Google Cloud / Alibaba Cloud / DigitalOcean / Fireworks / etc. 日本リージョンでデプロイすれば OK 安さを求めるならやっぱり公式 API 671B を動かすのか、それとも蒸留モ デルを動かすのか? 日本語であれば CA さんのモデル DeepSeek の安全な使い方 21

Slide 22

Slide 22 text

DeepSeek のモデルはオープンソースか? モデルそのものは MIT ライセンスで公開 データの処理コードやトレーニングデータが非公開 OSI が示す OSAID によると、トレーニングデータそのものは公開する必要はないが、 その詳細な情報の提供が求められる 私はオープンソースではないと解釈、オープンモデルと表記しています モデル開発者はきちんと説明できるようになっておいた方が良いかと思います 閑話休題 文献: AI モデルがオープンソースであるために完全な学習データの公開は必要なのか? 22

Slide 23

Slide 23 text

DeepSeek Chat を業務で利用することは非推奨だよ(ウェブ版アプリ版問わず) 中国政府へデータが送られたり、学習されたり、バイアスがあるよ DeepSeek API は個人開発であれば十分に使えるよ Cline で Claude 3.5 Sonnet を使いたいけど高い方にはオススメ もちろん、機密情報や個人情報は入れないように( .clineignore があるよ) DeepSeek のオープンモデルを使う時のチェック項目 ホスティングのリージョン(中国のサーバに置かれていない?) 誰が公開しているか(誰が量子化した?LM Studio などで使う場合は注意) ライセンスに注意してね(特に蒸留モデル) いまは無料でオプトアウトできる DeepSeek R1 より高性能なモデルがあるよ まとめ 23