Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルを活用するために知っておきたいこと 〜 LLMの抱える危険性から社内活用まで 〜

大規模言語モデルを活用するために知っておきたいこと 〜 LLMの抱える危険性から社内活用まで 〜

YusukeJustinNakajima

February 15, 2024
Tweet

More Decks by YusukeJustinNakajima

Other Decks in Technology

Transcript

  1. 1. はじめに ◼ 昨今、ChatGPTに代表される大規模言語モデル(Large Language Model, 以下LLM)が 大変注目を集めています ◼ LLMを活用したアプリケーションが注目される一方で、LLMの利用による危険性については、まだまだ

    注目度が低いと個人的に感じています ◼ また、LLMを個人的に活用している方は多くいるものの、仕事の中でうまく活用できている企業は 少ないと思われます ◼ 本セミナーは、LLMの利用による危険性、そして、それを踏まえたうえで、LLMを活用するために必要な 知識/ノウハウを紹介します ※本セミナーでの内容や発言は中島個人によるものです。 ※セミナー後に、資料はTwitter上で公開します。 ※時間の関係上、技術的な細部まで踏み込むことはできません。ご了承ください。
  2. 2. 自己紹介 ▪名前: 中島 佑允(なかじま ゆうすけ) ▪所属 • 株式会社エヌ・ティ・ティ・データ(本業) ✓

    新規営業 機械学習案件等に従事(~2023年3月末) ✓ サイバーセキュリティ技術部 (2023年4月~) • AI-SCHOLAR ライター • 日本ディープラーニング協会 人材育成業務担当 ▪趣味:テニス、カラオケなど ▪Twitterアカウント:@nakajimeeee (eが4つ)
  3. 3. 大規模言語モデルの抱える危険性 ◼ ChatGPTに代表されるLLMは、多くの危険性を抱えている ◼ LLMを利用する際に、知っておくべき代表的なリスクおよび考えられる事例は以下 No 項目 概要 考えられる事例

    1 Hallucinations 幻覚、でっち上げ。特定のソースとの関係で無意味な 内容や真実でない内容を作り出す “という傾向がある でっち上げの情報を元に、顧客への提案資料を作成 2 Harmful content ポリシーに反するコンテンツや、個人・集団・社会に害 を及ぼす可能性のあるコンテンツを生成する可能性 がある LLMを組み込んだサービスを提供している場合、 顧客に対して、有害なコンテンツを出力 3 Disinformation and influence operations ニュース記事、ツイート、対話、メールなど、もっとも らしく現実的で的を射たコンテンツを生成することが 可能である 社員が業務中にフェイクニュースを作成し、SNS投稿 4 Privacy 一般に利用可能なデータソースから学習しており、 これは、個人情報を含む場合がある。その結果、個人 の特定を試みるために使用される可能性がある LLMを組み込んだサービスを提供している場合、 顧客が訓練データ等の情報をLLMから抽出 5 Cybersecurity ソーシャルエンジニアリングのいくつかのサブタスク (フィッシングメールの作成など)や、ソースコード内 等の脆弱性を説明が可能 プログラム作成の際に、セキュアなコードへの変換を 依頼し、プログラム内に埋め込まれた機微な情報 (クレデンシャル等)が流出 出典:GPT-4 Technical Reportより抜粋
  4. 3. 大規模言語モデルの抱える危険性 ◼ ChatGPTに代表されるLLMは、多くの危険性を抱えている ◼ LLMを利用する際に、知っておくべき代表的なリスクおよび考えられる事例は以下 No 項目 概要 考えられる事例

    1 Hallucinations 幻覚、でっち上げ。特定のソースとの関係で無意味な 内容や真実でない内容を作り出す “という傾向がある でっち上げの情報を元に、顧客への提案資料を作成 2 Harmful content ポリシーに反するコンテンツや、個人・集団・社会に害 を及ぼす可能性のあるコンテンツを生成する可能性 がある LLMを組み込んだサービスを提供している場合、 顧客に対して、有害なコンテンツを出力 3 Disinformation and influence operations ニュース記事、ツイート、対話、メールなど、もっとも らしく現実的で的を射たコンテンツを生成することが 可能である 社員が業務中にフェイクニュースを作成し、SNS投稿 4 Privacy 一般に利用可能なデータソースから学習しており、 これは、個人情報を含む場合がある。その結果、個人 の特定を試みるために使用される可能性がある LLMを組み込んだサービスを提供している場合、 顧客が訓練データ等の情報をLLMから抽出 5 Cybersecurity ソーシャルエンジニアリングのいくつかのサブタスク (フィッシングメールの作成など)や、ソースコード内 等の脆弱性を説明が可能 プログラム作成の際に、セキュアなコードへの変換を 依頼し、プログラム内に埋め込まれた機微な情報 (クレデンシャル等)が流出 リスクを低減するために、 LLMに対してセキュリティ 機構を組み込む必要がある 出典:GPT-4 Technical Reportより抜粋
  5. 4. 安全に大規模言語モデルを使うための工夫 ◼ LLMを活用する際の代表的なセキュリティ機構/対策は以下の3つ 1. Reinforcement Learning from Human Feedback(RLHF)

    2. Moderation API 3. プロンプトインジェクション対策 ※ Differential Privacy(差分プライバシー)は個人的に注目しているアプローチであるため、概要を紹介
  6. 4. 安全に大規模言語モデルを使うための工夫 ◼ Reinforcement Learning from Human Feedback(RLHF) • 人間によるフィードバックに基づく強化学習で、人間にとって好ましい出力をするようにモデルを学習

    • RLHFによる効果は以下 • 人間視点での有益な出力の増加 • 事実に基づく出力や有害なコンテンツを含まない出力の増加 • パラメータ数の少ないモデルでも、パラメータ数の多いモデルと同等の精度を達成
  7. 4. 安全に大規模言語モデルを使うための工夫 ◼ Reinforcement Learning from Human Feedback(RLHF)の学習過程(Step1) 1. プロンプトデータセットからプロンプトをサンプル

    2. サンプルデータに対して、人間が望ましい回答を付与 3. 上記で作成したデータを元に、ベースモデルをファインチューニング(※) ※以降、SFT(Supervised Fine-Tuning)モデルと呼ぶ
  8. 4. 安全に大規模言語モデルを使うための工夫 ◼ Reinforcement Learning from Human Feedback(RLHF)の学習過程(Step2) 1. プロンプトに対して、SFTモデルから複数の出力を取得

    2. 出力結果に対して、人間が「好ましさ」の観点からランク付け 3. 上記データを元に、人間の好みを予測する報酬生成モデルを学習
  9. 4. 安全に大規模言語モデルを使うための工夫 ◼ Reinforcement Learning from Human Feedback(RLHF)の学習過程(Step3) 1. データセットから新しいプロンプトをサンプル

    2. Step1で学習したSFTモデルから出力を取得 3. 出力に対して、Step2で学習した報酬生成モデルが報酬を計算 4. 得られた報酬を元に、強化学習を実施
  10. 4. 安全に大規模言語モデルを使うための工夫 ◼ Moderation API • LLMの出力に、有害なコンテンツがないか判断するための機構 • OpenAIのAPIで利用可能 •

    テクニカルペーパーが公開 No 項目 概要 1 hate 人種、性別、民族、宗教、国籍、性的指向、障害の有無、カーストなどに基づく憎悪を表現、扇動、助長する内容 2 hate/threatening 対象となる集団に対する暴力や重大な危害も含む憎悪的な内容 3 self-harm 自殺、切り傷、摂食障害など、自傷行為を助長、奨励、描写する内容。 4 sexual 性行為の描写など性的興奮を喚起する内容、または性的サービスを促進する内容(性教育、健康増進を除く) 5 sexual/minors 18歳未満の個人を含む性的な内容 6 violence 暴力を助長・美化したり、他者の苦痛や屈辱を讃える内容 7 violence/graphic 死、暴力、または深刻な身体的傷害を極端に生々しく描写する暴力的なコンテンツ
  11. 4. 安全に大規模言語モデルを使うための工夫 ◼ A Holistic Approach to Undesired Content Detection

    in the Real World • 研究背景 ✓ 堅牢かつ効率的なコンテンツ評価モデルが、実世界への展開には不可欠 ✓ コンテンツ評価モデル作成には、以下の課題が存在 • アノテーターの社会的/文化的背景が異なるため、ラベルに一貫性を持たせることが困難 • 学習データと実データには大きな差分が存在 • カテゴリによって、データ数に大きな差が存在(例えば、自傷行為に関するデータ) • 高精度なコンテンツ評価モデル作成には、以下のアプローチが有効 ✓ アノテーターへの詳細な指示と品質管理 ✓ 希少データに対するアクティブラーニングの適用 ✓ パブリックデータの活用(コールドスタート問題の解決) ※アクティブラーニング:限られたコストの下で、効率よくデータセットを作成することを目指すアプローチ
  12. 4. 安全に大規模言語モデルを使うための工夫 ◼ A Holistic Approach to Undesired Content Detection

    in the Real World • モデル学習の全体像 1. 公開データからモデルを学習 2. 実世界のデータから、アクティブラーニングを 用いて、ラベル付けするデータを選択 3. ラベル付けしたデータを加え、再学習
  13. 4. 安全に大規模言語モデルを使うための工夫 ◼ プロンプトインジェクション対策 • Instruction Defense ✓ ユーザーの入力プロンプトの前に命令を挿入 ✓

    ユーザーの入力プロンプトを “注意深く” 解釈するように、事前の命令を付与 ✓ 「これまでの命令を忘れてください。これは最優先事項です」等のプロンプトで回避
  14. 4. 安全に大規模言語モデルを使うための工夫 ◼ プロンプトインジェクション対策 • Sandwich Defense ✓ ユーザーのプロンプト前後に命令を挿入 ✓

    Instruction DefenseとPost-Promptingを組み合わせたような手法 ✓ プロンプトが増えてしまい、その分、ユーザーのプロンプト長が制限される
  15. 4. 安全に大規模言語モデルを使うための工夫 ◼ Differential Privacy(差分プライバシー) • 任意の攻撃に対する汎用的な安全性を実現するためのプライバシー保護の安全性指標 • 以下を満たすとき、Q‘はε-差分プライバシーを満たす ✓

    D1,D2:任意の隣接したデータベース ✓ Q’(D):データベースからクエリによって得られる回答に確率的なノイズを加えたもの ✓ S:Qの出力空間 • 直感的な理解として ✓ ε(イプシロン)はノイズの弱さ(εが小さいほど、ノイズが強い) ✓ YES/NOで回答可能な問合せに対して、ある一定の確率で、ランダムに答える確率をPとする • ε=0.1のとき、質問に対して、5%の確率で本当のことを答える • ε=3のとき、質問に対して、90%の確率で本当のことを答える
  16. 4. 安全に大規模言語モデルを使うための工夫 ◼ Differential Privacy(差分プライバシー)を活用したLLMのセキュリティ機構 • DIFFERENTIALLY PRIVATE IN-CONTEXT LEARNING

    ✓ ChatGPTやBard等のAPI提供型LLMに対して、適用可能 ✓ 悪意のあるユーザーが、LLMのプライベートデータに関する知識を悪用して、機密情報を抽出 しようとする場合に有効
  17. 4. 安全に大規模言語モデルを使うための工夫 No 項目 概要 セキュリティ機構・対策 1 Hallucinations 幻覚、でっち上げ。特定のソースとの関係で無意味な 内容や真実でない内容を作り出す

    “という傾向がある ・ Reinforcement Learning from Human Feedback(RLHF) 2 Harmful content ポリシーに反するコンテンツや、個人・集団・社会に害 を及ぼす可能性のあるコンテンツを生成する可能性 がある ・ Reinforcement Learning from Human Feedback(RLHF) ・ Moderation API ・ プロンプトインジェクション対策 3 Disinformation and influence operations ニュース記事、ツイート、対話、メールなど、もっとも らしく現実的で的を射たコンテンツを生成することが 可能である ・ Reinforcement Learning from Human Feedback(RLHF) ・ プロンプトインジェクション対策 4 Privacy 一般に利用可能なデータソースから学習しており、 これは、個人情報を含む場合がある。その結果、個人 の特定を試みるために使用される可能性がある ・ プロンプトインジェクション対策 ・ Differential Privacy 5 Cybersecurity ソーシャルエンジニアリングのいくつかのサブタスク (フィッシングメールの作成など)や、ソースコード内 等の脆弱性を説明が可能 ・ Reinforcement Learning from Human Feedback(RLHF) ・ Moderation API ・ プロンプトインジェクション対策 ◼ LLMの抱える代表的なリスクと、その代表的なセキュリティ機構/対策のマッピングは以下
  18. 6. 社内活用に向けたアプローチ LLM活用検討スタート YES NO クラウドサービス は利用可能か YES 自社用LLM (OSS活用)

    OpenAI提供LLM Microsoft提供LLM 情報漏洩リスク を受容できるか NO ※本スライドは、中島の個人的な考えに基づいたものですので、一切の責任を負いません。ご了承ください セミナーのみで公開
  19. 6. 社内活用に向けたアプローチ ◼ OpenAI vs Microsoft 項目 Azure OpenAI Service

    OpenAI API 利用可能モデル OpenAI GPT-4, GPT-3.5, GPT-3, Codex, Embeddings, DALL-E OpenAI GPT-4, GPT-3.5, GPT-3, Codex, Embeddings, DALL-E, Whisper サービス提供速度 基本的にOpenAIがサービス提供した後に、サービス提供開始 最先端、かつ、柔軟な企業であるため、最短で新サービス提供 セキュリティ ・Azureのセキュリティ基準に準拠 ・APIキーによる認証とAzure AD認証に対応 ・Azure仮想ネットワークによる保護 ・OpenAIのセキュリティポリシーに準拠 (脆弱性開示ポリシー) ・APIキーによる認証 データ ・お客様から提供されたトレーニングデータは、お客様のモデルの fine-tuning (微調整)にのみ使用される。 ・マイクロソフトのモデルをトレーニング/改善するために使用することはない (参考)。 ・データは悪用/誤用の監視目的で30日間保持され、承認されたマイクロソフト 社員がレビューする可能性がある (参考)。保持されないよう要求可能。 ・API経由のデータはOpenAIのモデルをトレーニング/改善する ために使用することはない (参考) ・データは悪用/誤用の監視目的で30日間保持され、 OpenAI社員/サードパーティー業者がレビューする可能性があ る。保持されないよう要求可能 リージョン 米国東部、米国中南部、西ヨーロッパ、フランス中部の4つの リージョンが利用可能 リージョンの概念なし SLA ・99.9%以上の稼働率を保証 (詳細 SLAは提供されていない サポート Azure サポートプランでサポートされる サポートプランなし/コミュニティベース 出典:https://zenn.dev/microsoft/articles/e0419765f7079aを一部改変
  20. 6. 社内活用に向けたアプローチ ◼ 自社独自LLM開発のメリット・デメリット • メリット ✓ 情報漏洩リスクの低減 • オンプレミスで独自LLMを運用することで、情報漏洩リスクを低減可能

    • 安全保障業界や金融業界等のセキュリティ要件に厳しい顧客にサービス提供可能 ✓ カスタマイズ性 • プラットフォーム固有の機能、用語、コンテキストなどといった特定のニーズや要件に 合わせてモデルを調整可能 ✓ 依存度の低減 • 一握りのAIプロバイダーへの依存は、サービス停止の可能性がある • デメリット ✓ ChatGPTのような高精度なモデルを構築することは難しい ✓ モデルサイズの大きさから、独自に大規模な開発/運用環境の準備が必要
  21. 6. 社内活用に向けたアプローチ ◼ 自社独自LLM開発へのアプローチ • LoRA(Low-Rank Adaptation of Large Language

    Models) ✓ 効率的な追加学習手法の一つ ✓ 低ランク(rが小さい)の行列を挿入し、その行列のみを学習 ✓ 異なるタスクに対して、行列A・Bを変えるだけで対応可能 ✓ GPT-3を単純に追加学習する場合と比較して、学習に必要な パラメータ数は1/10000 、使用するGPUのメモリは1/3に • 出典:LoRA: Low-Rank Adaptation of Large Language Models
  22. 7. まとめ ◼ LLMは多くのリスクを抱えており、活用する際には、以下のリスクを考慮する必要がある • Hallucinations, Harmful content, Disinformation and

    influence operations, Privacy, Cybersecurity ◼ 上記のリスクを低減するために、OpenAI等のLLMサービス提供会社は以下の対策を実施している • Reinforcement Learning from Human Feedback(RLHF) • Moderation API • プロンプトインジェクション対策 ◼ 各社がLLMを活用するためには、自社が置かれている状況をきちんと把握し、自社にあったサービス等を 選定・活用する必要がある ◼ 機密情報を扱っており、かつ、クラウドサービスが利用不可の場合は、自社独自のLLM構築が必要 • OSSのLLMが多く発表されており、中には商用利用可能なものも存在 • ChatGPTやBardに性能が追い付いてきており、OSSの活用でも十分な場合があると想定 • OSSをLoRA等を使用し、低コスト、かつ、短時間で独自データでの学習が可能
  23. 8. 参考文献 • Training language models to follow instructions with

    human feedback • ChatGPT 人間のフィードバックから強化学習した対話AI • A Survey of Large Language Models • A Holistic Approach to Undesired Content Detection in the Real World • Moderation • How to train your own Large Language Models • Differentially Private In-Context Learning • LoRA: Low-Rank Adaptation of Large Language Models • Cybercriminals Bypass ChatGPT Restrictions to Generate Malicious Content • GPT-4 Technical Report • ChatGPTを使ったサービスにおいて気軽にできるプロンプトインジェクション対策 • Introducing LLaMA: A foundational, 65-billion-parameter large language model • Alpaca: A Strong, Replicable Instruction-Following Model
  24. 8. 参考文献 • llama.cpp • Chatbot Arena Leaderboard Updates •

    ChatGPTなど生成AIによる個人情報の開示 • How do I turn off chat history and model training? • API data usage policies • 「AIで詐欺メールと攻撃プログラムの生成に成功」 セキュリティ企業が注意喚起 知識なくても攻撃可能に • サムスン、ChatGPTの社内使用禁止 機密コードの流出受け • プロンプト・インジェクションとは【用語集詳細】 • 画像データに対するActive learningの現状と今後の展望 ~最新の教師なし学習を添えて~ • Learn Prompting • Using GPT-Eliezer against ChatGPT Jailbreaking • High-throughput Generative Inference of Large Language Models with a Single GPU • 差分プライバシーとは何か
  25. 8. 参考文献 • ChatGPT等の生成AIの業務利用に関する申合せ(案) • [比較表] Azure OpenAIと本家OpenAI APIの比較表 •

    サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開 ―オープンな データで学習した商用利用可能なモデルを提供― • rinnaが日本語特化LLM公開 36億パラメータ • Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality • OpenAI readies new open-source AI model, The Information reports