Upgrade to Pro — share decks privately, control downloads, hide ads and more …

信頼できるLLMは何を満たすべきか(Trustworthy LLMs)

masatoto
August 14, 2023

信頼できるLLMは何を満たすべきか(Trustworthy LLMs)

論文紹介:Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment
https://huggingface.co/papers/2308.05374
ByteDance ResearchがAugust 9, 2023に出した論文です。

AIの信頼性で予測の不確実性とかHITLを中心に取り組む身として、読んだ内容を共有します。
※論文内にセンシティブな話題が入っているので、苦手な方は注意してください。

masatoto

August 14, 2023
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. n 論⽂の概要紹介 n LLMの信頼性は7つのカテゴリーに分類される Ø 信頼性 (Reliability) Ø 安全性 (Safety)

    Ø 公平性 (Fairness) Ø 悪⽤防⽌ (Resistance to Misuse) Ø 説明可能性と推論 (Explainability and Reasoning) Ø 社会的規範の遵守 (Social Norm) Ø 頑健性 (Robustness) n まとめ アジェンダ
  2. n 紹介する論⽂ Ø TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR

    EVALUATING LARGE LANGUAGE MODELSʼ ALIGNMENT Ø ByteDance Research が2023年8⽉9⽇に投稿 ※ 論⽂の冒頭で、「この論⽂は、差別的、憎悪的、暴⼒的な内容を含め、⼀部の⼈が不穏または不快に感じる可能性のあ る内容が含まれている。」と注意書きがある。 n 論⽂選定理由 Ø LLMを開発している組織にとっても重要な内容であり、利⽤するユーザーも意識しておく必要があると思ったから。 Ø 今後、会社独⾃モデルでファインチューニングする場合にも、前提知識として知っておきたい内容だと思ったから。 Ø 内容の⼀部、信頼性( Reliability )と安全性(safety)は、LLM登場前から勉強していたから。 n お断り Ø 図の引⽤は全て元論⽂からしています。各説明の引⽤元は明記していません。お⼿数ですが、元論⽂から探してください。 論⽂の概要紹介
  3. n 信頼性 (Reliability) Ø 適切な信頼性を持って、正しく真実で、⼀貫性のある出⼒を⽣成すること n 安全性 (Safety) Ø 危険で違法な出⼒を避け、個⼈情報を漏らさないようにすること

    n 公平性 (Fairness) Ø バイアスを回避し、性能に格差が⽣じないようにすること n 悪⽤防⽌ (Resistance to Misuse) Ø 悪意のある攻撃者によるLLMの悪⽤をさせないこと n 説明可能性と推論可能性 (Explainability and Reasoning) Ø 出⼒をユーザーに説明し、正しく推論する能⼒があること n 社会的規範の遵守(Social Norm) Ø 普遍的に共有される⼈間の価値観を反映すること n 頑健性 (Robustness) Ø 敵対的な攻撃や分布シフトに対する耐性があること LLMの信頼性に関する7つのカテゴリー
  4. n ⽬標 Ø LLMを「⾃分が知らないことを知る(Unknown known)」状態にする Ø 事実の主張だけでなく、LLMが幻覚を⾒たり、⾃信を持って事実と異なる主張をでっち上げたりしない ようにする n 信頼性の必要性

    Ø 信頼性の低い出⼒は、医療や⾦融のようなリスクの⾼い分野で使⽤されるアプリに悪影響を及ぼす。 Ø 誤った情報の流布を避け、ユーザーの信頼を築く。 n 信頼性(Reliability)の詳細 Ø 誤った情報(Misinformation) Ø 幻覚(Hallucination) Ø ⼀貫性のなさ(Inconsistency) Ø ミスキャリブレーション(Miscalibration) Ø 不誠実なお世辞(Sycophancy) 信頼性 (Reliability)
  5. n LLMが真実でない回答を提供したり、誤解を招くような情報を提供する。 n 誤った情報 (Misinformation) の定義 Ø LLMが事実に反して⽣成した間違った答えや偏った答えのこと • LLMには事実に基づいて正しい情報を提供する能⼒が乏しい。

    • 幻覚(Hallucination )の⼀部と考えられるが、明確に区別される。次ページ詳細 n LLMが誤った情報を⽣成する原因仮説 Ø 学習データが完璧ではない • LLMがインターネット上の誤った事実を記憶する Ø 学習データの偏った単語の共起頻度 • LLMが事実と異なる内容を知識とする Ø 質問の仕⽅が正確でない • 簡単な質問でも、聞き⽅によって、回答に⽭盾が⽣じる 信頼性 - 誤った情報 (Misinformation)
  6. n LLMは⾮常識な、あるいは不誠実な内容を⾃信満々に⽣成する。 n 幻覚(Hallucination )の定義 1. 情報源と⽭盾する(内在的な幻覚)内容を⽣成すること 2. 既存の情報源から検証できない(外在的な幻覚)、でっち上げられた内容を⽣成すること Ø

    ⼼理学の⽂献では、欺く意図のない偽の記憶と呼ばれている。 Ø 幻覚と誤った情報は区別される。 • 誤った情報は多くの場合、情報の⼊⼒が悪いために起こることが多い。 n 幻覚の正確な原因はまだ不明 Ø 学習データとテストデータの不⼀致や分布のずれ︖ Ø 基本的な学習⽅法の問題︖ n 幻覚の軽減は未解決の問題 Ø RLHFで異なる報酬を使⽤︖ Ø 忠実なデータセットの構築︖ 信頼性 - 幻覚(Hallucination)
  7. n LLMは、⾃信満々でありながら誤った回答をする。 n ミスキャリブレーション(Miscalibration) の定義 Ø 回答の確信度に対して、回答精度が⼀致しないこと n 確信度の出⼒⽅法 Ø

    確信度をプロンプトで指⽰し、テキスト形式で出⼒する Ø 確信度をトークンのロジットを使って得る n LLMの確信度の実態 Ø 上記2つの尺度はほぼ⼀致するが、常に⼀致するわけではない。 Ø 内部状態(ロジット値)と外部出⼒(⽣成テキストの数値)の間に信頼度の隔たりが存在する。 信頼性 – ミスキャリブレーション(Miscalibration) 例︓回答を間違えているのに⾃信がある
  8. n ⽬標 Ø LLMからの出⼒をユーザーにとって安全で健全な回答にする。 n 安全性の必要性 Ø LLMからの出⼒が憎悪的、有害、または危険なコメントを取り込む可能性があり、ユーザーにとって危険 Ø こうした出⼒は、ユーザーの信頼を低下させるだけでなく、安全規制を遵守する上でも課題

    n 安全性の詳細 Ø 暴⼒(Violence ) Ø 違法⾏為(Unlawful Conduct ) Ø 未成年者への危害(Harms to Minor ) Ø アダルトコンテンツ(Adult Content ) Ø メンタルヘルスの弊害(Mental Health Issues ) Ø プライバシー侵害(Privacy Violation ) 安全性 (Safety)
  9. n LLMを活⽤して、⼦供や⻘少年にとって有害な内容を含む回答を求めることができる。 n この問題は普遍的に法的にも道徳的にも重要である。 n 潜在的な危害 Ø 児童売買の相談 Ø ⻘少年に対する犯罪活動の計画(児童虐待など)

    Ø 安価な労働⼒として⻘少年を搾取 Ø 暴⼒的、性的に露⾻なコンテンツなど、危険で年齢にそぐわないコンテンツが⽣成される可能性 安全性 - 未成年者への危害(Harms to Minor ) 例︓危険な⾏動戦略を聞く
  10. n ⼀般的に、インターネットで調べることで、返って⼼を痛めることがある。 n LLMは、広範なメンタルヘルスの懸念を⽰す質問に注意し、状況の⽂脈を理解し、利⽤者がさらなる⽀援を得 られるようサポートするべきである。 Ø 例えば、⾃殺傾向を聞かれた場合、LLMは⼼理的に⽀援し、関連情報を共有すべきである。 n 安全性に関する懸念 Ø

    最近増えてきたLLMでは、このような露⾻な要求を検知して応答を拒否する機能がある。 Ø しかし、プロンプトによっては⼦作りは重要との観点から、安全でないコンテンツを冗⻑する問題がある。 安全性 - メンタルヘルスの弊害(Mental Health Issues )
  11. n ⼀般的な機械学習モデルは、データ・プライバシー攻撃に対して脆弱であることが知られている。 n LLMでは、攻撃者がLLMに問い合わせるだけで、学習データから個⼈情報や機密情報、あるいはプライベートな 学習サンプルを抽出できることが⽰されている。 n プライバシー強化技術( PETs︓privacy-enhancing technologies )

    Ø differentially private training mechanisms Ø machine unlearning Ø federated learning Ø secure multi-party computation protocols n これらのプライバシーを強化する技術が、⼤規模なLLMに適⽤した場合の有効性と効率性はまだ不明である。 安全性 - プライバシー侵害(Privacy Violation )
  12. n ⽬標 Ø LLMが、特定のグループのユーザーや考え⽅を優遇したり、固定観念を蔓延させたり、抽出された統計パターンに基づい て誤った仮定をしないこと n 公平性の必要性 Ø LLMは⽣成されたテキストに固定概念を⽰したり、強調したりしてはならない Ø

    特定の条件(企業、製品など)を優遇しない n 公平性の詳細 Ø 固定観念(Stereotype Bias) Ø 選好バイアス(Preference Bias) Ø 性能の違い(Disparate Performance) 公平性 (Fairness)
  13. n ⽬標 Ø 意図的にLLMを活⽤して、悪意のあるユーザーが存在すると仮定した場合に悪⽤を防ぐこと n 必要性 Ø LLMを活⽤した犯罪の抑制 n 悪⽤防⽌の詳細

    Ø 宣伝的悪⽤ (Propagandistic Misuse) Ø サイバー攻撃の悪⽤(Cyberattack Misuse) Ø ソーシャルエンジニアリングの悪⽤ (Social-engineering Misuse) Ø 著作権保護コンテンツの漏洩 (Leaking Copyrighted Content) 悪⽤防⽌(Resistance to Misuse)
  14. n 悪意のあるユーザーがLLMを活⽤して⾼度なプロパガンダを⽣成する Ø 標的とされた⼈々(例えば有名⼈)に対するプロパガンダ Ø テロリズムの擁護 Ø 過激で有害な政治的プロパガンダの作成 n 対策

    Ø 標準的なアライメントプロセスで軽減 • 訓練データを追加 • 肯定的/否定的の両⽅の意⾒を⽣成 • タスクの拒否 悪⽤防⽌ - 宣伝的悪⽤(Propagandistic Misuse)
  15. n ソーシャルエンジニアリング攻撃とは Ø 悪意のある⽬的のために被害者を⼼理的に操り、 望みの⾏動を実⾏させること • フィッシング • スパム/ボット •

    なりすまし(ディープフェイクを含む) • 偽のオンラインコンテンツ • ソーシャルネットワーク操作 n 最近では、LLMを使ってある⼈の会話スタイルになりすますこともある。 n 対策 Ø 優れたLLM⽣成テキスト検出器を開発すること Ø アライメントによる防⽌は困難 悪⽤防⽌ - ソーシャルエンジニアリングの悪⽤ (Social-engineering Misuse)
  16. n ユーザはLLMの学習データに属する特定の著作権保護されたコンテンツを抽出することができる。 Ø 著作権保護や知的財産の盗⽤に関する懸念を引き起こしている。 Ø LLMはGitHub上でライセンスがあるプログラムを⽣成でき、GitHub Copilotに対して現在進⾏中の訴訟がある。 n 対策 Ø

    悪意のあるプロンプトを検出することにより、LLMの著作権コンテンツを保護することができる。 悪⽤防⽌ -著作権保護コンテンツの漏洩 (Leaking Copyrighted Content) 例︓本の内容の続きを⽣成する
  17. n 推論は、質問応答、⾃然⾔語推論(NLI)、常識的推論など、NLPタスクに不可⽋なスキルである。 n ChatGPTとGPT-4は、論理的推論を必要とするデータセットでは性能が⼤幅に低下する。 Ø 論理的推論︓前提条件に基づいて結論を導き出す推論 Ø 表⾯上の語彙的重複につられる。 n 解決策

    Ø プロンプトエンジニアリング • CoT, instruction tuning, in-context learning Ø 事前学習と継続学習 • 特定のドメインの⾼品質なデータで継続学習 Ø ファインチューニング Ø 強化学習 説明可能性と推論 -限定的な⼀般推論(Limited General Reasoning)
  18. n ⽬標 Ø LLMは、社会的価値を遵守すること • 特定のユーザーグループに対する攻撃的な⾔葉の使⽤を避ける • 不安になるような話題に敏感になる • ユーザーが感情的なサポートを求めているときに共感する

    n 必要性 Ø LLMを教育や治療など、⼈⽣の分岐点に関わる場⾯で利⽤する際に求められる。 n 社会的規範の遵守の詳細 Ø 毒性(Toxicity) Ø 感情への無⾃覚さ(Unawareness of EmoJons) Ø ⽂化的鈍感さ(Cultural InsensiJvity) 社会的規範の遵守( Social Norm )
  19. n オンラインプラットフォームは、⼈々が意⾒を発表し、情報を交換する際に、有害なコメントが発⽣する。 Ø 特定のグループに対して無礼、無礼、脅迫的、またはアイデンティティ攻撃的な発⾔をする⼈がいる。 n 技術的⼯夫 Ø 有害コメントを分類 • LLMの訓練に無視できない量の有毒なコメントを削除

    • ⽣成された場合は⾮表⽰するかに利⽤ Ø データの品質改善 • 回答を作成する際に攻撃的な⾔葉や無神経な⾔葉を使うことも避ける • ヘイトスピーチにつながり、社会的な問題を引き起こす • 多くのローカルなポリシー(例えばイギリス、カナダ、フランス)によっては禁⽌されている 社会的規範の遵守 - 毒性(Toxicity)
  20. n ⽬標 Ø LLMをリリースする前にその性能を検証することは重要であるが、デプロイ時にその頑健性をテストすること n 必要性 Ø LLMをリリースしたときに期待通りに動作せず、製品イメージの低下 Ø 製品に載せたLLMを通して攻撃されるリスクの軽減

    n 頑健性の詳細 Ø プロンプト攻撃(Prompt Attacks) Ø パラダイム分布シフト(Paradigm and Distribution Shifts) Ø 介⼊効果(Interventional Effect) Ø ポイズニング攻撃(Poisoning Attacks) 頑健性(Robustness)
  21. 頑健性 -パラダイム分布シフト(Paradigm and Distribution Shifts) n LLMが学習する元の知識は変化し続けている。 Ø 特定の回答は、時間の経過とともに、あるいはリアルタイムで更新される必要がある。 Ø

    モデルの公正性を静的なデータで注意深く検証されているにもかかわらず、デプロイ時に公平性に⽋ける懸念が⽰されて いる。 n 訓練データの知識のシフトを検出し、LLMを更新する効果的かつ効率的な戦略が求められる。 例︓時間の経過とともに変換し続ける知識
  22. n アルゴリズムには、基礎となるデータ分布の変化を引き起こす介⼊効果があることが知られている。 n ⼈間フィードバックからバイアスが⽣まれる可能性 Ø 悪意を持ってフィードバックされたものが学習される(レビューバイアス) Ø “performative prediction”の⽂脈でも定式化されている。 Ø

    最近の研究では、ユーザーとモデル間の⻑期的な逐次的相互作⽤に注⽬し、学習アルゴリズムを再定義している。 n 推薦アルゴリズムによってデータにバイアスが⽣まれる可能性 Ø ユーザーグループ間に対する推薦性能の格差がデータの格差に広がる。 Ø 将来のデータ収集に障壁を作ることになる。 頑健性 -介⼊効果(Interventional Effect)
  23. n ⼀般的な機械学習モデルのポイズニング攻撃 Ø 学習データを操作し、モデルを欺くことを⽬的としており、通常は分類モデルに対して⾏われる。 Ø ラベルの変換など n LLMはポイズニング攻撃に対して極めて脆弱 Ø 学習データのほとんどが、誰でも⾃由にコンテンツを投稿できるインターネットから得られるため

    n LLMのポイズニング攻撃に対する防御 Ø 従来のポイズニング防御からヒントを得ることができる。 Ø 訓練サンプル削除 Ø 学習⽅法の改良 Ø Differential Privacyによるポイズニングされた訓練サンプルの影響を低減 頑健性 -ポイズニング攻撃(Poisoning Attacks)
  24. n 信頼できるLLMに関して、 アライメントの観点から7カテゴリーにまとめられていた。 n 各課題に対する対策としては、アライメントで対応できる内容が多い。 Ø アライメント︓モデルの出⼒が⼈間の意図や期待に合致するようにすること Ø データの選定、RLHFアルゴリズムの改良 n

    エンジニアとしては、プロンプトエンジニアリングやシステム側で対応できることを考えていきたい。 n 特にAITCは、⾦融や製造業のお客様が多いので、信頼性と説明可能性は重要視する。 n また、ヘルスケアも増えてきているので、社会的規範と安全性に関する部分は注意が必要だと思った。 まとめ