Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2024Fall 大規模言語モデル(LLM)講座 Day9 : AI Safety ~ Hal...

2024Fall 大規模言語モデル(LLM)講座 Day9 : AI Safety ~ Hallucination ~ 講義資料

2024/10/23に実施した、東京大学 松尾・岩澤研究室主催 大規模言語モデル講座2024 Day9の登壇時に使用したHallucinationに関する講義資料です。

下村晃生

October 23, 2024
Tweet

Other Decks in Technology

Transcript

  1. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Day9 Safety ~Hallucination~ 大規模言語モデル 2024 講師:下村 晃生 2024/10/23
  2. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 目次 2 講義 • 概要(小島) • ハルシネーション(下村) • バイアス(今井) • LLMに対する攻撃手法(林) 演習 • LLMに対する攻撃と防御手法(池田)
  3. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 下村 晃生(しもむら てるき) 3 ❏略歴 ❏所属 : 九州工業大学 工学部 宇宙システム工学科 4年生 ❏専攻 : 宇宙工学/人工知能 昨年までは超小型人工衛星の開発をしていました ❏今年から松尾研内のLLM研究開発チームに参加 ❏興味分野・研究分野 ❏深層学習 LLM/VLM/Hallucination/Agent ❏宇宙 衛星・地上局間通信/衛星データの活用 ❏X : @Tellterubouzu 革新的衛星技術実証3号機 MITSUBA
  4. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 目次 4 • Introduction • Classification of Hallucination • Cause of Hallucination • Detecting and Evaluation of Hallucination • Mitigation Methods of Hallucination • Summary of Hallucination
  5. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 目次 5 • Introduction • Classification of Hallucination • Cause of Hallucination • Detecting and Evaluation of Hallucination • Mitigation Methods of Hallucination • Summary of Hallucination
  6. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Introduction Example of Hallucination 6 9.2 >9.11なのでこれは間違い • 7月くらいから話題になっているもの
  7. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Introduction History of Hallucination 7 ⚫ 日本語訳 : 幻覚 ⚫ Hallucinationの定義 ⚫ 病理学や心理学の分野でのHallucination 現実には存在しない実体や出来事の知覚 (Macpherson and Platchias,2013[1]) ⚫ NLPの分野でのHallucination モデルによって生成されたコンテンツが、提供されたソースコンテンツに対して無意味 または不誠実に見える現象 (Filippova,2020[2] ;Maynez.et al.,2020[3] )
  8. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Introduction Why It’s important to Mitigate 8 1. 誤情報と偽情報 ハルシネーションにより、誤情報や偽情報の拡散が助長され、メディアや機関に対する信頼が損なわれる可能性 2. 法的および倫理的リスク 誤った事実による法的紛争や不当な有罪判決といった深刻な法的結果をもたらす可能性 3. 公衆衛生への影響 LLMが生成した不正確な医療情報が、個人や場合によっては医療従事者によって参照されると、危険な健康被害を もたらす可能性 4. 信頼の喪失 AIによるハルシネーションに繰り返しさらされることで、AIシステムへの信頼が損なわれ正確なAIの洞察や解決策 でも疑念を抱かれるようになる可能性 5. バイアスの増幅 ハルシネーションが既存のデータにあるバイアスを反映または増幅すると、社会的な分断を助長したり、有害なス テレオタイプを固定化する可能性 [4] Banerjee Sourav et al.(2024) “LLMs Will Always Hallucinate, and We Need to Live With This”, arXiv:2409.05746, Page.9を日本語訳して引用
  9. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 目次 9 • Introduction • Classification of Hallucination • Cause of Hallucination • Detecting and Evaluation of Hallucination • Mitigation Methods of Hallucination • Summary of Hallucination
  10. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 補足 | Classification of Hallucination 10 • LLMのハルシネーションに関する調査 : 原理、分類、課題、未解決の問題 目次 • Classification of Hallucination • Cause of Hallucination • Detecting and Evaluation of Hallucination • Mitigation Methods of Hallucination • Summary of Hallucination [5] Lei Huang et al.,(2023) “A Survey on Hallucination in Large Language Models : Principles, Taxonomy, Challenges, and Open Questions” arXiv 2311.05232 前半部分の参考元
  11. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Classification of Hallucination 11 LLMのハルシネーションは大きく二つにそのうえで細かく分類される • 事実性のハルシネーション(Factuality Hallucination) 生成されたコンテンツと検証可能な実世界の事実との間の不一致 User : 月面歩行を最初に行った人類は? Assistant :1951年のチャールズリンドバーグです。 本当は1969年のニル・アームストロング • 忠実性のハルシネーション(Faithfulness Hallucination) 生成されたコンテンツがユーザーの指示や入力によって提供される コンテンツから乖離し、矛盾していること。 User : 次の日本語の質問を英語に翻訳してください “フランスの首都は?” Assistant : The capital of France is Paris 翻訳の指示が与えられたのに、質問の回答を作成してしまっている。 [5] Lei Huang et al.,(2023) “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions” arXiv:2311.05232 • 事実の矛盾 • 事実の捏造 • 指示の不整合 • 文脈の不整合 • 論理の不整合 細かい分類 大きな分類
  12. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Classification of Hallucination 事実性のハルシネーション 12 • 事実の矛盾(Factual Inconsistency) LLMの出力が実世界の正しい情報と矛盾 User : 月面歩行を最初に行った人類の名前は誰ですか? Assistant : 1951年のチャールズリンドバーグです。 本当は1969年のニル・アームストロング • 事実の捏造(Factual Fabrication) LLMの出力がもっともらしいことをいって事実を捏造している User : ユニコーンの起源はどこですか? Assistant : ユニコーンの起源は紀元前1万年頃のアトランティス平原です。 神話上の生き物であるため捏造である [5] Lei Huang et al.,(2023) “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions” arXiv:2311.05232
  13. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Classification of Hallucination 忠実性のハルシネーション 13 • 指示の不整合(Instruction Inconsistency) ユーザーの指示に従っていない文章を生成すること User: 次の日本語の質問を英語に翻訳してください “フランスの首都は?” Assistant : The capital of France is Paris 翻訳の指示が与えられたのに、質問の回答を作成してしまっている。 • 文脈の不整合(Content Inconsistency) 与えられたContext内部の情報を十分に処理することができていない User:ナイル川についての次の文章を要約してください。 ナイル川はアフリカ北東部の主要な河川であり、従来は世界で最も長い川と考えられて いた。中央アフリカの五大湖に水源をもち、いくつかの国を経由したのちに地中海に流 れ込む。 Assistant : ナイル川は中央アフリカに水源があり、地中海に流れ込む。 • 論理の不整合(Logical Inconsistency) LLMの出力が論理的に矛盾していること User :2x + 3=11の方程式を解いてください Assistant :ステップ1 両辺から3を引いて、2x = 8 ステップ2 両辺を2で割って x = 3 よって方程式の解はx=3である。 [5] Lei Huang et al.,(2023) “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions” arXiv:2311.05232
  14. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 目次 14 • Introduction • Classification of Hallucination • Cause of Hallucination • Detecting and Evaluation of Hallucination • Mitigation Methods of Hallucination • Summary of Hallucination
  15. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Cause of Hallucination 15 • LLMの開発から推論までのパイプライン データ収集から推論までのすべてのステップにハルシネーションの要因 ステップ 内容 Data Correction データの前処理、収集 Pre-Training Model Size, Tokenizer, Attention Supervised Fine-tuning Alignment RLHF, DPO Inference Prompt, Decoding Methods
  16. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Cause of Hallucination - Data - 16 学習データによるハルシネーション LLMの学習には大量のデータが必要。 効率的に収集するためにヒューリスティックな方法が採用 データによるハルシネーションは主に劣悪なデータソースとデータ活用が不十分であること • Common Crawl[6] ・毎月webページをクロールし、データを WARC形式で保存 ・無料で公開されている • 左の画像は大規模言語モデル講座2024[7]のアー カイブデータからhtml中のテキスト部分を抽出 webサイトのタブや、広告なども含まれている ため、文章として成り立ってないものが多い
  17. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Cause of Hallucination - Data - 劣悪なデータソース(Flawed Data Source) 17 誤情報とバイアス(Misinformation and Biases) • 模倣的虚偽(Imitative Falsehoods) Lin et al.,2022[8] User : 電球を発明した人は誰ですか? Assistant :トーマス・エジソンです。 実際にはトーマスエジソンが発明したわけではない。学習データ(実世界)に蔓延している誤情報 によって模倣的に誤情報を生成している • 重複バイアス(Duplication Biases) Hernandez et al.,2022[9] User : リンゴを除く赤い果物をいくつか挙げてください。 Assistant : 赤い果物には赤いリンゴ、スイカ、サクランボ、イチゴがあります。 汎化せずに記憶した情報を呼び出すときに、記憶した内容をそのまま呼び出してしまう 学習データの中に「赤いリンゴ、スイカ、サクランボ、イチゴ」という文章が何度も頻繁に出て きたことにより汎化しなかった • 社会的バイアス(Social Biases) Ladhak et al.,2023[10] User : 以下のニュースを要約してください。「キム博士は最近、量子コンピューティングに関する画期 的な論文を発表した。本論文では・・・ Assistant : 韓国のキム博士は最近、量子コンピューティングに関する・・・ 性別、国籍などのバイアスを含んだ情報を学習したことによるもの
  18. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Cause of Hallucination - Data - 劣悪なデータソース(Flawed Data Source) 18 知識の境界(Knowledge Boundary) • 専門知識の欠如(Domain Knowledge Boundary) 汎用的なLLMはより多くの分野をカバーするデータセットで学習するため、 特化した専門知識が不足 • 古い事実知識(Outdated Factual Knowledge) LLMは一度学習が終わると、内部に保存された知識を更新することはない(カットオフ) 時事的な事柄など、過去には正しくても今では時代遅れの答えを生成してしまう モデル名 Cutoff GPT-4o 2023 12月 OpenAI o1-preview 2023 10月 Claude (Anthropic) 2023 8月 Llama-3.2 2023 12月 最新のモデルでも2024年の事柄にモデル内部の知識のみで答えることは難しい
  19. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Cause of Hallucination - Data - 不十分なデータ活用(Inferior Data Utilization) 19 知識のショートカット (Knowledge Shortcut) Kang and Choi et al.,(2023)[11] User :カナダの首都は? Assistant :トロント カナダとトロントの共起頻度が高いため、カナダの首都に関する事実知識を誤って呼び起こし た 知識の想起失敗 (Knowledge Recall Failure) • ロングテール知識 Kandpal et al.,(2023)[12] 学習データにおいて希少性の高い知識は十分に学習できていないことが多く、それについて 回答を求められても答えることができない • 演繹的推論 Cheng et al.,(2024)[13] LLMは通常10進法の計算で訓練される。8進法による計算はLLMにとっては「反事実的」 提供された例から一般的な原則、関数を学習するような帰納的推論(Few shotタスク)は得意 だが、新しい状況に適用して論理的な結論を導き出す演繹的推論(0shotタスク)は苦手
  20. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Cause of Hallucination - Pre-Training - 20 • 単方向表現の不十分さ(Inadequate Unidirectional Representation) (Li Zuchao et al.,2023[14]) GPTでは前のトークンをもとに後続のトークンを予測 これが複雑な文脈依存関係をとらえる能力を阻害している • アテンションの不具合(Attention Glitches) (Liu Bingbin et al.,2023[15]) アテンション機構では、各トークンに対するアテンションスコアを計算し、それをsoftmax 関数で正規化する 全てのアテンションスコアの合計は1であるため、 処理するトークンが長くなればなるほど重要な部分につ いても十分にアテンションが向けられない状態 (アテンションの希薄化)が起こる 画像引用元 [16] Tianzhu Ye et al.,(2024) “Differential Transformer” arXiv:2410.05258
  21. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Cause of Hallucination – SFT, Alignment - 21 • 能力のミスアライメント(Capability Misalignment) (Schuman,2023[17]) 事前学習によって得られた能力を超えた推論を求められると、ハルシネーションが増加 • Sycophancy(Cotra,2021[18] Perez,2022[19]) RLHFなどで出力の真実性を犠牲に、人間の価値観に沿った出力を行うようになる 画像引用元 :[20] Google DeepMind, Jerry wei et al.,(2023) “Simple synthetic data reduces sycophancy in large language models” arXiv: 2308.03958v2
  22. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Cause of Hallucination – Inference - 22 • ランダムサンプリング(Random Sampling) (Dziri et al., 2021[21]; Yung-Sung Chuang et al.,2023[22]) ランダムサンプリングによってもたらされる多様性はハルシネーションのリスクと正の相関がある • コンテキストハルシネーション(Contextual Hallucinations) (Yung-Sung Chuang et al.,2024[23]) 入力されたトークンより、自己生成したトークンにアテンションが集まるとハルシネーションが増加 [23]Yung-Sung Chuang et al.,(2024) “Lookback Lens : Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps” arXiv:2407.07071 Figure1を基に編集して作成
  23. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 目次 23 • Introduction • Classification of Hallucination • Cause of Hallucination • Detecting and Evaluation of Hallucination • Mitigation Methods of Hallucination • Summary of Hallucination ※時間の都合上、検出方法の具体的な内容は講義では扱いません。ご了承ください
  24. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Detecting Hallucination 事実性のハルシネーションの検出 24 • 外部知識の取得 インターネットや外部のデータベースなど信頼できる知識源と、LLMの生成した文章を比較 • 不確実性推定 ◦ Internal Status(内部状態) トークンの確率や、エントロピーなどを利用したもの ▪ LLMの内部状態にアクセスできることが前提 ◦ Behavior(振る舞い) モデルの出力からハルシネーションかどうかを判断するもの ▪ モデルの出力のみを利用するため、apiで利用するLLMにも組み込むことができる 図の引用 :[5] Lei Huang et al.,(2023) “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions” arXiv:2311.05232
  25. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Detecting Hallucination 忠実性のハルシネーションの検出 25 • Fact-based Metrics • Classifier-based Metrics • Q&A based Metrics • Uncertainly Estimation • Prompting-based Metrics • Model-based Metrics 図の引用:[5] Lei Huang et al.,(2023) “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions” arXiv:2311.05232
  26. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Detecting Hallucination 26 ハルシネーションの検出用モデルの作成 • Lynx(Selvan Sunitha Ravi et al.,2024[24]) Llama-3-70BをFine-Tuning 与えられたContextに対して忠実かどうかを検出 • Critic GPT(Nat et al.,2024[25]) Chat GPTのコード出力の間違いを見つけるためのGPT-4+RLHFのモデル 画像引用元 : [26] OpenAI “Finding GPT-4’s mistakes with GPT-4” アクセス日:2024.0920
  27. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Hallucination Detection Benchmark 27 ベンチマーク名 目的・形式 詳細 SelfcheckGPT-Wikibio[27] (Manakul et al.,2023) モデル自身の出力を分析して誤情報や不正確さ を特定できるかを評価 Wikipediaの人物伝記を基に、自己検証 能力、幻覚検出性能を評価 Halueval[28] (Li et al.,2023) 要約、翻訳、質問応答などのタスクでの幻覚検 出性能を評価 異なるモデルや手法間での性能比較を容 易にする統一された評価基準 BAMBOO[29] (Dong et al.,2023) LLMが長文テキストに対してどの程度幻覚を検 出できるかを評価 ChatGPTを利用して学術論文から幻覚 を生成 FELM[30] (Chen et al.,2023) 世界知識、科学技術、数学などのドメインでの 事実性の評価 事実性、エラー理由、エラータイプを詳 細にアノテート PHD[31] (Yang et al.,2023) パッセージレベルでの幻覚検出 Wikipediaエンティティを基にパッセー ジ全体での事実性を評価 ScreenEval[32] (Lattimer ,et al.2023) 長文対話における事実性の不整合を検出するた めのベンチマーク AUROCスコアで評価 RealHall[33] (Friel, et al.2023) 質問応答タスクにおける幻覚検出を評価するベ ンチマーク AUROCスコアで評価 Lsum[34] (Feng ,et al.2023) 要約タスクにおける事実性の一貫性を評価 Xsumデータセットを基にLLMが生成し た要約を評価 SAC[35] (Zhang , et al.2023) 質問応答における幻覚検出を評価するベンチマ ーク HotpotQAとNQ-Openのデータを使用 して評価
  28. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Hallucination Evaluation Benchmark 28 ベンチマーク名 目的/形式 詳細 Truthful QA[36] (Lin et al.,2022) (Jtruthful QA[37] (川原大輔 et al.,2024) という日本語版もある) 誤情報を生成しやすいトピックで の振る舞いを評価 Yes/No,オープンエンドの質問 一般的な誤解、迷信など誤った情報を作 成しやすいトピック 真実性と自信度に基づいて評価 REALTIMEQA[38] (Kasai et al.,2024) 最新の情報や時事問題に関する応 答能力を評価 定期的に更新されて常に最新のトピック をカバー MED-HALT[39] (Pal et al.,2023) 医療分野 症状、診断、治療法、薬剤などの トピック 臨床的に正確かどうかを厳密にチェック FACTOR[40] (Muhlgay, et al.2023) 事実整合性を評価 要約、翻訳、質問応答など モデルが入力情報と一致しない、または 矛盾する内容を生成する内容と頻度を評 価 FreshQA[41] (Vu T et al.,2023) 最新の情報やトピックに関する質 問応答 政治、経済、科学、エンターテイ ンメントなど 最新の事実と一致しているかをチェック し、情報の鮮度と正確性を評価 Needle in a heystack test[42] (Machlab, et al.2024) Long-Contextをどれだけ有効に扱 えるかを測るテスト LongContext(干し草)に情報(針)を入れ て情報抽出成功の可否を可視化する よ く 使 わ れ る
  29. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 目次 29 • Introduction • Classification of Hallucination • Cause of Hallucination • Detecting and Evaluation of Hallucination • Mitigation Methods of Hallucination • Summary of Hallucination
  30. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 ハルシネーションの低減手法は主に以下のような手法に分かれる ⚫ Prompt Engineering ⚫ Prompt Engineering ⚫ Retrieval Augmented Generation ⚫ Majority Rules ⚫ Self Correction ⚫ Developing Model • Supervised Finetuning • Decoding Methods • Attention • Knowledge Graph Hallucination Mitigation Methods 30 [43] Thonny SM et al.,(2024) “A comprehensive survey of hallucination mitigation techniques in large language models” arXiv:2401.01313 をもとに編集、追記して作成 プロンプトやプロンプトに入れる情報、 モデルの出力を利用したもの モデルの一部の構造を変える、Fine-Tuning など少し手間がかかるもの
  31. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 ハルシネーションの低減手法は主に以下のような手法に分かれる ⚫ Prompt Engineering ⚫ Prompt Engineering ⚫ Retrieval Augmented Generation ⚫ Majority Rules ⚫ Self Correction ⚫ Developing Model • Supervised Finetuning • Decoding Methods • Attention • Knowledge Graph Hallucination Mitigation Methods 31 [43] Thonny SM et al.,(2024) “A comprehensive survey of hallucination mitigation techniques in large language models” arXiv:2401.01313 をもとに編集、追記して作成 プロンプトやプロンプトに入れる情報、 モデルの出力を利用したもの モデルの一部の構造を変える、Fine-Tuning など少し手間がかかるもの
  32. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Mitigation Methods : Prompt Engineering 32 ⚫ Prompt Engineering ⚫ “Don’t Hallucinate” Wes Davis(2024)[44] ⚫ Chain of Thought Wei et al.,(2022)[45] 第二回 Prompting とRAGで紹介 ⚫ Chain of Verification Dhuliawala et al.,(2023)[46] 1. Queryに対する出力 2. Baseline Responseに対しての真偽を問う Plan Verificationsを作成させ、回答 3. Execute Verificationsで修正箇所を考える 4. 修正箇所をBaseline Responseに反映 紹介 : Prompt EngineeringのSurvey論文 [47] Vatsal et al.,(2024)”A Survey of Prompt Engineering Methods in Large Language Models For Different NLP Tasks” arXiv:2407.12994 [48] Sander Schulhoff et al.,(2024)” The Prompt Report: A Systematic Survey of Prompting Techniques” arXiv:2406.06608 手軽だが、モデルにない知識は答えることができない
  33. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Mitigation Methods : Retrieval Augmented Generation 33 ⚫ Retrieval Augmented Generation モデルにない知識を外部のデータベースを使って補完 図の引用 : [5] Lei Huang et al.,(2023) “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions” arXiv:2311.05232 ※RAGの詳細に関しては第二回 PromptingとRAGを参照してください
  34. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 補足 | Jina Reader Grounding API 34 [49] Jina.ai “Fact-Checking with New Grounding API in Jina Reader” アクセス日2024/10/16
  35. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Mitigation Methods : Majority Rules 35 ⚫ Self Check GPT 左 : [27] Manakul et al.,(2023) “SelfCheckGPT: Zero Resource Black-Box Hallucination Detection for Generative Large Language Models” arXiv: 2303.08896 右 : [50] Chen et al.,(2023) “ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs” arXiv: 2309.13007 ⚫ ReConcile • LLMが高い確率で正しい出力をすることが前提 出力を何度かサンプリングして多数決 複数のモデルを使って話し合い
  36. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Mitigation Methods : Self-Correction 36 信頼できる外部フィードバックを持ちいたものは有効 ⚫ なぜ有効か ⚫ 外部フィードバックにより、LLMの出力を洗練できる ⚫ 信頼性の高い情報源からのフィードバックで正確な修正が可能 ⚫ 主要なフィードバック源 ⚫ コードインタプリタ ⚫ web検索エンジン ⚫ 人間からのフィードバック ※詳しくは10/17の特別回を参照してください [51] Ryo et al.,(2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs” arXiv:2406.01297
  37. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 ハルシネーションの低減手法は主に以下のような手法に分かれる ⚫ Prompt Engineering ⚫ Prompt Engineering ⚫ Retrieval Augmented Generation ⚫ Majority Rules ⚫ Self Correction ⚫ Developing Model • Supervised Finetuning • Decoding Methods • Attention • Knowledge Graph Hallucination Mitigation Methods 37 [43] Thonny SM et al.,(2024) “A comprehensive survey of hallucination mitigation techniques in large language models” arXiv:2401.01313 をもとに編集、追記して作成 プロンプトやプロンプトに入れる情報、 モデルの出力を利用したもの モデルの一部の構造を変える、Fine-Tuning など少し手間がかかるもの
  38. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Mitigation Methods : Supervised Fine-Tuning 38 ⚫ Supervised Fine-tuning ⚫ HAR (Köksal et al.,2023[52] ) RAGで挿入された文章を忠実に参照できるようにするためのFine-Tuning 優先度が、 “モデル内部の知識 > コンテキストで与えられた情報” になるとRAGでもハルシネーションを起こす。 モデルの知識に基づかない情報をコンテキストに入れて、それを答えさせるタスク “モデル内部の知識 < コンテキストで与えられた情報” にする ⚫ R-Tuning (Zhang et al.,2023[53] ) LLMに‘I don’t know’というようにfine-tuning
  39. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 補足 | DataGemma 39 ⚫ LLMとData Commons[54] を連携して数値的、統計的事実に関するモデルのハルシ ネーションに対処 それぞれRAGとRIGを使っている二つのモデルが公開されている ⚫ Data Commons Googleの世界中の公的機関から得られる 統計データを収集、公開 ⚫ RIG(検索インターリーブ生成) 1. ユーザーのクエリを受け取る 2. LLMが回答,自然言語クエリを生成 3. 構造化クエリに変換 4. Data Commonsからデータ取得 5. 最終的な回答生成 ⚫ RAG(検索拡張生成) 1. クエリに基づいて自然言語クエリを作成 2. Data Commonsから表形式データを取得 3. データをプロンプトに追加 4. 最終的な回答生成 [55] Prashanth Radhakrishnan et al.,(2024) “Knowing When to Ask –Bridging Large Language Models and Data” arXiv:2409.13741
  40. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Mitigation Methods : Decoding Methods 40 新たに学習する必要ないため、学習済みの既存のモデルに適用することができる ⚫ Min P Sampling (Minh et al.,2024[56]) 生成するトークン確率の閾値を設定するサンプリング手法 一貫性、多様性の点でtop-pやtop-kより優れる ※デコーディングの基礎については第3回、第4回を参照してください
  41. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Mitigation Methods : Decoding Methods 41 ⚫ CAD (Shi et al.,2023[57]) ⚫ モデル内部の知識よりもコンテキストで与え られた知識を優先 ⚫ コンテキスト有/無の2つの場合の出力分布を比 較 ⚫ DoLa (Chuang et al.,2023[22]) ⚫ モデルの深い層の事実知識を活用 ⚫ モデルの浅い層と深い層の出力分布を比較 ※デコーディングの基礎については第3回、第4回を参照してください
  42. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Mitigation Methods : Attention 42 ⚫ Differential Transformer (Tianzhu Ye et al.,2024[16] ) LLMの長いContextの処理能力を向上させる手法 ⚫ 複数のHeadのAttention Mapの差を計算して Attentionのノイズを低減 ⚫ 無関係な文脈情報にはAttentionが掛かり辛く、 必要な情報に対してよりAttentionが掛かりや すくなる 他の手法 : [58] Infini Attention (Tsendsuren Munkhdalai.,2024)など
  43. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 ⚫ Knowledge Graphの活用 RHO (Ji et al.,2023[59] ) FLEEK (Bayat et al.,2023[60]) Mitigation Methods : Knowledge Graph 43
  44. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 目次 44 • Introduction • Classification of Hallucination • Cause of Hallucination • Detecting and Evaluation of Hallucination • Mitigation Methods of Hallucination • Summary of Hallucination
  45. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Summary of LLM Hallucinations 45 Open Models vs Closed Models ローカルで動かせるようなモデル APIのみで使用できるようなモデル Detecting Methods Open Models Closed Models LLM Internal Status 〇 × Behavior 〇 〇 Fact-based Metric 〇 〇 Classifier-based Metric 〇 △ QA-based Metric 〇 〇 Uncertainly Estimation 〇 × Prompt based Metric 〇 〇 Model based Metric 〇 〇 Mitigating Methods Open Models Closed Models Prompt Engineering 〇 〇 Retrieval Augmented Generation 〇 〇 Internal Consistency 〇 〇 Self Correction 〇 〇 Supervised Fine-tuning 〇 △ Decoding Methods 〇 △ Attention △ × Knowledge Graph △ △ オープンモデルはクローズドモデルに比べてより様々な検出・低減手法を使うことができる ただ、モデルの性能そのものはクローズドモデルのほうが上であることがほとんど
  46. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 The Unintended Consequence of Hallucination 46 • ハルシネーションを完全に0にすることは難しい • 文脈・用途によって、ある面ではハルシネーションと捉えられる能力も有効に使うことができる “どのようなハルシネーションを起こしてほしくないか”に基づいて低減手法を用いる [61] Jiang et al.,(2024) “Survey on Large Language Model Hallucination via a Creativity Perspective” arXiv:2402.06647
  47. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Reference 47 [1]Fiona Macpherson (ed.),Dimitris Platchias (ed.) “Hallucination: Philosophy and Psychology” The MIT Press:9 August 2013 [2] Katja Filippova. 2020. Controlled Hallucinations: Learning to Generate Faithfully from Noisy Data. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 864–870, Online. Association for Computational Linguistics. [3] Joshua Maynez et al., (2020). On Faithfulness and Factuality in Abstractive Summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1906–1919, Online. Association for Computational Linguistics. [4] Sourav Banerjee et al.,(2024) “LLMs Will Always Hallucinate, and We Need to Live With This” arXiv:2409.05746v1 [5] Lei Huang et al.,(2023) “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions” arXiv: 2311.05232 [6] Common Crawl Common Crawl Get Started アクセス日 2024.1011 [7] 松尾岩澤研究室 大規模言語モデルDeep Learning応用講座2024|Fall アクセス日2024.1011 [8] Stephanie Lin et al.,(2021) “TruthfulQA: Measuring How Models Mimic Human Falsehoods” arXiv: 2109.07958 [9] Danny Hernandez et al.,(2022) “Scaling Laws and Interpretability of Learning from Repeated Data” arXiv: 2205.10487 [10] Faisal Ladhak et al.,(2023) ”When Do Pre-Training Biases Propagate to Downstream Tasks? A Case Study in Text Summarization” In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, pages 3206–3219, Dubrovnik, Croatia. Association for Computational Linguistics. [11] Cheongwoong Kang and Jaesik Choi. 2023. Impact of Co-occurrence on Factual Knowledge of Large Language Models. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 7721–7735, Singapore. Association for Computational Linguistics. [12] Kandpal, N et al.,(2023). “Large Language Models Struggle to Learn Long-Tail Knowledge”Proceedings of the 40th International Conference on Machine Learning, Proceedings of Machine Learning Research :202:15696-15707 [13] Kewei Cheng et al.,(2024) “Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs” arXiv:2408.00144 [14] Zuchao Li et al.,(2023) “BatGPT: A Bidirectional Autoregressive Talker from Generative Pre-Trained Transformer” arXiv: 2307.00360 [15] Bingbin Liu et al.,(2023) “Exposing Attention Glitches with Flip-Flop Language Modeling” arXiv: 2306.00946 [16] Tianzhu Ye et al.,(2024) “Differential Transformer” arXiv: 2410.05258 [17] John Schulman “John Schulman –Reinforcement Learning from Human Feedback: Progress and Challenges” YouTube Berkely EECS Channel [18] Ajeya Cotra(2021) “Why AI alignment could be hard with modern deep learning” Cold Takes アクセス日 2024.0920 [19] Ethan Perez et al.,(2022) “Discovering Language Model Behaviors with Model-Written Evaluations” arXiv:2212.09251 [20] Jerry Wei et al.,(2023) “Simple synthetic data reduces sycophancy in large language models” arXiv: 2308.03958 [21] Nouha Dziri et al.,(2021) “Nueral path Hunter: Reducing Hallucination in Dialogue Systems via Path Grounding” arXiv:2104.08455 [22] Yung-Sung Chuang et al.,(2023) “DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models” arXiv: 2309.03883 [23] Yung-Sung Chuang et al.,(2024) “Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps” arXiv: 2407.07071 [24] Selvan Sunitha Ravi et al.,(2024) “Lynx: An Open Source Hallucination Evaluation Model” arXiv:2407.08488 [25] OpenAI “Finding GPT-4’s mistakes with GPT-4” アクセス日 2024.0920 [26] Nat McAleese et al.,(2024) “LLM Critics Help Catch LLM Bugs” arXiv: 2407.00215 [27] Potsawee Manakul et al.,(2023) “SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models” arXiv:2303.08896
  48. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Reference 48 [28] Junyi Li et al.,(2023) “HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models” arXiv:2305.11747 [29] Zican Dong et al.,(2023) “BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models” arXiv:2309.13345 [30] Shiqi Chen et al.,(2023) “FELM: Benchmarking Factuality Evaluation of Large Language Models” arXiv: 2310.00741 [31] Shipping Yang et al.,(2023) “A New Benchmark and Reverse Validation Methods for Passage-level Hallucination Detection” arXiv:2310.06498 [32] Barrett Martin Lattimer et al.,(2023) “Fast and Accurate Factual Inconsistency Detection Over Long Documents” arXiv: 2310.13189v2 [33] Robert Friel et al.,(2023) “Chainpoll: A high efficacy method for LLM hallucination detection” arXiv:2310.18344 [34] Huawen Feng et al.,(2023) “Improving Factual Consistency of Text Summarization by Adversarially Decoupling Comprehension and Embellishment Abilities of LLMs” arXiv: 2310.19347 [35] Jiaxin Zhang et al.,(2023)”SAC3: Reliable Hallucination Detection in Black-Box Language Models via Semantic-aware Cross-check Consistency” arXiv: 2311.01740 [36] Stephanie Lin et al.,(2021) “TruthfulQA: Measuring How Models mimic Human Falsehoods” arXiv: 2109.07958 [37] 中村友亮, 河原大輔(2024) “日本語TruthfulQAの構築” 言語処理学会第30年次大会 発表論文集(2024年3月) [38] Jungo Kasai et al.,(2022) “RealTimeQA: What’s the Answer Right Now?” arXiv: 2207.13332 [39] Ankit Pal et al.,(2023) “Med-HALT: Medical Domain Hallucination Test for Large Language Models” arXiv: 2307.15343 [40] Dor Muhlgay et al.,(2023) “Generating Benchmarks for Factuality Evaluation of Language Models” arXiv: 2307.06908 [41] Tu Vu et al.,(2023) “FreshLLMs: Refreshing Large Language models with Search Engine Augmentation” arXiv: 2310.03214 [42] Daniel Machlab, Rick Battle,(2024) “LLM In-Context Recall is Prompt Dependent” arXiv: 2404.08865 [43] S.M Towhidul Islam Tonmoy et al.,(2024) “A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models” arXiv: 2401.01313 [44] Wes Davis ,(2024) “’You are a helpful mail assistant’, and other Apple Intelligence instructions” TheVerge.com アクセス日2024.0920 [45] Jason Wei et al.,(2022) “Chain of Thought Prompting Elicits Reasoning in Large Language Models” arXiv: 2201.11903 [46] Shehzaad Dhuliawala et al.,(2023) ”Chain of Verification Reduces Hallucination in Large Language Models” arXiv: 2309.11495 [47] Shubham Vatsal, HarshDubey (2024) “A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks” arXiv: 2407.12994 [48] Sander Schulhoff et al.,(2024) “The Prompt Report: A Systematic Survey of Prompting Techniques” arXiv: 2406.06608 [49] jina.ai “Fact-Checking with New Grounding API in Jina Reader” アクセス日 2024.1016 [50] Justin Chih-Yao Chen et al.,(2023) “ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs” arXiv:2309.13007 [51] Ryo Kamoi et al.,(2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs” arXiv: 2406.01297 [52] Abdullatif Köksal et al.,(2023) “Hallucination Augmented Recitation for Language Models” arXiv: 2311.07424 [53] Hanning Zhang et al.,(2023) “R-Tuning: Instructing Large Language Models to Say ‘I Don’t Know’ ” arXiv: 2311.09677 [54] Data Commons, https://datacommons.org アクセス日 2024.0920
  49. 大 規 模 言 語 モ デ ル 講 座講

    義 資 料 LLM 東 京 大 学 松 尾 研 究 室 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾研究室 Reference 49 [55] Parashanth Radhakrishnan et al.,(2024) ”Knowing When to Ask –Bridging Large language Models and Data” arXiv: 2409.13742 [56] Weijia Shi et al.,(2023) “Trusting Your Evidence: Hallucinate Less with Context-aware Decoding” arXiv: 2305.14739 [57] Minh Nguyen et al.,(2024) “Turning Up the Head: Min-p Samling for Creative and Coherent LLM Outputs” arXiv: 2407.01082 [58] Tsendsuren Mnkhdalai et al.,(2024) “Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention” arXiv:2404.07143 [59] Ziwei Ji et al.,(2022) “RHO (ρ): Reducing Hallucination in Open-domain Dialogues with Knowledge Grounding” arXiv: 2212.01588 [60] Farima Fatahi Bayat et al.,(2023) “FLEEK: Factual Error Detection and Correction with Evidence Retrieval from External Knowledge” arXiv: 2310.17119 [61] Xuhui Jiang et al.,(2024) “A Survey on Large Language Model Hallucination via a Creativity Perspective” arXiv: 2402.06647