Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】 A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

Tomoaki
November 20, 2023

【論文紹介】 A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

2023年11月18日 LLM×検索論文読み会(https://abeja-innovation-meetup.connpass.com/event/300041/) における発表資料です。

以下の論文について概要を紹介しました。
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
Lei Huang, Weijiang Yu , Weitao Ma, Weihong Zhong, Zhangyin Feng, Haotian Wang , Qianglong Chen , Weihua Peng Xiaocheng Feng , Bing Qin , Ting Liu Harbin Institute of Technology, Huawei Inc.
https://arxiv.org/abs/2311.05232

Tomoaki

November 20, 2023
Tweet

More Decks by Tomoaki

Other Decks in Technology

Transcript

  1. © 2023 LayerX Inc. 【論文紹介】 A Survey on Hallucination in

    Large Language Models: Principles, Taxonomy, Challenges, and Open Questions Lei Huang, Weijiang Yu , Weitao Ma, Weihong Zhong, Zhangyin Feng, Haotian Wang , Qianglong Chen , Weihua Peng Xiaocheng Feng , Bing Qin , Ting Liu Harbin Institute of Technology, Huawei Inc. 2023/11/15 LLM x 検索論文読み会 / Tomoaki Kitaoka(@tapioca_pudd) https://arxiv.org/abs/2311.05232
  2. 2 © 2023 LayerX Inc. 自己紹介 北岡 知晃(Tomoaki Kitaoka) 2019年〜現在

    株式会社LayerX バクラク事業部 MLチーム Software Engineer • バクラクのリリース初期から AI-OCR機能の開発 趣味 • 体を鍛えること(クロスフィット) • 服を作ること
  3. © 2023 LayerX Inc. 3 • Hallucinationの分類方法を提案 ◦ 既存の自然言語生成(NLG)タスクで用いられているHallucinationの分類法をベースに、LLM の性質を踏襲した分類方法を再定義

    • Hallucinationに寄与する要因の分類 ◦ データ、訓練、推論の3つの観点からHallucinationに寄与する要因を掘り下げ • Hallucinationの検出方法とベンチマークの紹介 ◦ 分類されたHallucinationに対する検出メカニズムと評価ベンチマークをそれぞれ紹介 • Hallucinationを軽減するアプローチの紹介 ◦ データ、訓練、推論の三つの観点からHallucinationを軽減するアプローチの紹介 • 課題と未解決問題の紹介 ◦ 長文テキストの生成、RAG、大規模ビジョン言語モデルにおける課題や未解決の問題の紹介 Summary 大規模言語モデル(LLM)におけるHallucinationに関するサーベイ論文で、Hallucinationの概観を提 供することを通じて、LLMの分野の発展に寄与することを目的としている
  4. © 2023 LayerX Inc. 5 Existing Surveys (Ji et al.,

    2023a)はNLGタスクの領域内で事前学習された言語モデルのHallucinationに焦点を当て たサーベイを行った https://arxiv.org/abs/2202.03629 Survey of Hallucination in Natural Language Generation • 一般に、自然言語生成タスクにおける Hallucinationsは、内因性と外因性の 2つ の主要なタイプに分類される( Huang et al., 2021; Li et al., 2022b; Ji et al., 2023a) • 内因性はソースコンテンツと矛盾するアウ トプットに関連しており、外因性はソースコ ンテンツから検証できない生成を指す • NLGタスクの領域内で事前学習された 言語モデルが対象であり、LLMは議論の 範囲外にある
  5. © 2023 LayerX Inc. 6 Existing Surveys (Liu et al.,

    2023h) は事実性(Wang et al., 2023c) は忠実性の側面に関するHallucinationに関 するサーベイを実施 https://arxiv.org/abs/2308.05374 Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment https://arxiv.org/abs/2310.07521 Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity
  6. © 2023 LayerX Inc. 7 Existing Surveys (Zhang et al.,

    2023g)はLLM固有の課題に焦点を当て、Hallucinationの現象、評価ベンチマーク、 および軽減方法の分類法を概説 https://arxiv.org/abs/2309.01219 Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models • LLMにおけるHallucinationを入 力との矛盾、コンテキストとの矛盾、 事実との矛盾という3つの観点から 分類
  7. © 2023 LayerX Inc. 8 Contribution 本論文の貢献は以下 • 事実性と忠実性の両側面に関するHallucinationを扱うことで議論を拡大 •

    先行研究よりもより細かい粒度での分類法の提案 • LLMの能力に遡って、Hallucinationの原因を詳細まで解剖 • Hallucinationの根本原因と軽減策を精巧に紐付け、ターゲットを絞ったアプローチを提案
  8. © 2023 LayerX Inc. 10 Definitions 本論文はLLMのHallucinationをFactuality(事実性)とFaithfulness(忠実性)の観点で大きく分類 Hallucinationの直感的な例 Factuality Hallucination:

    生成されたコンテンツと実世界の事実との間の不一致を指す(事実の不整合・捏造) Faithfulness Hallucination: ユーザが提供する指示や文脈情報との不整合や生成内容の論理的な不整合を指す
  9. © 2023 LayerX Inc. 12 Definitions 忠実性に関するHallucination • Instruction Inconsistency(指示不整合)

    • Context Inconsistency(文脈不整合) • Logical Inconsistency(論理不整合) に分類される
  10. © 2023 LayerX Inc. 16 Hallucination Causes データ関連のHallucinationはFlawed Data Source(不完全なデータソース)とInferior

    Data Utilization(データの利用の失敗)に分類される • Flawed Data Source(不完全なデータソース) ◦ 事前学習データには誤情報や偏見を導入する可能性があり、またデータの特定のドメイン知識や 最新の事実が欠けていることもあり、特定のシナリオにおいて、Hallucinationを引き起こす可 能性がある • Inferior Data Utilization(データの利用の失敗) ◦ 巨大なパラメータと訓練データによって学習されたLLMは、パラメータ内部に事実や常識的知識 を保持しているが、それらの知識の利用がうまくいかず、Hallucinationを生む可能性がある
  11. © 2023 LayerX Inc. 17 Hallucination Causes Flawed Data Source(不完全なデータソース)

    • 誤情報と偏見 ◦ 模倣的虚偽 ▪ 事前学習では学習データの分布を模倣するた め、事実上正しくないデータでトレーニングされた LLMは、不正確さを増幅させる可能性がある( Lin et al., 2022) ◦ 複製バイアス ▪ 事前学習のデータ内に複製された情報が存在す ると、一般化せず記憶へと LLMを変える可能性が ある(Hernandez et al., 2022) ◦ 社会的バイアス ▪ 性別(Paullada et al., 2021)や国籍(Narayanan Venkit et al., 2023; Ladhak et al., 2023)などの 社会的な偏見が意図せず反映されうる
  12. © 2023 LayerX Inc. 18 Hallucination Causes Flawed Data Source(不完全なデータソース)

    • 知識の限界 ◦ ドメイン知識の不足 ▪ LLMが主に広範な公開データセットでト レーニングされているため( Penedo et al., 2023; Raffel et al., 2020; Gao et al., 2021)、特化したドメインにおける専門知 識に欠ける ◦ 時代遅れの知識 ▪ モデルが一度トレーニングされると、その 内部の知識は決して更新されないため、 組み込まれた事実知識は時間とともに時 代遅れになる
  13. © 2023 LayerX Inc. 19 Hallucination Causes Inferior Data Utilization(データの利用の失敗)

    • Knowledge Shortcut(知識の近道) ◦ LLMはプレトレーニングデータ内の位置的な近さ( Li et al., 2022a)、共起統計(Kang and Choi, 2023)、関連ドキュメント数( Kandpal et al., 2023)に過度に依存する傾向がある ◦ 例:「カナダの首都」について問い合わせた際、モデルは誤って「トロント」と回答するが実際にはオ タワが正解である。これはカナダとトロントが同時に使われる頻度が高いことに由来する
  14. © 2023 LayerX Inc. 20 Hallucination Causes Inferior Data Utilization(データの利用の失敗)

    • Knowledge Recall Failures(知識の想起の失敗) ◦ Long-tailな知識 ▪ 共起に基づいて事実的な知識を記憶する LLM にとっては、Long-tailな知識は希少性を持つた め、問う質問に対して不正確な回答を生成する 可能性が高い ◦ 複雑なシナリオ ▪ 複数ステップの質問応答シナリオでは、 LLMが 必要な知識を持っていても、質問間に複数の 関連性が存在するため、正確な結果を生成す ることが難しい(Zheng et al., 2023)
  15. © 2023 LayerX Inc. 22 Hallucination Causes 訓練関連のHallucinationを事前学習の段階とアライメントの段階とで考察する • 事前学習

    ◦ LLMが汎用的な表現を学習し、世界の知識を獲得する段階 ◦ LLMにとって基礎となる段階であり、通常はトランスフォーマーに基づくアーキテクチャを使用し て、広範なコーパスに対して因果的言語モデリングを行う • アライメント ◦ LLM がユーザの指示や嗜好によりよく整合するように適応する段階 ◦ 教師ありのfine-tuningと人間のフィードバックからの強化学習を主としており、 LLMの能力を人間 の嗜好に合わせるためのステップ
  16. © 2023 LayerX Inc. 23 Hallucination Causes 事前学習由来のHallucination • Architecture

    Flaw(アーキテクチャの不具合) ◦ LLMは左から右へと前のトークンに基づいて次のトークンを予測する単方向の自己回帰モデル ◦ 単方向のモデリングは効率的なトレーニングを促進するが、単一方向からのコンテキストしか利 用できず、複雑な文脈依存性を捉える能力が阻害され、Hallucinationの原因になる(Li et al., 2023h) • Exposure Bias(露出バイアス) ◦ トレーニング中のモデルは通常正解のトークンを入力として提供されるが、推論中はモデルは自 身が生成したトークンに依存して後続の予測を行うので、生成された誤ったトークンが後続の シーケンス全体にエラーを連鎖させ、雪だるま式にHallucinationを発生させる可能性がある (Bengio et al., 2015; Ranzato et al., 2016)
  17. © 2023 LayerX Inc. 24 Hallucination Causes アライメント由来のHallucination • Capability

    Misalignment(能力とのずれ) ◦ LLMの能力が拡大するにつれて、LLMの固有の能力とアノテーションデータに描かれた能力と の間の潜在的な不一致が問題となる ◦ アライメントデータの要求がこれら事前に定義された能力の境界を超えると、LLMは自身の知 識を超えるコンテンツを生成するようにトレーニングされHallucinationを誘発する (Schulman, 2023) • Belief Misalignment(信念とのずれ) ◦ LLMが人間のフィードバックで訓練されていても時には内部信念と異なるアウトプットを生成す ることがあり、これは真実性を犠牲にしてでも人間の評価者を喜ばせるというモデルの傾向を 示す(sycophancy)(Cotra, 2021)
  18. © 2023 LayerX Inc. 26 Hallucination Causes 推論関連のHallucinationはInherent Sampling Randomness(サンプリングのランダム性)や

    Imperfect Decoding Representation(不完全なデコーディング表現)から誘発される • サンプリングのランダム性 ◦ LLMは高度に創造的で多様なコンテンツを生成するが、この能力はデコーディングにおけるランダ ム性が重要な役割を果たしている ◦ サンプリングのTemperatureを高くすると、より均一なトークン確率分布になり、分布の末尾から低 頻度のトークンをサンプリングする可能性が高まり、結果としてレアなトークンをサンプリングする 傾向が高まり、Hallucinationのリスクが高まる(Aksitov et al., 2023) • 不完全なデコーディング表現 ◦ 文脈の欠如 ▪ 部分的に生成されたコンテンツに過度に焦点を当てることから生じ、しばしば、ソース文脈に 忠実に従うことを犠牲にして流暢さを優先させてしまう問題 ▪ 長くて包括的な応答を生成する傾向がある LLMでは、この懸念がさらに増幅され、指示忘れ のリスクも高まり、Hallucinationのリスクが高まる(Chen et al., 2023f; Liu et al., 2023i)
  19. © 2023 LayerX Inc. 28 Hallucination Detection and Benchmarks 分類されたHallucinationに対する検出メカニズムと評価ベンチマークをそれぞれ紹介

    Hallucination検出方法とベンチマークは共にFactuality(事実性)とFaithfulness(忠実性)の観点で 分類される
  20. © 2023 LayerX Inc. 30 Hallucination Detection and Benchmarks 事実性のHallucinationの検知

    • 外部情報の取得 ◦ LLM出力における事実の不正確さを効果的に 特定するために、モデルが生成したコンテンツ と信頼できる知識源を比較する
  21. © 2023 LayerX Inc. 31 Hallucination Detection and Benchmarks 事実性のHallucinationの検知

    • Uncertainty Estimation(不確かさの推定) ◦ 外部のリソースに依存する手法が多い中、retrievalすることなく、リソースなしでこの問題に取 り組む手法 ◦ LLM Internal States ▪ トークンの確率やエントロピーなどLLMの内部状態を不確実性を示す指標として利用 ◦ LLM Behavior ▪ 自然言語のプロンプトを通じて、またはその行動的な表れを調べることによって、モデル の不確実性を探る(Xiong et al., 2023; Kadavath et al., 2022)
  22. © 2023 LayerX Inc. 33 Hallucination Detection and Benchmarks 忠実性のHallucinationの検知

    https://aclanthology.org/2020.acl-main.454.pdf • QAモデルによる検知方法 ◦ 要約文とソース文書が与えられた時、①まず要約から重要なテキストスパン(名詞句やエンティ ティ)をマスク、②学習済みのモデルを使用して対応する質問を生成、③最後に、 QAモデルがこれ らの質問に対する答えを文書から見つけ出し F1 scoreなどパフォーマンスを測定 FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization
  23. © 2023 LayerX Inc. 39 Hallucination Mitigating データ関連のHallucinationの軽減 データ関連のHallucinationは一般にトレーニングデータに根ざしたバイアス、誤情報、および知識のギャップか ら生まれる。これらの対策は以下に分類される。

    • Mitigating Misinformation and Biases(誤情報・バイアスの軽減) ◦ 誤情報とバイアスの発生を最小限に抑え、知識の増強と LLMによる知識の効果的な活用の向 上を目指す • Mitigating Knowledge Boundary(知識の限界の軽減) ◦ 追加で知識を獲得することで、トレーニングデータのカバレッジと時間的境界から生まれる制約 を軽減させる • Mitigating Knowledge Shortcut(知識のショートカットの軽減) ◦ バイアスのあるサンプルを排除するなどして、コーパスにおける共起の統計情報の偽の相関を 減らす • Mitigating Knowledge Recall Failures(知識の想起の失敗の軽減) ◦ モデルがパラメータ内部に埋め込まれた情報を正確に取得す能力を強化する
  24. © 2023 LayerX Inc. 40 Hallucination Mitigating データ関連のHallucinationの軽減 誤情報・バイアスの軽減 •

    重複バイアスの除去 ◦ ハッシュベースの技術を利用して、 n-gramの重なりを持つ文書ペアを特定 ◦ MinHash(Broder, 1997)は大規模な重複除去タスクにおいて広く使用されるアルゴリズム (Gyawali et al., 2020) • 社会的バイアスの除去 ◦ コーパスのキュレーションに大きく依存しており、多様でバランスが取れたトレーニングデータを 慎重に選択することで、 Hallucinationを引き起こす可能性のあるバイアスを軽減する( Paullada et al., 2021; Narayanan Venkit et al., 2023; Ladhak et al., 2023)
  25. © 2023 LayerX Inc. 41 Hallucination Mitigating データ関連のHallucinationの軽減 知識の限界の軽減 •

    RAG ◦ 知識ギャップを軽減する直感的な方法として検索強化生成があり( Retrieval-Augmented Generation, RAG)(Lewis et al., 2020b; Guu et al., 2020; Shuster et al., 2021)様々な手法 が提案されている ◦ マルチステップの推論( Yang et al., 2018c)やロングフォームの質問応答( Fan et al., 2019; Stelmakh et al., 2022)のような複雑な課題に直面した場合に反復的に検索を行う手法が提案 されている ▪ CoTプロンプトをベースに self-askする(Press et al., 2022) ▪ 次回の検索でより関連する知識を取得できるようにモデルの応答を作成する反復的な検 索生成協働フレームワーク (Feng et al. 2023b) (Shao et al. 2023) ◦ また、従来のretrieve-then-readのパラダイムを超えて、事後の検索に焦点を当てる手法も盛ん に研究されている ▪ 初期の生成を改訂する「 research-then-revise」(Gao et al. 2023a) ▪ 平均以下のconsistencyを示す推論チェーンに対して、フレームワークは検証の質問を生 成して出力を洗練させる「 verify-and-edit」(Zhao et al. 2023a)
  26. © 2023 LayerX Inc. 43 Hallucination Mitigating 訓練関連のHallucinationの軽減 • 事前学習関連のHallucinationの軽減

    ◦ 新しいモデルアーキテクチャの探求と事前トレーニング目標の改善を目指す ▪ (Li et al. 2023h)によるunidirectionalなGPTモデルに代わってbidirectionallアーキテクチャ を持つBATGPTを提案 ▪ (Liu et al. 2023a)によるself-attentionベースのアーキテクチャ内のソフトアテンションの限界 を軽減するattentionの正則化手法を提案 • アライメント学習関連の Hallucinationの軽減 ◦ 人間の好みの判断を改善し、それに伴って好みのモデルを改善することを目指す ▪ Sharma et al. (2023) は、複数の人間の好みを集約することでフィードバックの質が向上 し、お世辞行動が減少することを発見 ▪ Wei et al. (2023) は、合成データを用いた介入を提案し、ユーザーの意見とは独立した主 張の真実を持つ合成データを使用して言語モデルを fine-tuningし、お世辞の傾向を減らすこ とを目指す
  27. © 2023 LayerX Inc. 45 Hallucination Mitigating 推論関連のHallucinationの軽減 推論関連のHallucinationの軽減はFactuality Enhanced

    Decoding(事実性強化)と Faithfulness Enhanced Decoding(忠実性強化)に分類される • デコードでの事実性強化 ◦ LLMによって生成される情報の事実性を保証することを重視 ▪ Dhuliawala et al. (2023) は、適切にプロンプトされたときに LLMが自己の間違いを修正し、 より正確な事実を提供できるという仮定の下で動作する Chain-of-Verification(COVE)を提 案。 • デコードでの忠実性強化 ◦ ユーザー指示や提供された文脈との整合性を優先し、生成されたコンテンツ内の一貫性を高める ことを重視 ▪ デコーディングプロセス中に信頼スコアを組み込み、モデルのソースへの注意レベルを測定 するデコーディングを提案し、信頼スコアが高いときにソースを強調することで、文脈に注意 を払わないことから生じる Hallucinationを軽減する(Tian et al. 2019)
  28. © 2023 LayerX Inc. 47 Challenges and Open Questions 長文テキスト生成、RAG、大規模ビジョン言語モデルにおけるHallucinationの課題

    • 長文テキスト生成 ◦ コンテンツの長さが増すにつれてHallucinationの傾向も増大(Min et al., 2023) ◦ 既存のベンチマークは事実に関する質問と答えの形式で提示されることが多く、長文テキスト 生成の領域におけるベンチマークは少なく研究の妨げとなっている • RAG ◦ 無関係なエビデンスを取得してしまった場合、どうしても出力が汚染される可能性がある ◦ 仮に正確にエビデンスを取得できても、生成時の引用の不正確さも課題 ◦ 既存のRAGは多様性と事実性の間のトレードオフに直面しており、多様性の必要性から事実性 を担保に課題(Liu et al., 2023f) • 大規模ビジョン言語モデル ◦ Li et al. (2023e), Lovenia et al. (2023)によると現在のLVLMは、存在しないオブ ジェクト、誤った属性、誤った意味関係など関連する画像に関して一貫性のない応答を生成しや すい ◦ LVLMは視覚的要素を正しく認識しても、論理的推論に欠陥がある結果を生成する可能性があ る
  29. © 2023 LayerX Inc. 48 Challenges and Open Questions 未解決問題

    • 自己修正メカニズムは推論の Hallucinationの緩和に役立つか? ◦ 複雑な推論タスクの処理時に、時より推論のステップや結論に一貫性がない推論をする ◦ 検索や対話など外部フィードバックを取り入れることでこれらの問題を軽減できるとされている が、LLM自身での自己修正メカニズムの有効性については、まだ疑問が残っておりさらなる探求 が必要 • LLMの知識境界を正確に捉えることができるか ? ◦ LLMは自らの知識の境界を認識することに課題があり、それゆえ虚偽情報を生成してしまうこと がある ◦ LLMに内在する信念を探る研究はまだまだ未成熟でこれらの問題を効果的に探る方法はまだ研 究が進行中。 • 創造性と事実性のバランスをどうとることができるのか ? ◦ LLMの開発において、創造性と事実性のバランスを取ることは大きな課題 ◦ 事実性を確保することは現実世界のアプリケーションにとっては重要だが、一方で Hallucination は創造的な取り組みにおいては価値を発揮しやすく両者のバランスの取り方は未解決のまま
  30. © 2023 LayerX Inc. 49 • Hallucinationの分類方法を提案 ◦ 既存の自然言語生成(NLG)タスクで用いられているHallucinationの分類法をベースに、LLM の性質を踏襲した分類方法を再定義

    • Hallucinationに寄与する要因を分類 ◦ データ、訓練、推論の3つの観点からHallucinationに寄与する要因を掘り下げ • Hallucinationの検出方法とベンチマークの紹介 ◦ 分類されたHallucinationに対する検出メカニズムと評価ベンチマークをそれぞれ紹介 • Hallucinationを軽減するアプローチの紹介 ◦ データ、訓練、推論の三つの観点からHallucinationを軽減するアプローチの紹介 • 課題と未解決問題の紹介 ◦ 長文テキストの生成、RAG、大規模ビジョン言語モデルにおける課題や未解決の問題の紹介 Summary 大規模言語モデル(LLM)におけるHallucinationに関するサーベイ論文で、Hallucinationの概観を提 供することを通じて、LLMの分野の発展に寄与することを目的としている
  31. © 2023 LayerX Inc. 50 Ref (Huang et al., 2021)

    Yi-Chong Huang, Xia-Chong Feng, Xiao-Cheng Feng, and Bing Qin. 2021. The factual inconsistency problem in abstractive text summarization: A survey. ArXiv preprint, abs/2104.14839 (Li et al., 2022b) Wei Li, Wenhao Wu, Moye Chen, Jiachen Liu, Xinyan Xiao, and Hua Wu. 2022b. Faithfulness in natural language generation: A systematic survey of analysis, evaluation and optimization methods. ArXiv preprint, abs/2203.05227. (Ji et al., 2023a) Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Yejin Bang, Andrea Madotto, and Pascale Fung. 2023a. Survey of hallucination in natural language generation. ACM Comput. Surv., 55(12):248:1–248:38. (Lin et al., 2022) Stephanie Lin, Jacob Hilton, and Owain Evans. 2022. TruthfulQA: Measuring how models mimic human falsehoods. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3214–3252, Dublin, Ireland. Association for Computational Linguistics. (Hernandez et al., 2022) Danny Hernandez, Tom B. Brown, Tom Conerly, Nova DasSarma, Dawn Drain, Sheer El Showk, Nelson Elhage, Zac Hatfield-Dodds, Tom Henighan, Tristan Hume, Scott Johnston, Benjamin Mann, Chris Olah, Catherine Olsson, Dario Amodei, Nicholas Joseph, Jared Kaplan, and Sam McCandlish. 2022. Scaling laws and interpretability of learning from repeated data. ArXiv preprint, abs/2205.10487 (Paullada et al., 2021) Amandalynne Paullada, Inioluwa Deborah Raji, Emily M. Bender, Emily Denton, and Alex Hanna. 2021. Data and its (dis)contents: A survey of dataset development and use in machine learning research. Patterns, 2(11):100336. (Narayanan Venkit et al., 2023) Pranav Narayanan Venkit, Sanjana Gautam, Ruchi Panchanadikar, Ting-Hao Huang, and Shomir Wilson. 2023. Nationality bias in text generation. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, pages 116–122, Dubrovnik, Croatia. Association for Computational Linguistics. (Ladhak et al., 2023) Faisal Ladhak, Esin Durmus, Mirac Suzgun, Tianyi Zhang, Dan Jurafsky, Kathleen McKeown, and Tatsunori Hashimoto. 2023. When do pre-training biases propagate to downstream tasks? a case study in text summarization. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, pages 3206– 3219, Dubrovnik, Croatia. Association for Computational Linguistics.
  32. © 2023 LayerX Inc. 51 Ref (Penedo et al., 2023)

    Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, and Julien Launay. 2023. The refinedweb dataset for falcon LLM: outperforming curated corpora with web data, and web data only. ArXiv preprint, abs/2306.01116. (Raffel et al., 2020) Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. 2020. Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21:140:1–140:67. (Gao et al., 2021) Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, et al. 2021. The pile: An 800gb dataset of diverse text for language modeling. ArXiv preprint, abs/2101.00027. (Li et al., 2022a) Shaobo Li, Xiaoguang Li, Lifeng Shang, Zhenhua Dong, Chengjie Sun, Bingquan Liu, Zhenzhou Ji, Xin Jiang, and Qun Liu. 2022a. How pre-trained language models capture factual knowledge? a causal-inspired analysis. In Findings of the Association for Computational Linguistics: ACL 2022, pages 1720–1732, Dublin, Ireland. Association for Computational Linguistics. (Kang and Choi, 2023) Cheongwoong Kang and Jaesik Choi. 2023. Impact of co-occurrence on factual knowledge of large language models. ArXiv preprint, abs/2310.08256. (Kandpal et al., 2023) Nikhil Kandpal, Haikang Deng, Adam Roberts, Eric Wallace, and Colin Raffel. 2023. Large language models struggle to learn long-tail knowledge. In International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA, volume 202 of Proceedings of Machine Learning Research, pages 15696–15707. PMLR. (Zheng et al., 2023) Shen Zheng, Jie Huang, and Kevin Chen-Chuan Chang. 2023. Why does chatgpt fall short in answering questions faithfully? ArXiv preprint, abs/2304.10513. (Li et al., 2023h) Zuchao Li, Shitou Zhang, Hai Zhao, Yifei Yang, and Dongjie Yang. 2023h. Batgpt: A bidirectional autoregessive talker from generative pre-trained transformer. ArXiv preprint, abs/2307.00360.
  33. © 2023 LayerX Inc. 52 Ref (Bengio et al., 2015)

    Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer. 2015. Scheduled sampling for sequence prediction with recurrent neural networks. In Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015, December 7-12, 2015, Montreal, Quebec, Canada, pages 1171–1179. (Ranzato et al., 2016) Marc’Aurelio Ranzato, Sumit Chopra, Michael Auli, and Wojciech Zaremba. 2016. Sequence level training with recurrent neural networks. In 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings. (Schulman, 2023) John Schulman. 2023. Reinforcement learning from human feedback: Progress and challenges. (Cotra, 2021) Ajeya Cotra. 2021. Why AI alignment could be hard with modern deep learning. Cold Takes. (Aksitov et al., 2023) Renat Aksitov, Chung-Ching Chang, David Reitter, Siamak Shakeri, and Yun-Hsuan Sung. 2023. Characterizing attribution and fluency tradeoffs for retrievalaugmented large language models. ArXiv preprint, abs/2302.05578. (Chen et al., 2023f) Yijie Chen, Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu, and Jie Zhou. 2023f. Improving translation faithfulness of large language models via augmenting instructions. ArXiv preprint, abs/2308.12674. (Liu et al., 2023i) Yijin Liu, Xianfeng Zeng, Fandong Meng, and Jie Zhou. 2023i. Instruction position matters in sequence generation with large language models. ArXiv preprint, abs/2308.12097. (Xiong et al., 2023) Miao Xiong, Zhiyuan Hu, Xinyang Lu, Yifei Li, Jie Fu, Junxian He, and Bryan Hooi. 2023. Can llms express their uncertainty? an empirical evaluation of confidence elicitation in llms. ArXiv preprint, abs/2306.13063. (Kadavath et al., 2022) Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain, Ethan Perez, Nicholas Schiefer, Zac Hatfield-Dodds, Nova DasSarma, Eli Tran-Johnson, et al. 2022. Language models (mostly) know what they know. ArXiv preprint, abs/2207.05221.
  34. © 2023 LayerX Inc. 53 Ref (Broder, 1997) Andrei Z

    Broder. 1997. On the resemblance and containment of documents. In Proceedings. Compression and Complexity of SEQUENCES 1997 (Cat. No. 97TB100171), pages 21–29. IEEE. (Gyawali et al., 2020) Bikash Gyawali, Lucas Anastasiou, and Petr Knoth. 2020. Deduplication of scholarly documents using locality sensitive hashing and word embeddings. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 901–910, Marseille, France. European Language Resources Association. (Paullada et al., 2021) Amandalynne Paullada, Inioluwa Deborah Raji, Emily M. Bender, Emily Denton, and Alex Hanna. 2021. Data and its (dis)contents: A survey of dataset development and use in machine learning research. Patterns, 2(11):100336. (Narayanan Venkit et al., 2023) Pranav Narayanan Venkit, Sanjana Gautam, Ruchi Panchanadikar, Ting-Hao Huang, and Shomir Wilson. 2023. Nationality bias in text generation. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, pages 116–122, Dubrovnik, Croatia. Association for Computational Linguistics. (Ladhak et al., 2023) Faisal Ladhak, Esin Durmus, Mirac Suzgun, Tianyi Zhang, Dan Jurafsky, Kathleen McKeown, and Tatsunori Hashimoto. 2023. When do pre-training biases propagate to downstream tasks? a case study in text summarization. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, pages 3206– 3219, Dubrovnik, Croatia. Association for Computational Linguistics. (Lewis et al., 2020b) Patrick S. H. Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, and Douwe Kiela. 2020b. Retrieval-augmented generation for knowledge-intensive NLP tasks. In Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual. (Guu et al., 2020) Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Ming-Wei Chang. 2020. Retrieval augmented language model pre-training. In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event, volume 119 of Proceedings of Machine Learning Research, pages 3929–3938. PMLR.
  35. © 2023 LayerX Inc. 54 Ref (Shuster et al., 2021)

    Kurt Shuster, Spencer Poff, Moya Chen, Douwe Kiela, and Jason Weston. 2021. Retrieval augmentation reduces hallucination in conversation. In Findings of the Association for Computational Linguistics: EMNLP 2021, pages 3784–3803, Punta Cana, Dominican Republic. Association for Computational Linguistics. (Yang et al., 2018c) Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William Cohen, Ruslan Salakhutdinov, and Christopher D. Manning. 2018c. HotpotQA: A dataset for diverse, explainable multi-hop question answering. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2369–2380, Brussels, Belgium. Association for Computational Linguistics. (Fan et al., 2019) Angela Fan, Yacine Jernite, Ethan Perez, David Grangier, Jason Weston, and Michael Auli. 2019. ELI5: Long form question answering. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3558–3567, Florence, Italy. Association for Computational Linguistics. (Stelmakh et al., 2022) Ivan Stelmakh, Yi Luan, Bhuwan Dhingra, and MingWei Chang. 2022. ASQA: Factoid questions meet long-form answers. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 8273–8288, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics. (Press et al., 2022) Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A Smith, and Mike Lewis. 2022. Measuring and narrowing the compositionality gap in language models. ArXiv preprint, abs/2210.03350. (Feng et al. 2023b) Huawen Feng, Yan Fan, Xiong Liu, Ting-En Lin, Zekun Yao, Yuchuan Wu, Fei Huang, Yongbin Li, and Qianli Ma. 2023a. Improving factual consistency of text summarization by adversarially decoupling comprehension and embellishment abilities of llms. CoRR, abs/2310.19347. (Shao et al. 2023) Zhihong Shao, Yeyun Gong, Yelong Shen, Minlie Huang, Nan Duan, and Weizhu Chen. 2023. Enhancing retrieval-augmented large language models with iterative retrieval-generation synergy. ArXiv preprint, abs/2305.15294. (Gao et al. 2023a) Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, et al. 2021. The pile: An 800gb dataset of diverse text for language modeling. ArXiv preprint, abs/2101.00027.
  36. © 2023 LayerX Inc. 55 Ref (Zhao et al. 2023a)

    Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, et al. 2023b. A survey of large language models. ArXiv preprint, abs/2303.18223. (Li et al. 2023h) Zuchao Li, Shitou Zhang, Hai Zhao, Yifei Yang, and Dongjie Yang. 2023h. Batgpt: A bidirectional autoregessive talker from generative pre-trained transformer. ArXiv preprint, abs/2307.00360. (Liu et al. 2023a) Bingbin Liu, Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy, and Cyril Zhang. 2023a. Exposing attention glitches with flip-flop language modeling. ArXiv preprint, abs/2306.00946. (Sharma et al. 2023) Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, and Ethan Perez. 2023. Towards understanding sycophancy in language models. ArXiv preprint, abs/2310.13548. (Wei et al. 2023) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. 2022. Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35:24824–24837. (Tian et al. 2019) Ran Tian, Shashi Narayan, Thibault Sellam, and Ankur P Parikh. 2019. Sticking to the facts: Confident decoding for faithful data-to-text generation. ArXiv preprint, abs/1910.08684. (Min et al., 2023) Sewon Min, Kalpesh Krishna, Xinxi Lyu, Mike Lewis, Wen-tau Yih, Pang Wei Koh, Mohit Iyyer, Luke Zettlemoyer, and Hannaneh Hajishirzi. 2023. Factscore: Fine-grained atomic evaluation of factual precision in long form text generation. ArXiv preprint, abs/2305.14251. (Liu et al., 2023f) Nelson F. Liu, Tianyi Zhang, and Percy Liang. 2023f. Evaluating verifiability in generative search engines. ArXiv preprint, abs/2304.09848. (Li et al. 2023e) Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao, and Ji-Rong Wen. 2023e. Evaluating object hallucination in large vision-language models. (Lovenia et al. 2023) Holy Lovenia, Wenliang Dai, Samuel Cahyawijaya, Ziwei Ji, and Pascale Fung. 2023. Negative object presence evaluation (nope) to measure object hallucination in vision-language models.