Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 SNLP2024 Instruction-tuned Language Model...

S
August 19, 2024

論文読み会 SNLP2024 Instruction-tuned Language Models are Better Knowledge Learners. In: ACL 2024

S

August 19, 2024
Tweet

More Decks by S

Other Decks in Research

Transcript

  1. Instruction-tuned Language Models are Better Knowledge Learners. In: ACL 2024

    Zhengbao Jiang, Zhiqing Sun, Weijia Shi, Pedro Rodriguez, Chunting Zhou, Graham Neubig, Xi Lin, Wen-tau Yih, Srini Iyer 第16回 最先端NLP勉強会 Hottolink/ Titech Okazaki Lab/AIST: Sakae Mizuki 2024-08-25 ※ スライド中の図表・数式は,断りのないかぎり本論文からの引用です
  2. 仮説 • LLMは事前学習テキストから知識をエンコードする • 質問応答(QA)による指示チューニングは知識の引き出し方を教える • [Sanh+, ICLR22][Wei+, ICLR22] など

    • ならば,QAで事前学習すると「引き出し方」を意識したエンコードを するようになって,継続事前学習の性能が改善するのでは? 4 Q. マーベルズの監督は? A. ニア・ダコスタ Q. マーベルズの脚本は? A. ミーガン・マクドネル QAで事前学習 Better Knowledge Learner +知識獲得能力
  3. 提案手法と実証 • 質問応答で事前学習してから継続事前学習を実行する Pre-Instruction-Tuning (PIT) を提案 • Wikipediaの2023年映画記事で実験 • 通常の継続事前学習や指示チューニングの精度を上回ることを実証

    5 Q. マーベルズの監督は? A. ニア・ダコスタ Q. マーベルズの脚本は? A. ミーガン・マクドネル Pre-Instruction-Tuning 継続事前学習 Q. バービーの主演は? A. マーゴット・ロビー ++2023年の情報
  4. 実験設定 • 2022年9月までの知識を持つ Llama 2 7B に 2023年の映画の情報を学習させる設定 • 2023年のWikipedia映画記事=docを収集して

    LLMに記事の質問応答=QAを作らせる • {train doc, train QA, test doc, test QA}に分割 7 doc QA train QA train doc test QA test doc 1,720件 11,603問 1,743問 256件
  5. 実験設定 • Llama 2 に2023年の知識はないので test QA は解けない (精度は9.5%) •

    test doc を継続事前学習させたときの test QA の精度を競う • 提案手法は train doc, train QA を使ってPre-Instruct-Tuningする • train doc, train QA で普通(?)に学習するやりかたをベースラインとする train QA train doc test QA test doc Pre-Instruction-Tuning 継続事前学習 評価 5-shot accuracy (exact match) Llama 2 ~提案手法~ ~ベースライン~ test doc 継続事前学習 test QA 評価 継続事前学習のみ 継続事前学習 +指示チューニング test doc train doc 指示チューニング test QA train QA 8
  6. 実験結果 • Pre-Instruction-Tuning (PIT) により精度が6—18pt改善する • “全部同時に継続事前学習”との差異は train doc, train

    QA の学習タイミングのみ なので,PIT効果の本質はカリキュラム学習だと示唆される 学習方法 Pre-Inst.-Tune. 継続事前学習 指示チューニング test QA acc. 継続事前学習 27.6 継続事前学習 +指示チューニング 30.3 全部同時に 継続事前学習 39.4 提案手法 45.4 test doc train QA test doc train doc train doc train QA test doc train doc train QA test doc 10
  7. 分析結果 • 本実験はtrain, testとも映画記事というドメイン内設定である • 映画以外(芸術・経済・政治等)から train doc, train QA

    を取ってくる設定でも PITは依然として有効だが,ドメイン内設定よりも精度が8pt低下する • したがって,汎化能力は怪しい気がする 学習方法 Pre-Inst.-Tune. 継続事前学習 指示チューニング test QA acc. 継続事前学習 +指示チューニング 23.6 提案手法 36.9 提案手法 45.4 映画以外のtrain QA test doc 映画以外のtrain doc train doc train QA test doc 映画以外のtrain doc 映画以外のtrain QA test doc 12
  8. 読んだ理由・読んでみた感想 • カリキュラム学習の有効性を示唆する希有な例だったので… • 日本語での継続事前学習に役立つかもしれないと思った • 気になる点はいろいろある • 1つ目は,実験が極小規模なので実用レベルにスケールするかわからないこと. PITの効果は100Bトークンの継続事前学習でも消失しないのか?

    • 2つ目,獲得済み知識の忘却とのtrade-offの議論がないこと.test docを10epoch 回すので,ほぼ完全に継続事前学習テキストを記憶する実験設定になっている 15 test docのperplexityは1まで低下 Natural Questionsの正答率は 30から約15に低下