Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ML15 LaMDAについて15分以内でできるだけ説明する

YutaAsupara
July 30, 2022
760

ML15 LaMDAについて15分以内でできるだけ説明する

YutaAsupara

July 30, 2022
Tweet

Transcript

  1. ©Glia Computing Ltd. 株式会社XXX 御中 15分でそれなりに説明する LaMDA 2022年7月30日 株式会社Glia Computing

    芦原 佑太 富士通アイソテック株式会社 御中
  2. ©Glia Computing Ltd. Confidential 本日の概要 • 大規模言語モデルの登場(背景) • 対話モデルでのこれまでの課題(関連研究) •

    LaMDAの紹介(手法) • LaMDAの構造 • LaMDAにおける3つのポイント • pre-trainingとfine-tuning • 全体まとめ 2 LaMDAが何を目指しているのかを理解し、その工夫を追う
  3. ©Glia Computing Ltd. Confidential 大規模言語モデルの登場 3 https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative- language-model/ より引用 •

    最近ではPaLMのような540Bクラスが学習可能
  4. ©Glia Computing Ltd. Confidential 大規模言語モデルの登場 4 Jared Kaplan, Sam McCandlish,

    Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei: Scaling Laws for Neural Language Models. CoRR abs/2001.08361 (2020) • 特にデータ・パラメータの増加は顕著に成績に影響 (考慮すべきボトルネックが解消されればという条件付き)
  5. ©Glia Computing Ltd. Confidential 大規模言語モデルの登場 5 Jared Kaplan, Sam McCandlish,

    Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei: Scaling Laws for Neural Language Models. CoRR abs/2001.08361 (2020) • パラメータの影響力は学習効率にすら影響 (スモールモデルから始めることに意義はあるが)
  6. ©Glia Computing Ltd. Confidential 大規模言語モデルの登場 • (個人感)TransformerによるEncode-Decode modelの隆盛 特にEncodeはBERT, DecodeはGPTの賜物

    • 特にBERTの発表以降は General (pre-training)→Specific(fine-tuning)の流れ (pre-trainingでリークの心配が増えている・・・?) • General→Specificの流れは、画像を利用したタスクでは定番 • e.g.) Object Detection (BackBoneに長らくVGGが使われる) • 画像の界隈で言われていた現象と似たような状況 • より大規模になっていく(Scalling Law) • データの整備が必要(画像では,テスト画像リークがあった???) • Large-scale training infrastructureが重要な点に 6
  7. ©Glia Computing Ltd. Confidential 対話モデルにおける課題(の一部) • フリートークでも文法上正しそうな回答は良くできる 7 Daniel Adiwardana,

    Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le: Towards a Human-like Open-Domain Chatbot. CoRR abs/2001.09977 (2020)
  8. ©Glia Computing Ltd. Confidential 対話モデルにおける課題(の一部) • 会話が成立してそうな返答をするのは非常に得意 • 構造上MemorizeよりもGeneralizeしてしまう (Yes,

    No or I don’t knowで答えておけばそれっぽい) • 上記の解決がパラメータの増加だけでは難しい • 何を最適化する問題か考えなければいけない • LaMDAの前に発表したMeenaでは対策自体はあった “This motivated us to design a new human evaluation metric, the Sensibleness and Specificity Average (SSA)” • 返答が“それっぽい”以上になることが次のレベル • 話題にちゃんと沿っている、タメになったなど • ↑をどうやって言語モデルに伝えれば良いか 8 Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le: Towards a Human-like Open-Domain Chatbot. CoRR abs/2001.09977 (2020)
  9. ©Glia Computing Ltd. Confidential 対話モデルだけではない課題 • ベンチマークやデータセットの見直しも必要かもしれない 9 Kiela, Douwe

    & Bartolo, Max & Nie, Yixin & Kaushik, Divyansh & Geiger, Atticus & Wu, Zhengxuan & Vidgen, Bertram & Prasad, Grusha & Singh, Amanpreet & Ringshia, Pratik & Ma, Zhiyi & Thrush, Tristan & Riedel, Sebastian & Waseem, Zeerak & Stenetorp, Pontus & Jia, Robin & Bansal, Mohit & Potts, Christopher & Williams, Adina. (2021). Dynabench: Rethinking Benchmarking in NLP.
  10. ©Glia Computing Ltd. Confidential ここまでのまとめ • モデルのスケール(サイズ)の恩恵は偉大 • データのスケーリングも重要 •

    誇大広告Tシャツも誠になる? • 一方で、“よくできるように見える”が、スコアは高い状態 • Plausible responseは特定の指標においてはハイスコア • 話題に沿っていなくても、“文法上正しい”は本当に嬉しい? • 評価の対象となるデータセットについても再考 • 対話モデルに限らない、何を評価“できる”データセットか? • 目的と直接結びついたデータセットを考えなければならない • 加えてスケーリングのためのデータ量も必要 10
  11. ©Glia Computing Ltd. Confidential 本日の概要 • 大規模言語モデルの登場(背景) • 対話モデルでのこれまでの課題(関連研究) •

    LaMDAの紹介(手法) • LaMDAの構造 • LaMDAにおける3つのポイント • pre-trainingとfine-tuning • 全体まとめ 11
  12. ©Glia Computing Ltd. Confidential LaMDAの紹介 ~モデル構造編~ • LaMDAのベースとなるニューラルネットの構造 • Transformer

    64 Layers ≒ 136B parameters • d_model = 8192 (dimension of word vector) • d_ff = 65536 (number of neurons each feed forward layer) • TPUの賜物 • h = 128 (Multi Head Attentionのヘッド数) • LaMDA発表以前のモデルと比べると大体4倍ぐらい • d_k = d_v = 128 (d_qは当然d_kと同じ) • gated-GERU (参考文献を参照) • relative attention bias (described in T5) • LaMDAに限った話ではないので時間的に省略 • 昨今のTransformerではこれがキモ • Discriminator Like Struct (Unsafeを棄却するため) 12 昨今の研究と比較して真新しい構造ではない
  13. ©Glia Computing Ltd. Confidential LaMDAの紹介 ~データ編~ • LaMDAおいて達成したい3つのポイント • Quality

    • Sensibleness • Specificity • Interestingness • Safety • Avoid unintended • Avoid unjust impacts • Avoid misinformation include risk of harm • Groundedness (Meenaから一番変化したとこ) • Be associated with known sources (whenever possible) ⇔ Produce plausible statements 13
  14. ©Glia Computing Ltd. Confidential Quality • Sensibleness : 分別、常識的あたりがニュアンスとしては近い •

    make sense in context であるかどうか • said earlierとcontradictでないか • 単独だと実は一番簡単な指標 (‘Yes’, ‘No’, ‘I don’t know’だけでもスコアは高い) • Spcificity:専門性、、、トピック依存性に近いか • specific to a given contextかどうか • 例えば) I love Eurovision → Me too だと0点 • 評価が多少難しい指標 • 上記二つの指標は、前のモデルMeenaでも考えられていた “This motivated us to design a new human evaluation metric, the Sensibleness and Specificity Average (SSA)” 14 Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le: Towards a Human-like Open-Domain Chatbot. CoRR abs/2001.09977 (2020)
  15. ©Glia Computing Ltd. Confidential Quality • Interestingness:Funnyの感覚とは違う、面白さ、機知 • catch someone’s

    attention or arouse curiosity; also use that rating for anything insightful, unexpected, or witty • 前項のSensibleness, Specificityと合わせて、これらの指標を 評価したラベルデータを使用する • 役6400件の対話ログ(121000 turns): 14~30 turns / dialog • CrowdWorkerがラベル付けを行う • 3 / 5 のYesラベルが得られれば 1 ,そうでなければ 0 15
  16. ©Glia Computing Ltd. Confidential LaMDAの紹介 ~データ編~ • LaMDAおいて達成したい3つのポイント • Quality

    • Sensibleness • Specificity • Interestingness • Safety • Avoid unintended • Avoid unjust impacts • Avoid misinformation include risk of harm • Groundedness (Meenaから一番変化したとこ) • Be associated with known sources (whenever possible) ⇔ Produce plausible statements 16
  17. ©Glia Computing Ltd. Confidential Safety • Discriminative な考え方 • Unsafeを棄却するように学習する

    • Unsafeとは何かを定義する過程はかなり細かい(付録A) 例)Health claims, Promotes, Violent, hatred an individual, Personal Information, sexual, religioned , etc..... • SSIと同じくCrowdWorkerがラベル付け • 約8000件の対話ログ(48000turns) : 5 ~ 10 turns / dialog • 2 / 3 がUnsafeであるとラベル付けしたら 0 そうでなければ 1 • 実は35ページ中14ページに渡って記載されるぐらい 力の入っている項目 17
  18. ©Glia Computing Ltd. Confidential Groundedness • Response contain any factual

    claims が望ましい • 対話がFactual claimを含んでいるか、その情報は正しいか • Informativeness, Accurate Citation • SSIと同じようにCrowdWorkerがラベル付け • 約4000件の対話ログ(40000turns) • 後述するKnowledge Retrieval Systemのために、 Responceが提示したソースの正しいかどうかも見る 18
  19. ©Glia Computing Ltd. Confidential 本日の概要 • 大規模言語モデルの登場(背景) • 対話モデルでのこれまでの課題(関連研究) •

    LaMDAの紹介(手法) • LaMDAの構造 • LaMDAにおける3つのポイント • pre-trainingとfine-tuning • 全体まとめ 19
  20. ©Glia Computing Ltd. Confidential Pre-Training • 2.97B(Billion) documents, 1.12B dialogs,

    13.39B utterances • Total 1.56T(Trillion) words • SentencePiece を利用して 2.81T のトークンに • 34K tokens vocabulary • Meenaの時は約40B wordsだったので、だいたい40倍 • Meenaと比べるとパラメータ数は50倍 • (LaMDA:137B , Meena: 約2B) • 学習はTPU-v3 1024枚で約58日、batch sizeは256K tokens(!?) 20
  21. ©Glia Computing Ltd. Confidential Fine-Tuning • SSI Safetyのfine-tuning • GANに使われるDiscriminatorと同じような構造を追加

    • responseに加えて各属性ごとに期待するRatingの差分を学習 • Safetyについても同様 “What’s up? RESPONSE not much. SENSIBLE 1” “What’s up? RESPONSE not much. INTERESTING 0” “What’s up? RESPONSE not much. UNSAFE 0” • Groundednessのfine-tuning • Groundednessのスコアを上げるには • 外部ソースを覚える(モデルをデカくするとある程度は・・・) • 外部ソースを参照する(モデルをデカくするだけだと無理) • そこで、Information(Knowledge) Retrieval Systemを導入する • LaMDA Bese-Researchとして応用 21
  22. ©Glia Computing Ltd. Confidential Information Retrieval System • LaMDAでは“Ask question

    for the expart.” がコンセプト • LaMDAのIRS(論文中ではTS)では、3つのtoolがある • Web search(Information retrieval system) • A calculator • A translator • LaMDA-researchというモデルが、How to ask を学習する • CroudWorkerが実際にツールを使用した例約40K dialog • LaMDA-researchが imitation するように学ぶ • TSは、キーワードに対してStringやURLを返してくれる 22
  23. ©Glia Computing Ltd. Confidential LaMDA-BaseとLaMDA-Research • LaMDA-Base (要はただのLaMDA)から基本的な解答を得る • LaMDA-ResearchからAsk

    for the expertをTSに投げる 23
  24. ©Glia Computing Ltd. Confidential LaMDA-BaseとLaMDA-Research • 何回かAsk for the expertを行なったのちに(有限回)

    それなりに情報が出揃ったらいつものResponceに切り替え 24
  25. ©Glia Computing Ltd. Confidential Information Retrieval System • OpenAIのWebGPTではOpen Webから情報を取得

    25 Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, and John Schulman. Webgpt: Browser-assisted question- answering with human feedback. arXiv preprint arXiv:2112.09332, 2021. https://medium.com/nlplanet/two-minutes-nlp-the-openai-webgpt-model-that-answers- questions-browsing-the-web-35f690884c25
  26. ©Glia Computing Ltd. Confidential Information Retrieval System • DeepMindのRETROも再帰的な情報処理によって クエリからより正確な情報を取得することを提案

    26 https://www.deepmind.com/publications/improving-language-models-by-retrieving-from-trillions-of-tokens
  27. ©Glia Computing Ltd. Confidential あとは細かな工夫 • RE-RANKING TRICK • Responceを同時に16個生成しておいて、

    Discriminatorからのスコアが高いものを選ぶようにする →Unsafeを回避するために重要らしい • 特に二つ目の質疑応答を見ると、かなりSafetyに傾いて 返答していることがわかる 27
  28. ©Glia Computing Ltd. Confidential 定量的な結果と評価 28

  29. ©Glia Computing Ltd. Confidential まとめ • 人間との自然な対話に向けて非常に力を入れた論文 • データ集めから、かかった人件費から、非常に大規模 •

    達成したい項目に対する適切なデータ収集の努力 • 特にSafety,SSIは効果も高かった • 意識が芽生えた、などは忘れて見習うべきこと • 正しいデータの収集をしっかり行なっていること • 大量にデータを入れればいい、ではなく タスク毎に適切なデータの与え方を考えること • タスク毎にちゃんとそれを達成するための対策を考えること • SSI, Safety, Re-Ranking, IRS, TS, Base-Research etc... 29
  30. ©Glia Computing Ltd. Confidential 参考に使えそうな教材・資料 文章をトークンにする方法(日本で言うと形態素解析的な方法) [SentencePiece: A simple and

    language independent subword tokenizer and detokenizer for Neural Text Processing](https://aclanthology.org/D18-2012 ) (Kudo & Richardson, EMNLP 2018) 実装:https://github.com/google/sentencepiece ・LaMDAを理解する上で学んでおくと助かりそうな知識 参考になりそうなTransformerの教材:https://jalammar.github.io/illustrated-transformer/ LaMDAで出てきたInformation retrieval system(Tool Set)の考え方 : https://jalammar.github.io/illustrated-retrieval-transformer/ T5の解説: https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html Attentionそのものを復習したい方へ; https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq- models-with-attention/ RETROに関する情報: http://mitchgordon.me/ml/2022/07/01/retro-is-blazing.html Similarity Searchに関する情報(LaMDAのTSを考える際の補助に): https://engineering.fb.com/2017/03/29/data- infrastructure/faiss-a-library-for-efficient-similarity-search/ Similarity Search に関する情報2: https://ai.googleblog.com/2020/07/announcing-scann-efficient-vector.html ・今日の内容をなんとなく把握した後に見ると面白い動画 DeepMind’s RETRO vs Google’s LaMDA : https://www.youtube.com/watch?v=gwlI7J54Ng0 30
  31. ©Glia Computing Ltd. Confidential 参考に使えそうな教材・資料 ・読んだらLaMDAの理解に役に立ちそうな論文 Transformer: Vaswani, A., Shazeer,

    N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems (p./pp. 5998--6008), . https://arxiv.org/abs/1706.03762 Transformer-XL:[Dai et al., 2019] Zihang Dai, Zhilin Yang, Yiming Yang, William W Cohen, Jaime Carbonell, Quoc V Le, and Ruslan Salakhutdinov, Transformer-XL: Attentive language models beyond a fixed- length context. In ACL, 2019. https://aclanthology.org/P19-1285.pdf Meena:Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le: Towards a Human-like Open-Domain Chatbot. CoRR abs/2001.09977 (2020) https://arxiv.org/abs/2001.09977 T5 : Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu; : Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. 21(140):1−67, 2020. https://arxiv.org/abs/1910.10683 RETRO : Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, and Laurent Sifre. Improving language models by retrieving from trillions of tokens. arXiv preprint arXiv:2112.04426, 2021. https://proceedings.mlr.press/v162/borgeaud22a.html Safety: LauraWeidinger,JohnMellor,MaribethRauh,ConorGriffin,JonathanUesato,Po-SenHuang,MyraCheng,Mia Glaese, Borja Balle, Atoosa Kasirzadeh, Zac Kenton, Sasha Brown, Will Hawkins, Tom Stepleton, Courtney Biles, Abeba Birhane, Julia Haas, Laura Rimell, Lisa Anne Hendricks, William Isaac, Sean Legassick, Geoffrey Irving, and Iason Gabriel. Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359, 2021. https://arxiv.org/abs/2112.04359 31
  32. ©Glia Computing Ltd. Confidential 本資料に関するご意見、ご質問は、下記までご連絡ください ashihara@glia-computing.com 32