ML15 LaMDAについて15分以内でできるだけ説明する

©Glia Computing Ltd. 株式会社XXX 御中 15分でそれなりに説明する LaMDA 2022年7月30日株式会社Glia Computing
芦原佑太富士通アイソテック株式会社御中

©Glia Computing Ltd. Confidential 本日の概要 • 大規模言語モデルの登場（背景） • 対話モデルでのこれまでの課題（関連研究） •
LaMDAの紹介（手法） • LaMDAの構造 • LaMDAにおける３つのポイント • pre-trainingとfine-tuning • 全体まとめ 2 LaMDAが何を目指しているのかを理解し、その工夫を追う

©Glia Computing Ltd. Confidential 大規模言語モデルの登場 3 https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative- language-model/ より引用 •
最近ではPaLMのような540Bクラスが学習可能

©Glia Computing Ltd. Confidential 大規模言語モデルの登場 4 Jared Kaplan, Sam McCandlish,
Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei: Scaling Laws for Neural Language Models. CoRR abs/2001.08361 (2020) • 特にデータ・パラメータの増加は顕著に成績に影響（考慮すべきボトルネックが解消されればという条件付き）

©Glia Computing Ltd. Confidential 大規模言語モデルの登場 5 Jared Kaplan, Sam McCandlish,
Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei: Scaling Laws for Neural Language Models. CoRR abs/2001.08361 (2020) • パラメータの影響力は学習効率にすら影響（スモールモデルから始めることに意義はあるが）

©Glia Computing Ltd. Confidential 大規模言語モデルの登場 • (個人感)TransformerによるEncode-Decode modelの隆盛特にEncodeはBERT, DecodeはGPTの賜物
• 特にBERTの発表以降は General (pre-training)→Specific(fine-tuning)の流れ (pre-trainingでリークの心配が増えている・・・？) • General→Specificの流れは、画像を利用したタスクでは定番 • e.g.) Object Detection (BackBoneに長らくVGGが使われる) • 画像の界隈で言われていた現象と似たような状況 • より大規模になっていく(Scalling Law) • データの整備が必要(画像では，テスト画像リークがあった???) • Large-scale training infrastructureが重要な点に 6

©Glia Computing Ltd. Confidential 対話モデルにおける課題（の一部） • フリートークでも文法上正しそうな回答は良くできる 7 Daniel Adiwardana,
Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le: Towards a Human-like Open-Domain Chatbot. CoRR abs/2001.09977 (2020)

©Glia Computing Ltd. Confidential 対話モデルにおける課題（の一部） • 会話が成立してそうな返答をするのは非常に得意 • 構造上MemorizeよりもGeneralizeしてしまう（Yes,
No or I don’t knowで答えておけばそれっぽい） • 上記の解決がパラメータの増加だけでは難しい • 何を最適化する問題か考えなければいけない • LaMDAの前に発表したMeenaでは対策自体はあった “This motivated us to design a new human evaluation metric, the Sensibleness and Specificity Average (SSA)” • 返答が“それっぽい”以上になることが次のレベル • 話題にちゃんと沿っている、タメになったなど • ↑をどうやって言語モデルに伝えれば良いか 8 Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le: Towards a Human-like Open-Domain Chatbot. CoRR abs/2001.09977 (2020)

©Glia Computing Ltd. Confidential 対話モデルだけではない課題 • ベンチマークやデータセットの見直しも必要かもしれない 9 Kiela, Douwe
& Bartolo, Max & Nie, Yixin & Kaushik, Divyansh & Geiger, Atticus & Wu, Zhengxuan & Vidgen, Bertram & Prasad, Grusha & Singh, Amanpreet & Ringshia, Pratik & Ma, Zhiyi & Thrush, Tristan & Riedel, Sebastian & Waseem, Zeerak & Stenetorp, Pontus & Jia, Robin & Bansal, Mohit & Potts, Christopher & Williams, Adina. (2021). Dynabench: Rethinking Benchmarking in NLP.

©Glia Computing Ltd. Confidential ここまでのまとめ • モデルのスケール（サイズ）の恩恵は偉大 • データのスケーリングも重要 •
誇大広告Tシャツも誠になる？ • 一方で、“よくできるように見える”が、スコアは高い状態 • Plausible responseは特定の指標においてはハイスコア • 話題に沿っていなくても、“文法上正しい”は本当に嬉しい？ • 評価の対象となるデータセットについても再考 • 対話モデルに限らない、何を評価“できる”データセットか？ • 目的と直接結びついたデータセットを考えなければならない • 加えてスケーリングのためのデータ量も必要 10

LaMDAの紹介（手法） • LaMDAの構造 • LaMDAにおける３つのポイント • pre-trainingとfine-tuning • 全体まとめ 11

©Glia Computing Ltd. Confidential LaMDAの紹介 ~モデル構造編~ • LaMDAのベースとなるニューラルネットの構造 • Transformer
64 Layers ≒ 136B parameters • d_model = 8192 (dimension of word vector) • d_ff = 65536 (number of neurons each feed forward layer) • TPUの賜物 • h = 128 (Multi Head Attentionのヘッド数) • LaMDA発表以前のモデルと比べると大体４倍ぐらい • d_k = d_v = 128 (d_qは当然d_kと同じ) • gated-GERU (参考文献を参照) • relative attention bias (described in T5) • LaMDAに限った話ではないので時間的に省略 • 昨今のTransformerではこれがキモ • Discriminator Like Struct (Unsafeを棄却するため) 12 昨今の研究と比較して真新しい構造ではない

©Glia Computing Ltd. Confidential LaMDAの紹介 ~データ編~ • LaMDAおいて達成したい３つのポイント • Quality
• Sensibleness • Specificity • Interestingness • Safety • Avoid unintended • Avoid unjust impacts • Avoid misinformation include risk of harm • Groundedness (Meenaから一番変化したとこ) • Be associated with known sources (whenever possible) ⇔ Produce plausible statements 13

©Glia Computing Ltd. Confidential Quality • Sensibleness : 分別、常識的あたりがニュアンスとしては近い •
make sense in context であるかどうか • said earlierとcontradictでないか • 単独だと実は一番簡単な指標（‘Yes’, ‘No’, ‘I don’t know’だけでもスコアは高い） • Spcificity：専門性、、、トピック依存性に近いか • specific to a given contextかどうか • 例えば) I love Eurovision → Me too だと0点 • 評価が多少難しい指標 • 上記二つの指標は、前のモデルMeenaでも考えられていた “This motivated us to design a new human evaluation metric, the Sensibleness and Specificity Average (SSA)” 14 Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le: Towards a Human-like Open-Domain Chatbot. CoRR abs/2001.09977 (2020)

©Glia Computing Ltd. Confidential Quality • Interestingness：Funnyの感覚とは違う、面白さ、機知 • catch someone’s
attention or arouse curiosity; also use that rating for anything insightful, unexpected, or witty • 前項のSensibleness, Specificityと合わせて、これらの指標を評価したラベルデータを使用する • 役6400件の対話ログ（121000 turns）: 14~30 turns / dialog • CrowdWorkerがラベル付けを行う • 3 / 5 のYesラベルが得られれば 1 ,そうでなければ 0 15

©Glia Computing Ltd. Confidential LaMDAの紹介 ~データ編~ • LaMDAおいて達成したい３つのポイント • Quality
• Sensibleness • Specificity • Interestingness • Safety • Avoid unintended • Avoid unjust impacts • Avoid misinformation include risk of harm • Groundedness (Meenaから一番変化したとこ) • Be associated with known sources (whenever possible) ⇔ Produce plausible statements 16

©Glia Computing Ltd. Confidential Safety • Discriminative な考え方 • Unsafeを棄却するように学習する
• Unsafeとは何かを定義する過程はかなり細かい(付録A) 例）Health claims, Promotes, Violent, hatred an individual, Personal Information, sexual, religioned , etc..... • SSIと同じくCrowdWorkerがラベル付け • 約8000件の対話ログ(48000turns) : 5 ~ 10 turns / dialog • 2 / 3 がUnsafeであるとラベル付けしたら 0 そうでなければ 1 • 実は35ページ中１4ページに渡って記載されるぐらい力の入っている項目 17

©Glia Computing Ltd. Confidential Groundedness • Response contain any factual
claims が望ましい • 対話がFactual claimを含んでいるか、その情報は正しいか • Informativeness, Accurate Citation • SSIと同じようにCrowdWorkerがラベル付け • 約4000件の対話ログ(40000turns) • 後述するKnowledge Retrieval Systemのために、 Responceが提示したソースの正しいかどうかも見る 18

LaMDAの紹介（手法） • LaMDAの構造 • LaMDAにおける３つのポイント • pre-trainingとfine-tuning • 全体まとめ 19

©Glia Computing Ltd. Confidential Pre-Training • 2.97B(Billion) documents, 1.12B dialogs,
13.39B utterances • Total 1.56T(Trillion) words • SentencePiece を利用して 2.81T のトークンに • 34K tokens vocabulary • Meenaの時は約40B wordsだったので、だいたい40倍 • Meenaと比べるとパラメータ数は50倍 • (LaMDA:137B , Meena: 約2B) • 学習はTPU-v3 1024枚で約58日、batch sizeは256K tokens(!?) 20

©Glia Computing Ltd. Confidential Fine-Tuning • SSI Safetyのfine-tuning • GANに使われるDiscriminatorと同じような構造を追加
• responseに加えて各属性ごとに期待するRatingの差分を学習 • Safetyについても同様 “What’s up? RESPONSE not much. SENSIBLE 1” “What’s up? RESPONSE not much. INTERESTING 0” “What’s up? RESPONSE not much. UNSAFE 0” • Groundednessのfine-tuning • Groundednessのスコアを上げるには • 外部ソースを覚える(モデルをデカくするとある程度は・・・) • 外部ソースを参照する(モデルをデカくするだけだと無理) • そこで、Information(Knowledge) Retrieval Systemを導入する • LaMDA Bese-Researchとして応用 21

©Glia Computing Ltd. Confidential Information Retrieval System • LaMDAでは“Ask question
for the expart.” がコンセプト • LaMDAのIRS（論文中ではTS）では、３つのtoolがある • Web search(Information retrieval system) • A calculator • A translator • LaMDA-researchというモデルが、How to ask を学習する • CroudWorkerが実際にツールを使用した例約40K dialog • LaMDA-researchが imitation するように学ぶ • TSは、キーワードに対してStringやURLを返してくれる 22

©Glia Computing Ltd. Confidential LaMDA-BaseとLaMDA-Research • LaMDA-Base (要はただのLaMDA)から基本的な解答を得る • LaMDA-ResearchからAsk
for the expertをTSに投げる 23

©Glia Computing Ltd. Confidential LaMDA-BaseとLaMDA-Research • 何回かAsk for the expertを行なったのちに（有限回）
それなりに情報が出揃ったらいつものResponceに切り替え 24

©Glia Computing Ltd. Confidential Information Retrieval System • OpenAIのWebGPTではOpen Webから情報を取得
25 Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, and John Schulman. Webgpt: Browser-assisted question- answering with human feedback. arXiv preprint arXiv:2112.09332, 2021. https://medium.com/nlplanet/two-minutes-nlp-the-openai-webgpt-model-that-answers- questions-browsing-the-web-35f690884c25

©Glia Computing Ltd. Confidential Information Retrieval System • DeepMindのRETROも再帰的な情報処理によってクエリからより正確な情報を取得することを提案
26 https://www.deepmind.com/publications/improving-language-models-by-retrieving-from-trillions-of-tokens

©Glia Computing Ltd. Confidential あとは細かな工夫 • RE-RANKING TRICK • Responceを同時に16個生成しておいて、
Discriminatorからのスコアが高いものを選ぶようにする →Unsafeを回避するために重要らしい • 特に二つ目の質疑応答を見ると、かなりSafetyに傾いて返答していることがわかる 27

©Glia Computing Ltd. Confidential まとめ • 人間との自然な対話に向けて非常に力を入れた論文 • データ集めから、かかった人件費から、非常に大規模 •
達成したい項目に対する適切なデータ収集の努力 • 特にSafety，SSIは効果も高かった • 意識が芽生えた、などは忘れて見習うべきこと • 正しいデータの収集をしっかり行なっていること • 大量にデータを入れればいい、ではなくタスク毎に適切なデータの与え方を考えること • タスク毎にちゃんとそれを達成するための対策を考えること • SSI, Safety, Re-Ranking, IRS, TS, Base-Research etc... 29

©Glia Computing Ltd. Confidential 参考に使えそうな教材・資料文章をトークンにする方法（日本で言うと形態素解析的な方法） [SentencePiece: A simple and
language independent subword tokenizer and detokenizer for Neural Text Processing](https://aclanthology.org/D18-2012 ) (Kudo & Richardson, EMNLP 2018) 実装：https://github.com/google/sentencepiece ・LaMDAを理解する上で学んでおくと助かりそうな知識参考になりそうなTransformerの教材：https://jalammar.github.io/illustrated-transformer/ LaMDAで出てきたInformation retrieval system(Tool Set)の考え方 : https://jalammar.github.io/illustrated-retrieval-transformer/ T5の解説： https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html Attentionそのものを復習したい方へ； https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq- models-with-attention/ RETROに関する情報： http://mitchgordon.me/ml/2022/07/01/retro-is-blazing.html Similarity Searchに関する情報（LaMDAのTSを考える際の補助に）： https://engineering.fb.com/2017/03/29/data- infrastructure/faiss-a-library-for-efficient-similarity-search/ Similarity Search に関する情報２： https://ai.googleblog.com/2020/07/announcing-scann-efficient-vector.html ・今日の内容をなんとなく把握した後に見ると面白い動画 DeepMind’s RETRO vs Google’s LaMDA : https://www.youtube.com/watch?v=gwlI7J54Ng0 30

©Glia Computing Ltd. Confidential 参考に使えそうな教材・資料・読んだらLaMDAの理解に役に立ちそうな論文 Transformer: Vaswani, A., Shazeer,
N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems (p./pp. 5998--6008), . https://arxiv.org/abs/1706.03762 Transformer-XL:[Dai et al., 2019] Zihang Dai, Zhilin Yang, Yiming Yang, William W Cohen, Jaime Carbonell, Quoc V Le, and Ruslan Salakhutdinov, Transformer-XL: Attentive language models beyond a fixed- length context. In ACL, 2019. https://aclanthology.org/P19-1285.pdf Meena：Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le: Towards a Human-like Open-Domain Chatbot. CoRR abs/2001.09977 (2020) https://arxiv.org/abs/2001.09977 T5 : Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu; : Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. 21(140):1−67, 2020. https://arxiv.org/abs/1910.10683 RETRO : Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, and Laurent Sifre. Improving language models by retrieving from trillions of tokens. arXiv preprint arXiv:2112.04426, 2021. https://proceedings.mlr.press/v162/borgeaud22a.html Safety： LauraWeidinger,JohnMellor,MaribethRauh,ConorGriffin,JonathanUesato,Po-SenHuang,MyraCheng,Mia Glaese, Borja Balle, Atoosa Kasirzadeh, Zac Kenton, Sasha Brown, Will Hawkins, Tom Stepleton, Courtney Biles, Abeba Birhane, Julia Haas, Laura Rimell, Lisa Anne Hendricks, William Isaac, Sean Legassick, Geoffrey Irving, and Iason Gabriel. Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359, 2021. https://arxiv.org/abs/2112.04359 31

ML15 LaMDAについて15分以内でできるだけ説明する

ML15 LaMDAについて15分以内でできるだけ説明する

YutaAsupara

More Decks by YutaAsupara

Featured

Transcript

©Glia Computing Ltd. 株式会社XXX 御中 15分でそれなりに説明する LaMDA 2022年7月30日株式会社Glia Computing

©Glia Computing Ltd. Confidential 本日の概要 • 大規模言語モデルの登場（背景） • 対話モデルでのこれまでの課題（関連研究） •

©Glia Computing Ltd. Confidential 大規模言語モデルの登場 3 https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative- language-model/ より引用 •

©Glia Computing Ltd. Confidential 大規模言語モデルの登場 4 Jared Kaplan, Sam McCandlish,

©Glia Computing Ltd. Confidential 大規模言語モデルの登場 5 Jared Kaplan, Sam McCandlish,

©Glia Computing Ltd. Confidential 大規模言語モデルの登場 • (個人感)TransformerによるEncode-Decode modelの隆盛特にEncodeはBERT, DecodeはGPTの賜物

©Glia Computing Ltd. Confidential 対話モデルにおける課題（の一部） • フリートークでも文法上正しそうな回答は良くできる 7 Daniel Adiwardana,

©Glia Computing Ltd. Confidential 対話モデルにおける課題（の一部） • 会話が成立してそうな返答をするのは非常に得意 • 構造上MemorizeよりもGeneralizeしてしまう（Yes,

©Glia Computing Ltd. Confidential 対話モデルだけではない課題 • ベンチマークやデータセットの見直しも必要かもしれない 9 Kiela, Douwe

©Glia Computing Ltd. Confidential ここまでのまとめ • モデルのスケール（サイズ）の恩恵は偉大 • データのスケーリングも重要 •

©Glia Computing Ltd. Confidential 本日の概要 • 大規模言語モデルの登場（背景） • 対話モデルでのこれまでの課題（関連研究） •

©Glia Computing Ltd. Confidential LaMDAの紹介 ~モデル構造編~ • LaMDAのベースとなるニューラルネットの構造 • Transformer

©Glia Computing Ltd. Confidential LaMDAの紹介 ~データ編~ • LaMDAおいて達成したい３つのポイント • Quality

©Glia Computing Ltd. Confidential Quality • Sensibleness : 分別、常識的あたりがニュアンスとしては近い •

©Glia Computing Ltd. Confidential Quality • Interestingness：Funnyの感覚とは違う、面白さ、機知 • catch someone’s

©Glia Computing Ltd. Confidential LaMDAの紹介 ~データ編~ • LaMDAおいて達成したい３つのポイント • Quality

©Glia Computing Ltd. Confidential Safety • Discriminative な考え方 • Unsafeを棄却するように学習する

©Glia Computing Ltd. Confidential Groundedness • Response contain any factual

©Glia Computing Ltd. Confidential 本日の概要 • 大規模言語モデルの登場（背景） • 対話モデルでのこれまでの課題（関連研究） •

©Glia Computing Ltd. Confidential Pre-Training • 2.97B(Billion) documents, 1.12B dialogs,

©Glia Computing Ltd. Confidential Fine-Tuning • SSI Safetyのfine-tuning • GANに使われるDiscriminatorと同じような構造を追加

©Glia Computing Ltd. Confidential Information Retrieval System • LaMDAでは“Ask question

©Glia Computing Ltd. Confidential LaMDA-BaseとLaMDA-Research • LaMDA-Base (要はただのLaMDA)から基本的な解答を得る • LaMDA-ResearchからAsk

©Glia Computing Ltd. Confidential LaMDA-BaseとLaMDA-Research • 何回かAsk for the expertを行なったのちに（有限回）

©Glia Computing Ltd. Confidential Information Retrieval System • OpenAIのWebGPTではOpen Webから情報を取得

©Glia Computing Ltd. Confidential Information Retrieval System • DeepMindのRETROも再帰的な情報処理によってクエリからより正確な情報を取得することを提案

©Glia Computing Ltd. Confidential あとは細かな工夫 • RE-RANKING TRICK • Responceを同時に16個生成しておいて、

©Glia Computing Ltd. Confidential 定量的な結果と評価 28

©Glia Computing Ltd. Confidential まとめ • 人間との自然な対話に向けて非常に力を入れた論文 • データ集めから、かかった人件費から、非常に大規模 •

©Glia Computing Ltd. Confidential 参考に使えそうな教材・資料文章をトークンにする方法（日本で言うと形態素解析的な方法） [SentencePiece: A simple and

©Glia Computing Ltd. Confidential 参考に使えそうな教材・資料・読んだらLaMDAの理解に役に立ちそうな論文 Transformer: Vaswani, A., Shazeer,

©Glia Computing Ltd. Confidential 本資料に関するご意見、ご質問は、下記までご連絡ください [email protected] 32