歳児に月面着陸について いくつかの文で説明する。 6 歳児に重力の理論を説明する。 相対性理論を6 歳児にいくつかの文で説明する。 ビッグバン理論を6 歳児に説明する。 LLM 6 歳児に月面着陸について いくつかの文で説明する。 人々は月に行き、見たものの写真を撮り、それを地 球に送り返して、私たち全員が見ることが できるようにしました。 LLM アライメント前:類似する文を列挙する挙動 アライメント後:指示に従って説明する挙動 ChatGPTの原型であるInstructGPTの論文でのアライメント前後の出力の違いの例1 1 Aligning language models to follow instructions(https://openai.com/index/instruction-following/)の例を翻訳 2 A General Language Assistant as a Laboratory for Alignment (Askell et al., 2021)
序盤のブロックでは表層(表記)的、 中盤は文法的、 終盤は意味的というように終盤になるほど抽象的で 複雑な文脈を処理するようになる* • ブロックは自己注意機構とフィードフォワード層を含む ◦ 自己注意機構:他の位置のトークンから情報を取り込む ◦ フィードフォワード層:記憶した情報を取り出す • 最終のトークンの出力ベクトルから次のトークンを予測 * What Does BERT Learn about the Structure of Language? (Jawahar et al., 2019)
名詞修飾句から対応する名詞に注意 共参照の言及から先行する言及に注意 言語現象に対応しているTransformer (BERT) の注意機構の挙動の例* * What Does BERT Look at? An Analysis of BERT's Attention (Clark et al., 2019) より引用
性能向上の鍵に ◦ CommonCrawlに含まれないウェブテキスト ◦ 多言語のテキスト ◦ 画像や動画などのマルチモーダルデータ • 言語やモダリティをまたいだ知識の転移が重要に Indexed web Whole web Images Video Common Crawl 人類が生成したテキストデータの”在庫”は有限 データの”在庫”の量の種類別の予測1 1 Will we run out of data? Limits of LLM scaling based on human-generated data (Villalobos et al., 2024) 2 FineWeb: decanting the web for the finest text data at scale https://huggingface.co/spaces/HuggingFaceFW/blogpost-fineweb-v1
事前訓練後の訓練(ファインチューニング)での未知の 知識の学習は困難1 ◦ 大半の未知の知識の学習前に過学習が発生(左図) ◦ 未知の知識によるファインチューニングは ハルシネーションを助長する • 事前訓練時の際にも知識が訓練データに出現する度に 徐々に学習されている2 • ファインチューニングは新しい知識の学習ではなく 知識の使い方を学習させるのに向いている1 36 1 Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? (Gekhman et al., 2024) 2 How Do Large Language Models Acquire Factual Knowledge During Pretraining? (Chang et al., 2024) 既知の知識と未知の知識を同量含んだデータで ファインチューニングした場合の 訓練データと検証データでの性能の推移1 大半の未知事例の学習前に 検証セットでの性能が低下 (過学習が発生)