(末尾の空欄を埋める) 吾輩は猫である。名前はまだない。 正解のテキスト 次からは正しく生成できるよう パラメータを更新 (学習) 誤差/勾配 算出 計算量、学習の並列可能性などの特徴が異なる Transformer Decoder が未だデファクトだが 推論の計算量が 𝑂(𝑁!) のため長文が苦手 近年は推論 𝑂(𝑁) となる状態空間モデルが注目 Retentive Network: A Successor to Transformer for Large Language Models Mamba: Linear-Time Sequence Modeling with Selective State Spaces u LLM は「学習可能なパラメータ」を持つ「テキスト変換器」であれば何でも良い u 具体的には “Text-to-Text モデル” の中から要件に応じて選ぶ n Transformer の Decoder (GPT, LLaMA) n Transformer の Encoder-Decoder (T5, Aya) n RNN (RWKV) n 状態空間モデル (Mamba) n ハイブリッド (UL2) ① 事前学習 (Pre-Training) / モデルを決める / モデル規模とデータ量を決める / データを準備する / 準備したデータをモデルに学習させる
を知っている (OpenAI, DeepMind, Mistral, Reka) u 「LLMの性能向上につながるデータをどう見極めるか?」を皆が模索中 n “綺麗” なデータがあると良いのでは? → 様々なやり方で “綺麗” / “汚い” を定義する n 情報の冗長性が少ない方が良いのでは? → 繰り返される表現を排除する [服部24] n 様々なドメイン (or 狙ったドメイン) の情報が十分 & バランス良く含まれると良いのでは? • → 人手で吟味して良いデータセット作るよ派 [Gao+20] • → Webのデータ (Common Crawl) は様々なドメインを含むから、それだけで十分だよ派 [Penedo+23] • → 統計的な手法でうまくデータセットを構築する派 [Xie+23][Fan+23] [Xie+23a] DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining [Fan+23] DoGE: Domain Reweighting with Generalization Estimation [Gao+20] The Pile: An 800GB Dataset of Diverse Text for Language Modeling (外に出せないノウハウも多い。軽めで、すみません……) [Penedo+23] The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only ① 事前学習 (Pre-Training) / モデルを決める / モデル規模とデータ量を決める / データを準備する / 準備したデータをモデルに学習させる [服部24] 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築 (← データセット構築のいろはがまとまった神資料。必見)
プラグイン呼び出し能力 n 関数呼び出し能力 n ウェブ検索能力 n コーディング能力 n 数学能力 事前学習モデル (学習済み) 元 OpenAI / 現 DeepMind n (潜在的)知識 n (潜在的)推論能力 n (潜在的)演算能力 n (潜在的)コード生成能力 n … GPT-3.5-turbo, GPT-4 GPT-3 事前学習で備わった 潜在的に持っている能力を 事後学習によって “発現させる” という感覚 ② 事後学習 (Post-Training) / モデルの “機能” を定める (要件決め) / 機能を表す指示データを用意し学習 / 学習したモデルへのフィードバックを得る / フィードバックを反映 (アラインメント)
事後学習 (Post-Training) / モデルの “機能” を定める (要件決め) / 機能を表す指示データを用意し学習 / 学習したモデルへのフィードバックを得る / フィードバックを反映 (アラインメント) u 例) WebGPT (OpenAI): ブラウザ操作をコマンド化、自律的な RAG を可能に WebGPT [Nakano+23] の DSL (ブラウザ操作コマンド) Question How can I train the crows in my neighborhood to bring me gifts? Quotes From Gifts From Crows | Outside My Window (www.birdsoutsidemywindow.org) > Many animals give gifts to members of their own species but crows and other corvids are the only ones known to give gifts to humans. Past actions Search how to train crows to bring you gifts Click Gifts From Crows | Outside My Window www.birdsoutsidemywindow.org Quote Back Title Search results for: how to train crows to bring you gifts Scrollbar: 0 - 11 Text 0How to Make Friends With Crows - PetHelpfulpethelpful.com If you did this a few times, your crows would learn your new place, but as I said, I’m not sure if they will follow or visit you there since it’s probably not in their territory. The other option is simply to make new crow friends with the crows that live in your new neighborhood. [Nakano+23] WebGPT: Browser-assisted question-answering with human feedback [Schulman23] Reinforcement Learning from Human Feedback: Progress and Challenges 実際の WebGPT モデルからの出力 「近所にいるカラスを調教し、私に贈り物を持ってくるようにするには?」 という(ナンセンスな)質問に対して 「カラスに贈り物をさせる方法」 でWeb検索、結果から回答に必要な情報を引用しようと頑張っている LLMが出力した文字列をコマンド列へとパースし、ブラウザが順に実行 ChatGPT の Web Browsing 機能でも同様の DSL を利用 [Shulman23]
入力プロンプト X について LLM の出力 Y は何を満たすべきか n 落とした要件から、数件、データを作ってみる n うまくいきそうなら、データをスケールさせる方法を考える (全件、人手では、キツい) • データをスケールさせるには色々なやり方がある (Self-Instruct, Instruction Mining, …) u 機能定義をサボった「とりあえずChatGPTみたいなヤツが欲しい」は悪夢の始まり n ChatGPT は偶然の産物ではなく、恐ろしく良くデザインされたサブプロダクト(機能)の集合体 u LLM で本当に実用を目指すのならば、地道な機能の列挙・設計・開発が必須 n 仕様書からのコードの生成 n 長い議事録の要約 n ウェブからの情報抽出 n … ② 事後学習 (Post-Training) / モデルの “機能” を定める (要件決め) / 機能を表す指示データを用意し学習 / 学習したモデルへのフィードバックを得る / フィードバックを反映 (アラインメント) 大規模なコーパスでの事前学習 & オープンな指示データでの指示学習が “自然発生的” に 60 点ぐらいを叩き出してしまうことがある 実用を目指す場合は60点に惑わされず、意図して95点を狙う必要
= 原理研究の場所だとしても、最終的にはその原理の効用を仮設検証したい u 陥りがちなパターン n 手段と目的が逆転 (Leaderboard で1位!) n そもそも、ゴールが定義されていない n 評価している観点(指標)がゴールと乖離 u 気を付けるべきこと (技術的に) n インドメイン評価、アウトドメイン評価を分別 n データセットの contamination を避ける • ベンチマークデータを学習するの = NG、とは限らない (それで顧客の課題が解決できるのならば、OKという立場もある) 🤖 理想のモデル (North Star) モデルA (今ココ) モデルB モデルC モデルCに加えた 工夫のほうが ゴールに近づきそう ベンチマークメトリック A ベンチマークメトリック B ③ モデル選定・評価 (Model Selection / Evaluation)
NEC-128K 🎉 → GPT-4-128K😮 → Gemini 10M😨 u ナイーブな Transformer の推論の(時間/空間)計算量: 𝑂 𝑛' n Self-Attention で文中の全単語の関係を計算 u Transformer の計算量を(準)線形にするアルゴリズム多数 n Sliding Window Attention [Child+19][Beltagy+20] u (冒頭で述べた) Transformer 代替アーキテクチャも研究活発 n RNN, State-Space Model https://learnopencv.com/attention-mechanism-in-transformer-neural-networks/ [Beltagy+20] Longformer: The Long-Document Transformer [Child+19] Generating Long Sequences with Sparse Transformers
はある程度の「雰囲気を伝えるだけで」、事例なく無茶振りに答えうる u その答えが本当は潜在的な要件を満たしていないのに、受け取ってしまう人がいる u かならず↓をやるようにすべきではないか? n 受け入れテストの定義 n Few-shot examples n Full-shot fine-tuning u LLM はどんな使い方をされるか、分からない (コントロールできない)