LLM Supervised Fine-tuningの理論と実践

LLM Supervised Fine-tuning の理論と実践データアナリティクスラボ株式会社

2 利用規約および注意事項本資料は個人利用および非営利の教育目的のみにご利用いただけます。商用利用（例: 販売、広告、再配布など）やその他の営利目的での使用は固くお断りします。本資料は、情報提供のみを目的としており、記載されている内容の正確性や完全性についていかなる保証も行いません。内容をご利用いただく際は、必ず最新の情報を確認し、ご自身の責任においてご判断ください。また、本資料を使用したことによるいかなる損害やトラブルについても、作成者は責任を負いかねます。 1.
禁止事項:商業目的での利用（例: 販売、広告、マーケティング）。 2. 許可なく第三者へ再配布や加工した状態での公開。 3. 本資料の一部または全部を無断で改変・転載する行為。本資料は無料で提供されておりますが、利用にあたっては上記条件を遵守してください。

3 自己紹介力岡友和 Tomokazu Rikioka データアナリティクスラボ株式会社 / データソリューション事業部 ⚫
2022年2月データアナリティクスラボ株式会社に入社 ⚫ 2022年4月～金融に関するデータ分析に従事 ⚫ 2023年2月～時系列予測モデルの構築に従事 ⚫ 2023年6月～生成AIアプリ開発に従事 Rick@データサイエンティスト @datascienceRick X（旧Twitter）経歴

4 自己紹介宮澤朋也 Tomoya Miyazawa データアナリティクスラボ株式会社 / データソリューション事業部 ⚫
2021年10月データアナリティクスラボ株式会社に入社 ⚫ 2022年1月～7月スマホアプリのユーザー分析に従事 ⚫ 2022年8月～広告に関わるマーケティング分析・モデル構築に従事 ⚫ 2024年3月～6月 GENIAC 松尾研LLM開発PJ 開発メンバーとして参加 ⚫ 2024年6月～ LLMのモデルマージに関する研究に従事 Tomoya Miyazawa @miya_99999_ X（旧Twitter）経歴

5 会社概要データアナリティクスラボ株式会社データアナリティクスラボ株式会社 / Data Analytics Labo Co. 社名
設立年月日 2019年4月26日代表者近藤雅彦資本金 20百万円従業員数約140名（グループ全体約160名）事業内容所在地東京都中央区築地5-4-18 汐留イーストサイドビル6階お客様のデータ利活用のステージや必要とされるスキルニーズに合わせて、当社データサイエンティストが企業の様々なデータ利活用ニーズに対応することでより多くの地域や企業への貢献を目指しますデータ分析受託事業データ分析コンサルティング事業

6 目次 1. 大規模言語モデル（LLM） 1-1. 概要 1-2. LLMの学習の流れ 1-3. 代表的なオープンソースLLMの紹介
1-4. モデルのライセンス 2. ファインチューニング 2-1. 概要 2-2. LLMのファインチューニング 2-3. 他手法との違い 2-4. 学習方法と学習の効率化 3. Instruction Tuning 3-1. 概要 3-2. データについて 3-3. 評価について 4. 量子化 4-1. 概要 4-2. LLMの動作に必要な計算リソース 4-3. ビットの表現形式 4-4. 代表的な量子化手法 4-5. 量子化による性能変化 5. PEFT 5-1. 概要 5-2. PEFTの型 5-3. 代表的な手法 5-4. 実装上のTips 6. Pythonによる実装 6-1. 使用するライブラリ 6-2. 実装コード

7 1. 大規模言語モデル（LLM）

8 1. 大規模言語モデル（LLM）大規模言語モデル（LLM: Large Language Model）とは大規模なテキストデータを使って訓練され、大規模なパラメータで構成された言語モデル。従来の言語モデルに比べ、「計算量」「データ量」「パラメータ数」が大幅に増加している。 1-1.
概要スケーリング則（引用: Scaling Laws for Neural Language Models）言語モデルの性能は、「計算量」「データ量」「パラメータ数」の3つを増やすことで、べき乗的に向上するという経験則 2020年のスケーリング則の発見により、言語モデルの大規模化が急速に進んだ。これに伴い、データ処理能力や精度が飛躍的に向上し、より複雑なタスクや文脈の理解、自然な文章生成が可能となった。

9 1. 大規模言語モデル（LLM） 1-1. 概要モデルサイズの推移 ELMo(94M) BERT-L(340M) GPT-2(1.5B) GPT-3(175B)
悟道2.0(1750B) PaLM(540B) GPT-4(不明) 5000B~10000B程と予測されているパラメータ数は年々増加している。但し、最近はパラメータのスケーリングから推論のスケーリング（OpenAI o1）にシフトする傾向もみられる。 ※ 推論のスケーリングとは、モデルの推論に投入される計算量が大きければ大きいほど、より難しい問題が解けるようになるという法則のこと

10 1. 大規模言語モデル（LLM） 1-1. 概要 10Bサイズ以上の大規模言語モデルの年表（引用: A Survey of Large
Language Models）様々な企業から多くのLLMが登場し、急速に技術革新が進んでいる。

11 1-2. LLMの学習の流れ Supervised Fine-Tuning（SFT）教師ありファインチューニング Reinforcement Learning from
Human Feedback（RLHF）人間のフィードバックによる強化学習 Pre-Training 事前学習大量のテキストデータを使った自己教師あり学習により、モデルに基本的な語彙・文法・一般知識を習得させるプロセス。広範なデータから汎用的な言語理解を獲得し、特定のタスクに依存しない基礎的な言語能力の向上を目指す。ラベル付きデータを使った教師あり学習により、事前学習済みのモデルを特定のタスクやドメインに適応させ、性能を向上させるプロセス。質問応答や翻訳など、特定の目的に応じた精度の向上を図る。人間からのフィードバックを基にした強化学習により、モデルの出力を人間の価値観に沿わせ、より有益で倫理的な結果を得るためのプロセス。実際の使用環境での信頼性と品質を向上させる。最近では、強化学習を利用しないDPOなどの手法で代替されることもある。 1. 大規模言語モデル（LLM）一般的なLLMの学習プロセスは次の通りである。本資料の説明範囲

12 1-2. LLMの学習の流れ 1. 大規模言語モデル（LLM）事前学習（Pre-Training）とは大量のテキストデータを使った自己教師あり学習により、モデルに基本的な語彙・文法・一般知識を習得させるプロセス。事前学習では、インターネット上のテキストや書籍、記事など、様々なソースから大量のデータが利用される。
これらのデータは、モデルの性能に大きく影響するため、データの質と多様性が重要である。 ◆ 主要なデータソース CommonCrawl, C4, Wikipedia, 書籍, 論文等 ◆ 質を高めるための前処理例 • ノイズ除去（誤字脱字、不適切な文法や特殊記号等） • 信頼性の低いデータの除去（広告やボット生成記事等） • 重複データの排除 • 効率的なトークナイザーの学習 LLM りんごは赤い。ですは赤いです <EOS> 。自己教師あり学習では、入力されたトークン列から、次のトークンの生成確率を予測し、予測と正解の誤差が小さくなるように学習を繰り返す。例えば、「りんごは赤いです。」という文章があった場合、「りんごは」というトークンをLLMに与えて、「赤い」というトークンを返す確率が高くなるように学習する。

13 1-2. LLMの学習の流れ 1. 大規模言語モデル（LLM）教師ありファインチューニング（SFT）とはラベル付きデータを使った教師あり学習により、事前学習済みのLLMを特定のタスクやドメインに適応させ、性能を向上させるプロセス。このLLMの性能がめちゃくちゃいい！
ポジティブ感情分析タスクの例口調を変えたい時の例 ◆ 教師ありデータセット一般的には、指示応答（質問回答）の形式で教師ありデータセットを準備する。SFTでは、質問からより回答に近い出力を導けるように、モデルを微調整する。入力出力リンゴは何色ですか？赤色だにゃん！入力出力 ◆ 学習手順 Step1 教師ありデータセットを準備 Step2 事前学習済みモデルの初期化（読み込み） Step3 教師あり学習により、モデルを微調整 • モデルの出力を特定のタスクに特化させる。 • 基盤モデルが持つ一般的な言語能力を微調整し、より正確で信頼性の高い結果を出力する。 • 特定の業界や分野に関する専門的な知識や用語を理解し、適切に使えるようにする。 ◆ 目的

14 1-2. LLMの学習の流れ 1. 大規模言語モデル（LLM）人間のフィードバックによる強化学習（RLHF）とは人間からのフィードバックを基にした強化学習により、モデルの出力を人間の価値観に沿わせ、より有益で倫理的な結果を得るためのプロセス。 6歳児に月面着陸を説明する
A 重力とは... B 水とは... C 月は... D 人類は月へ... D>C>A=B D>C>A=B 報酬モデル Step1 カエルについての物語を書く強化学習モデル昔々、… 報酬モデル報酬 𝑟𝑘 Step2 報酬の最大化 ◆ 学習手順 Step1 プロンプトと回答群を人間によってランク付けを行い、報酬モデルを訓練 Step2 出力結果について報酬モデルが計算する報酬が最大化するように強化学習を利用して、モデルのパラメータを微調整 • 不足情報があれば、適切な質問を投げかけて引き出す。 • 虚偽の情報を含まず、正確な文章を出力する。 • 攻撃的・差別的な発言を避ける。 • 同じ内容の繰り返しや、一貫性や論理性に欠ける文章を出力しない。 ◆ 目的

15 1. 大規模言語モデル（LLM） 1-3. 代表的なオープンソースLLMの紹介開発企業・団体モデル名ライセンス説明・特徴 Meta
Llama 2（7B, 13B, 70B） Llama 2 月間AU数が7億人を超える場合を除き、研究用と商用利用のために無料で利用できる。様々なLLMの基礎モデルとして活用されており、1B,3Bといった軽量モデルやマルチモーダルモデルなどの様々なモデルが提供されている。 Llama 3（8B, 70B） Llama 3 Llama 3.1（8B, 70B, 405B） Llama 3.1 Llama 3.2（1B, 3B, 11B, 90B） Llama 3.2 Mistral AI Mistral 7B Apache 2.0 Mistral 7Bは、SWAやGQAといった革新的な注意メカニズムを導入しており、同時期に開発されたLlama 2を上回る性能を持つ。 Mixtralは、スパース混合エキスパートモデル(SMoE)を採用しており、特化した8のエキスパートがタスクを実行する。 Mixtral（8x7B, 8x22B） Mistral Nemo（12B） Microsoft Phi-2（2.7B） MIT 小型でありながら高性能を発揮することが特徴。数学やコーディング性能が非常に高い。混合エキスパートモデル(MoE)やマルチモーダルモデルなども提供されている。 Phi-3（mini, small, medium） Phi-3.5（mini, MoE, Vision） Google Gemma（2B, 7B） Gemma Geminiを基に構築されたモデルで、言語理解や推論で高いパフォーマンスを示す。商用利用が可能だが、禁止事項が多いため、ライセンス内容は要確認。 Gemma 2（9B, 27B） ※ 混合エキスパートモデルとは、複数の異なるエキスパートと呼ばれるサブモデルを組み合わせ、特定のタスクやデータに応じて最適なエキスパートを選択し、予測や推論を行うモデルの構造のこと

16 1. 大規模言語モデル（LLM） 1-3. 代表的なオープンソースLLMの紹介（日本語）開発企業・団体モデル名ライセンス説明・特徴東工大・産総研
Swallow（7B, 13B, 70B） Llama 2 Llama 2,3,3.1/Mistralに対して、大規模な日本語ウェブコーパスで継続事前学習したモデル。Swallow-MXは、日本語特化 LLMとして初めてのMoEを採用したモデルとなる。 Llama-3-Swallow（8B, 70B） Llama 3 Llama-3.1-Swallow（8B, 70B） Llama 3.1 Swallow-MS 7B Swallow-MX 8x7B Apache 2.0 国立情報学研究所 LLM-jp-13B Apache 2.0 日本語と英語のデータを中心に事前学習されたモデル。モデルやデータ、ツールなどが全てオープンにされている。 LLM-jp-3（1.8B, 3.7B, 13B） ELYZA ELYZA-jananese-Llama-2（7B, 13B, 70B） Llama 2 Llama-2,3に対して、大規模な日本語データによる継続事前学習と事後学習を行ったモデル。Llama-3ベースモデルに関しては、一部のベンチマークではGPT-4を超える日本語性能だと評価されている。 Llama-3-ELYZA-JP-8B Llama 3 CyberAgent CALM2-7B Apache 2.0 一から独自に構築されており、日本語・英語データで事前学習が行われている。 CALM3-22B

17 Chatbot Arena LLM Leaderboard モデルの性能をユーザーの対話体験を通じて比較し、ランキング形式で評価するプラットフォーム。ユーザーは複数の LLMと対話を行い、優れた応答を選択することで、各モデルの評価が決定される。 1. 大規模言語モデル（LLM） 1-3.
代表的なオープンソースLLMの紹介 LLMの選定に迷う場合には、以下のサイトを参考に目的に即したモデルを選択するとよい。但し、目的のタスク性能はランキング順位や評価指標に必ずしも相関するとは限らないので、複数のモデルを比較評価することが重要である。 Open LLM Leaderboard2 LLMの性能を既定の評価指標で評価し、ランキング形式で比較するプラットフォーム。様々なLLMを一般知識や数学性能などの異なるタスクでテストし、その結果に基づいて評価が決定される。 Nejumi LLMリーダーボード3 LLMの日本語能力を言語理解、応用、アライメントなどの広い観点で評価し、ランキング形式で評価するプラットフォーム。日本語能力を重視したい場合は、本サイトを参考にするとよい。

18 1. 大規模言語モデル（LLM） 1-4. モデルのライセンスライセンス名商用利用改変の可否再配布の可否原著作者の表示義務
備考ライセンス情報の原文 Apache 2.0 可能可能可能必須 ⚫ 商標の使用制限 ⚫ 保証の否認 URL MIT 可能可能可能必須 ⚫ 保証の否認 URL CC (Creative Commons) NCを含む場合は不可、それ以外は可 NDを含む場合は不可、それ以外は可可能必須 CCライセンスの種類によって異なる。 URL Llama 2 / Llama 3 / Llama 3.1 / Llama 3.2 月間アクティブユーザーが7億人以上の場合は Metaから別途ライセンスを取得可能可能必須 ⚫ 保証の否認 URL Gemma 可能可能可能必須 ⚫ 保証の否認 ⚫ ソースコードはApache 2.0に基づく ⚫ 遺伝子発現データはCC-BYに基づく ⚫ アノテーションデータや分析結果は CC-BY-NCに基づく URL 参考：【連載①】大規模言語モデル（LLM）のビジネス利用に関して注意すべき点-LLMの使用許諾条件- OSSのLLMでよく利用されているライセンスを以下にまとめる。LLMには独自のライセンスを持つものもあるため、利用の際にはライセンス内容を確認することを推奨する。

19 2. ファインチューニング

20 2-1. 概要ファインチューニング（Fine-tuning）とは 2. ファインチューニング大規模データで事前訓練された機械学習モデルを、別のデータセットで再学習することで、特定のタスクやドメインに最適化する手法。ファインチューニングは、LLMが注目される以前から、自然言語処理や画像認識などの分野で広く活用されてき
た。例えば、ベースの言語モデルを映画や製品のレビューデータで追加学習し感情分析に特化させたり、画像モデルを医療画像で追加学習し医療画像診断のためのモデルを作成する、といった事例が挙げられる。ファインチューニングでは、特定のデータを追加して学習させることで、少ないリソースで特定のドメインやタスクへの適応が可能となる。但し、ベースモデルの知識の偏りや過剰適合のリスクがあるため、データ選定とモデル評価が重要となる。 BERTの学習手順（引用: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding） ※ ベースモデルとは、大量のテキストコーパスで事前学習のみが行われたモデルのこと

21 2. ファインチューニングファインチューニングと転移学習の違い 2-1. 概要事前学習済みモデルファインチューニング（狭義の）転移学習ファインチューニングと類似した概念に転移学習がある。一般的に、転移学習はより広範な概念を指し、
ファインチューニングはその一手法と見なされることが多い。但し、転移学習が以下のような狭義の概念として認識されている場合もあるので、区別には注意が必要である。元のモデルの一部または全ての重みを、新たなデータで微調整する。学習済みのモデルの重みを固定し、新たな層を追加して、新たなデータで再学習させる。

22 2-2. LLMのファインチューニング 2. ファインチューニング教師ありファインチューニング（SFT）とはラベル付きデータを使った教師あり学習により、事前学習済みのLLMを特定のタスクやドメインに適応させ、性能を向上させるプロセス。このLLMの性能がめちゃくちゃいい！
ポジティブ感情分析タスクの例口調を変えたい時の例 ◆ 教師ありデータセット一般的には、指示応答（質問回答）の形式で教師ありデータセットを準備する。SFTでは、質問からより回答に近い出力を導けるように、モデルを微調整する。入力出力リンゴは何色ですか？赤色だにゃん！入力出力 ◆ 学習手順 Step1 教師ありデータセットを準備 Step2 事前学習済みモデルの初期化（読み込み） Step3 教師あり学習により、モデルを微調整 • モデルの出力を特定のタスクに特化させる。 • 基盤モデルが持つ一般的な言語能力を微調整し、より正確で信頼性の高い結果を出力する。 • 特定の業界や分野に関する専門的な知識や用語を理解し、適切に使えるようにする。 ◆ 目的再掲

23 活用場面 2-2. LLMのファインチューニング会話品質の向上模範となる会話データセットを学習することで、より自然で人間らしい会話となるように調整する。指示への従いやすさの改善特定の指示形式（#Instruction: #Input: #Response:
など）のデータセットを学習することで、特定の用途における指示プロンプトに従いやすくする。モデル出力の口調や文体の調整方言や敬語などを含むデータセットを学習することで、用途に合わせた口調や文体の回答を得られるように調整する。ドメイン知識や最新知識の獲得モデルがまだ学習していないドメイン知識や最新情報を学習することで、モデルに新たな知識を獲得させる。但し、モデルの本体性能が悪化する「忘却」が起きたり、うまく知識を獲得できなかったりと、現時点で最適な方法は確立されていない。 2. ファインチューニング

24 2. ファインチューニング特徴プロンプトエンジニアリング RAG ファインチューニング目的モデルの出力の制御・最適化リアルタイムに情報を出力に反映
特定のタスクにモデルを最適化基本的なアプローチ適切な質問や命令（プロンプト）を与えることで、出力を最適化外部の知識ベースから情報を検索して、その情報を用いて出力を生成モデルの重みを再学習して最適化データの必要性不要外部の大規模な知識ベースや情報源が必要特定のドメインやタスクに関連した、入力と出力の組み合わせのデータ準備コスト低：プロンプトを調整するだけであるため、比較的容易に行える中：外部データベースの構築や、検索システムと生成モデルを統合するためのインフラ整備が必要高：モデル学習のために膨大な計算リソースや時間が必要実装難度低：既存のツールやインターフェイスを使用して簡単に実装可能高：情報検索アルゴリズムや生成モデルの調整、外部データとの連携が必要高：モデルの選定や学習プロセスの理解などの専門的な知識が必要メンテナンスコスト低：プロンプトの調整のみ中：外部データの更新が必要高：モデルの再学習が必要実用シナリオコストや手間を掛けずに出力を調整するモデルに新たな知識や特定の情報を付与する特定の業界や業務に特化させたモデルを構築する 2-3. 他手法との違い回答精度を向上させる手法として、プロンプトエンジニアリングやRAGが挙げられるが、これらはそれぞれ目的や効果が異なるため、自身の目的に応じた手法の選定が必要である。

25 2. ファインチューニング 2-3. 他手法との違い OpenAIの技術資料では、コンテキスト最適化とLLM最適化という二軸で適用する手法を検討することが提案されている。コンテキストの最適化 1)
訓練データに含まれていない情報を補完する必要があるとき 2) 知識が古くなっているとき 3) 独自の情報や特定の知識が必要なとき LLM最適化 1) 不適切なフォーマットで一貫性のない結果を生成しているとき 2) 話し方のトーンやスタイルが正しくないとき 3) 推論が一貫して実行されていないとき LLM最適化マトリクス（引用: Optimizing LLMs for accuracy）典型的な最適化フローの例プロンプトエンジニアリングから始まり、RAG、Fine-tuningへと進んでいく。

26 2. ファインチューニング 2-3. 他手法との違い（意訳：LLMの知識強化手法：ファインチューニング vs RAG）結論 ✓
知識付与に関しては、一貫してRAGの方がより効果的であった。 ✓ ファインチューニングでは、LLMに新しい事実を習得させることが困難であった。実験方法 ✓ LLMモデル：Mistral / Llama2 / Orca2 の7B ✓ 評価ツール：LM-Evaluation-Harness ✓ ベンチマーク：MMLUや最新の出来事に関する情報取り込み能力をテスト ✓ 各モデルに対して、ファインチューニングとRAGを実施評価実験結果 ✓ RAGは一貫してより優れたパフォーマンスを示した。 ✓ RAGは新情報と既存知識の活用に効果的だった。 ✓ ファインチューニングは特定の目的のみでは有効だった。 ✓ 5shot vs 0shotでは、わずかに5shotの性能が高かった。 ✓ 最新の出来事を取り込むタスクでは、ファインチューニングは効果を発揮せず、特にLlama2では性能が低下した。 Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs（Microsoft 2024.1.30） MMLUスコアの一部

27 2-4. 学習方法と学習の効率化タスクベース学習 Instruction Tuning 下流タスクへの特化や適応を実現するために、特定のタスク専用のデータを用いて学習する手法様々なタスクを指示と回答という形式に統一したデータセットを用いて学習させることで望ましい出力を得る手法
2. ファインチューニング入力：この製品は非常に使いやすいです。正解ラベル：ポジティブ入力：This is a pen. 正解ラベル：これはペンです。指示：次の文を感情分類してください。入力：この製品は非常に使いやすいです。応答：ポジティブ指示：次の英文を日本語に翻訳してください。入力：This is a pen. 出力：これはペンです。文章分類 LLMのファインチューニングにおいては、従来のタスクベース学習ではなく、Instruction Tuningが一般的に用いられている。LLMのSFTといえば、基本的にInstruction Tuningのことだと考えて差し支えない。本手法の詳細は第3章で解説する。機械翻訳特定のタスクに特化したデータが必要で、別のタスクにそのまま転用できない。（例: 日英翻訳で学習すると、英日翻訳できない、文章分類も行えない）特徴指示を変えれば複数のタスクを同一の訓練プロセスで学習できる。（例: 単一モデルで文章分類、日英翻訳、英日翻訳が行える）特徴

28 2. ファインチューニング 2-4. 学習方法と学習の効率化 PEFT（Parameter-Efficient Fine-Tuning） LLMのフルファインチューニング（モデルの全パラメータを更新する）は、非常に大きな計算リソースと長い時間を必要とする。この問題を軽減するため、モデル全体ではなく、一部のパラメータのみを更新して効率的にファインチューニングを行う手法として、PEFTという
手法が提案されている。代表的な手法に、モデルの重み行列に低ランク行列を導入し、元のモデルパラメータは固定したまま、追加された行列のみを学習するLoRAなどがある。 LoRA 量子化（Quantization） LLMの学習や推論では、全てのパラメータをメモリ上に配置する必要があり、大量のGPUメモリが求められる。しかし、 GPUメモリの容量はマシンスペックに依存しており、増設も難しいため、使用しているGPUのスペック次第では、対象のLLMを動作させることが困難になる。この課題を解決する方法の一つが量子化である。量子化は、モデルの重みを高精度なデータ型から低精度なデータ型に変換し、メモリ使用量や計算コストを削減する技術で、少ないGPUメモリで大きなモデルを動作させることが可能になる。 LLMは膨大なパラメータを持つため、モデルの学習や推論には多大な計算リソースと時間が必要となり、これが大きな課題となっている。これらの課題を解決するために、いくつかの手法が提案されており、潤沢なリソースが利用できる場合を除き、これらの手法を活用しながら、極力精度を損なわずにファインチューニングを行うことが一般的である。詳細は第4章~第5章で解説する。

29 3. Instruction Tuning

30 3. Instruction Tuning 3-1. 概要 Instruction Tuning とは様々なタスクを指示と回答という形式に統一したデータセットを用いて学習させることで望ま
しい出力を得る手法。これによって汎用的なタスクにおけるゼロショットでの性能を向上させることができる。 Finetuned Language Models Are Zero-Shot Learners(2021)で提案された本手法は、137Bのモデル（FLAN）に対して適用した結果、 21のタスクでゼロショット性能が向上し、175Bのパラメータを持つGPT-3と比較して、25のタスク中20 タスクでより高いゼロショット性能を示したことが報告されている。現在は本手法が主流となっており、SFTと言えば Instruction Tuningであると言える。引用: Finetuned Language Models Are Zero-Shot Learners(2021) Instruction Tuningしたモデル

31 3. Instruction Tuning 3-1. 概要学習イメージ以下のように、異なるタスクの入力と教師ラベルを混在させたデータセットを学習させる。これによって未知のタスクに対してもゼロショットで回答する精度が向上する。引用:
Finetuned Language Models Are Zero-Shot Learners(2021)

32 3. Instruction Tuning 3-2. データについてデータ準備実際にInstruction Tuningをする際に検討する必要があるのが、どのようにデータを準備するかという点である。この理由は、Instruction
Tuningによって目的に合った出力をするようにモデルを学習するには、データセットの量と質が重要であり、準備する手段によって大きく工数が変化するためである。また、既存の保有データや公開データを利用するかゼロからデータを作成するかも大きな検討ポイントとなる。工数は大きいが質は高い。企業にて利用したいデータが得られている場合は、それに対して人手でアノテーションすることがある。アノテーション業者に外注することもあるが、質を担保するためにアノテーターの適切な監督が求められる。人手 LLM 工数は小さいが質は低い（可能性がある）。半自動的にデータを生成するため、工数はかなり抑えられるが、生成したデータが意図した通り適切なものであるか、多様性はあるかといった確認は必要である。既存のテキストデータをQA形式にするといったように、ゼロからではないデータ作成手段として使われることも多い。

33 3. Instruction Tuning 3-2. データについて LLMによるデータ生成手法①：Self-Instruct Self-Instructは、ブートストラップサンプリングを用いてLLMに多様なデータを生成させる手法である。 Step1.
初期シードからのサンプリングまず、初期シードからサンプリングを行い、これをもとに LLMに新しい指示データを生成させる。 Step2~3. タスク判定とデータ生成次に、生成された指示データが分類タスクか生成タスクかを判定し、それぞれのタスクに合った入力と出力データを生成する。 Step4. フィルタリングとタスクプールへの格納似たデータが繰り返し生成されることを防ぐため、フィルタリングを行い、選別したデータをタスクプールに格納する。引用: Self-Instruct: Aligning Language Models with Self- Generated Instructions (2023)

34 3. Instruction Tuning 3-2. データについて LLMによるデータ生成手法②：Evol-Instruct Evol-Instructは、ある指示タスクを段階的に複雑化させることで多様なデータを生成する手法である。 ⚫
In-Depth Evolving タスクの要件や制約を増やすことで複雑なタスクを生成する。 ⚫ In-Breadth Evolving 同じような目的のタスクでありながら新しい内容のタスクを生成する。また、元の指示と変わらないような失敗した進化を除去する工程であるElimination Evolvingもある。引用: WizardLM: Empowering Large Language Models to Follow Complex Instructions (2023)

35 3. Instruction Tuning 3-2. データについて LLMによるデータ生成の注意点 LLMを用いてデータを生成する際には、ライセンスや利用規約に注意が必要である。例えば、高精度な OpenAIの生成AIモデルを使用するために、OpenAI APIを使ってデータを生成する際は、OpenAIの利用規
約に従う必要がある。利用規約には以下の記載がある。このように、各モデルのライセンスや規約の範囲内で必ず利用する必要がある。禁止事項お客様は、違法行為、有害行為、又は悪用する行為のために当社の本サービスを使用してはなりません。例えば、以下の事項は禁止されます。 • アウトプットを使用して、OpenAIと競合するモデルを開発すること。 (e) use Output (as defined below) to develop any artificial intelligence models that compete with our products and services. However, you can use Output to (i) develop artificial intelligence models primarily intended to categorize, classify, or organize data (e.g., embeddings or classifiers), as long as such models are not distributed or made commercially available to third parties and (ii) fine tune models provided as part of our Services; OpenAI 利用規約（日本語版） OpenAI Business terms （英語版）

36 3. Instruction Tuning 3-2. データについて日本語のInstruction Tuning オープンデータセット例データセット名
件数概要ライセンス llm-jp/databricks-dolly-15k-ja 15k DataBricks社の従業員によって作られた指示形式の様々なタスクデータセットである databricks-dolly-15kを日本語訳したもの。 CC-BY-SA 3.0 llm-jp/oasst1-21k-ja 21.2k クラウドソーシングの取り組みとして人手で作られたOASST1というデータセットを日本語訳したもの。 Apache-2.0 llm-jp/oasst2-33k-ja 32.7k クラウドソーシングの取り組みとして人間によって作られたOASST2というデータセットを日本語訳したもの。 Apache-2.0 ichikara-instruction 4.8k 理化学研究所で人手によって作られた高品質なインストラクションデータセット。（有料版もある。） CC-BY-NC-SA 人手で作られた日本語データセットとしては以下のようなものがある。

37 3. Instruction Tuning 3-2. データについてデータ形式 Instruction Tuningでは指示+応答
という形式でデータを用意する。代表例として「Alpaca形式」があり、これは2023年3月にスタンフォード大学から公開された「Alpaca 7B」に由来する。「Alpaca 7B」は「LLaMA」をInstruction Tuningしたもので、この指示形式は現在も広く利用されている。右は日本語版で、LLM-jp-13Bのv1.0のファインチューニングにも使用されている。 Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request. ### Instruction: {instruction} ### Input: {input} ### Response: {output} 以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。 ### 指示: {instruction} ### 入力: {input} ### 応答: {output} 参考: Stanford Alpaca: An Instruction-following LLaMA Model 参考: v1.1 チューニング済みモデル・データ公開

39 3. Instruction Tuning 3-3. 評価について評価方法前提として、評価データと評価指標はファインチューニング前に事前に設計しておく必要がある。特にモデルを実務に活用する際は、ビジネスサイドとのすり合わせの上、どのような評価指標とデータで測定し、どの程度の精度であれば活用できると判断するかを決めておくことが
望ましい。評価方法を大別すると、①機械的な評価 ②人間による評価 ③LLMによる評価がある。 ①→分類タスクに対する正解率、生成タスクに対する文字一致率など、完全なルールベースで評価スコアを測定する方法。 ②→評価ルールを定めた上で人間が生成結果を目視で確認してスコア付する方法。 ③→評価ルールを定めた上で、それをプロンプトとしてLLMに投入してスコア付けさせる方法。

40 3. Instruction Tuning 3-3. 評価について日本語の評価ベンチマーク例ベンチマーク名概要ライセンス
参照 llm-jp-eval 8カテゴリ、計12個の自然言語処理の公開評価データを用いたベンチマーク。回答として生成された文字列と正解の文字列を比較することで機械的な評価を行う。 Apache 2.0 https://github. com/llm- jp/llm-jp-eval Japanese Vicuna QA Benchmark 決まった回答が存在しない非定型的なタスクにおけるLLMの性能評価を目的とした8カテゴリの問題を持つベンチマーク。生成された回答をGPT-3.5の回答と比較し、優れている割合をGPT-4で判定して評価スコアとする。 Apache 2.0 https://github. com/ku-nlp/ja- vicuna-qa- benchmark Japanese MT-Bench 数学やコーディングなど8カテゴリをマルチターンを含む対話形式の問題で構成したベンチマーク。生成された回答をGPT- 4でスコア付けする。日本語版を Stability-AI社が提供している。 Apache 2.0 https://github. com/Stability- AI/FastChat

41 4. 量子化

42 4. 量子化量子化とはデータの表現に必要なビット数を低減させる技術。LLMを低精度に量子化することで、モデルの軽量化や高速化を実現することができる。 4-1. 概要 32 bit
2 bit データ(パラメータ) LLMの多くは数十億から数百億以上のパラメータを持ち、学習や推論には十分な計算リソースが必要となる。限られた計算リソースでモデルを動作させる場合、量子化によりパラメータをより少ないビット数で表現することで、多少の精度低下を伴うものの、モデルの軽量化や高速化が実現できる。量子化のイメージ min max 浮動小数点数を整数表現に変換することを量子化、低精度な浮動小数点表現に変換することを低精度化と呼ぶこともある。

43 4. 量子化 4-2. LLMの動作に必要な計算リソース基本的なLLMは、16~32ビットなどの高精度なパラメータで表現されるため、パラメータ数の多いLLMを利用する際には、大量のGPUメモリ（VRAM）が必要となる。GPUリソースが十分に確保できない場合には、量子化技術を利用することで大規模なモデルを動かすことが可能となる。 GPU Llama2
7B Llama2 13B Llama2 70B 16bit 8bit 4bit 16bit 8bit 4bit 16bit 8bit 4bit 利用メモリ量 13.4GB 7.3GB 4.8GB 20.5GB 13.8GB 8.7GB 検証不可推定 140GB 検証不可推定 70GB 検証不可推定 40GB T4 VRAM 15.0GB 〇〇〇 × × 〇 × × × L4 VRAM 22.5GB 〇〇〇〇〇〇 × × × A100 VRAM 40.0GB 〇〇〇〇〇〇 × × × Google Colaboratoryで利用できるGPUとLLMの推論に必要なメモリ一覧 ※ 検証条件：モデルの読み込みと1つのプロンプトを推論するのに利用したメモリ量を計測。LLMの量子化には bitsandbytes ライブラリを利用。（補足）利用メモリ量がVRAM内に収まっている場合でも、残余が不足しているためか、モデルの読み込みができないケースも存在。

44 4. 量子化 𝑀 = 𝑃 × 4𝐵 32/𝑄 ×
1.2 記号説明 M GPUメモリ（単位:GB） P モデルのパラメータ数（単位:Billion） 4B 各パラメータに使用される4バイト 32 4バイトには32ビットが含まれる Q モデルのロードに使用されるビット数 1.2 GPUメモリにロードする際の20%のオーバーヘッド 4-2. LLMの動作に必要な計算リソース LLMのサイズから必要なVRAMを計算したい場合には、以下の公式を利用すると良い。参考：Calculating GPU memory for serving LLMs 例）Llama 70Bに必要なVRAMを計算したい場合 𝑀 = 70 × 4𝑏𝑦𝑡𝑒𝑠 32/16 × 1.2 = 168𝐺𝐵 この計算式から、70B級のモデルを量子化せずに推論するためには、 A100 80GBが2~3枚 or H100が2枚程度必要なことがわかる。

45 4. 量子化 4-3. ビットの表現形式符号指数部仮数部 IEEE 754規格の浮動小数点表記
符号ビット(S) 指数部(E) 仮数部(M) 浮動小数点数における数値のスケール（桁数）。指数部に使うビット数が多いと、扱える実数の絶対値範囲が大きくなる。実際の数値の有効桁数を示す部分。仮数部に使うビット数が多いと、より精度の高い値が表現できる。数値が正の値か負の値かを示すビット。正の場合は「0」、負の場合は「1」。 −1 s × 1 + M × 2E−127 1 bit 7 bit 24 bit (32bit表現の場合) 32ビットのデータ量で −2127~2128の数値を表記可能（但し、一定の誤差は生じる）量子化では、ビットの表現形式を様々なデータ型から指定できる。簡単にデータ型の紹介を行う。

46 4. 量子化 4-3. ビットの表現形式様々なデータ型 fp32 S E M
E E E E E E E M M M M M M M M M M M M M M M M M M M M M M fp16 S E E E E E M M M M M M M M M M 指数部: 8bit 仮数部: 23bit 指数部: 5bit 仮数部: 10bit bfloat16 S E E E E E M M M M M M M 指数部: 8bit 仮数部: 7bit E E E Range: ~1.18e−38 to ~3.39e38 Range: ~5.96e−8 to 65504 Range: ~1.18e−38 to ~3.39e38 int8 符号: 1bit 数値: 7bit Range: −128 to 127 int4 符号: 1bit 数値: 3bit Range: −8 to 7 uint4 数値: 4bit Range: 0 to 15 fp16とbfloat16は、同一ビットでも表現形式が異なる。bfloat16はfp16に比べて、表現精度は落ちてしまうものの、より広い範囲の数値を扱えるため、機械学習の分野ではよく利用される。

47 4. 量子化 4-3. ビットの表現形式様々なデータ型 2023年に発表されたQLoRAの論文では、NF4（4-bit NormalFloat）という新しいデータ型が提案された。LLMの重みが正規分布に従う特性を利用した量子化データ型で、通常の4ビット整数や浮動小数点数と比較して、正規分布に対してより高精度な量子化を実現できる。
1. 標準正規分布に基づいた量子化標準正規分布（平均0、標準偏差1）に基づいて、理論的に最適な量子化区間（ビン）を計算する。各量子化区間に等しいデータ点が割り当てられ、データの大部分が区間内に収まるように設計されている。 2. データの正規化モデルの重みを、標準正規分布に一致するようにスケーリングし、[-1, 1]の範囲に収まるように正規化する。 3. 量子化正規化されたデータを、計算された4ビットの量子化区間に割り当てる。この結果、32ビットのデータが4ビットに圧縮されるが、データの分布を最適に反映しているため、精度の低下を最小限に抑えられる。量子化手順

48 4. 量子化 4-4. 代表的な量子化手法基本的な量子化 ➢ スケーリングやシフト、ラウンドオフを行って、特定のデータ型のビット数で表現するように変換する。 GPTQ ➢
元のモデルと量子化後のモデルの性能差を最小限に抑えるように最適化しながら量子化する。 ➢ 調整用のキャリブレーションデータが必要で、基本的な量子化よりも性能劣化が少ない。 AWQ ➢ 重要な部分は高精度に、その他の部分は低精度というように適応的に量子化する。 ➢ GPTQと同様にキャリブレーションデータが必要で、GPTQよりも性能劣化が少ない（但し、高度な調整が必要）。量子化手法キャリブレーションデータライブラリ論文基本的な量子化不要 bitsandbytes Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference GPTQ 必要 AutoGPTQ GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers AWQ 必要 AutoAWQ AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

49 4. 量子化 4-4. 代表的な量子化手法先程の量子化手法に加えて、GGUFやAutoRoundなど、様々な量子化が提案されている。これらを実装して評価するには、多大な工数や計算リソースが必要となるため、量子化手法の選択には以下の量子化専用のLBを参考にするとよい。量子化専用のLLM Leaderboard:
Low-bit Quantized Open LLM Leaderboard 例えば、「Llama-3-8B」などのモデル名で絞り込み、各量子化手法のベンチマークスコアを比較したり、8Bモデルの量子化なしと70Bモデルの4ビット量子化の性能の違いなどを確認できる。

50 4. 量子化 4-5. 量子化による性能変化量子化によるLLMの性能変化は、LLMのパラメータ数や評価タスク、量子化手法、実行条件などによって異なるため、厳密に定義することはできない。ただし、一般的には以下のような傾向が見られるとされている。また、次ページ以降にて、量子化の影響について調査した研究をいくつか紹介する。推論速度必要メモリ
推論精度バイアス量子化により数値演算が簡素化されるため、推論の処理速度が上昇する。基本的には処理を並列化させることで速度を向上させる。上昇減少減少増加量子化したビット数に応じて、必要なメモリ量が減少される。量子化手法によって異なるが、顕著に必要メモリ量は減少していく。表現精度が低下するため、推論精度も減少する。評価タスクによって異なるが、4bitまで量子化すると1~5%程度の低下が見られることが多い。モデルの出力にバイアスが発生し、出力が特定の値や範囲に偏る可能性がある。これにより、モデルの公平性や多様性が失われるリスクがある。

51 4. 量子化 4-5. 量子化による性能変化 An Empirical Study of LLaMA3
Quantization: From LLMs to MLLMs（2024.4.22） Llama3-8Bの学習後量子化(PTQ)の評価結果（引用: 論文 Table2） Llama3-8BのLoRA, QLoRAの評価結果（引用: 論文 Table6） Metaが発表したLlama3モデルの低ビット量子化の性能を評価した論文。学習後量子化（PTQ）や QLoRAなどの量子化を交えた学習による性能変化を様々な量子化手法で評価している。タスク別影響調査 CommonSenseQAと呼ばれる常識推論能力を評価するタスクによる評価結果では、低ビットで量子化するにつれて性能が劣化することがわかった。特に、 2~3ビットにおける性能劣化は著しく、実用レベルでは扱うことは難しい。その他にも、量子化手法ごとに低ビットでの性能劣化の程度が異なること、Llama3-70Bなどの大きなモデルでは2~3ビットを除いて、量子化による性能劣化の影響を受けづらいことがわかった。

52 4. 量子化数学的推論機械翻訳知識多言語混同 4-5. 量子化による性能変化 How
Does Quantization Affect Multilingual LLMs? （Cohere 2024.7.3）量子化手法ごとのタスク別の相対的性能変化（引用: 論文 Table1）量子化手法ごとの言語別の相対的性能変化（引用: 論文 Table3）タスク別影響調査多言語LLMを対象に、様々な量子化手法を適用して影響を調査した論文。難易度の高いタスクほど量子化による性能劣化が大きく、数学的推論においては、4ビット量子化で約 10%の性能劣化が起きている。稀に、35BのW8A8 量子化のように、平均性能が向上するケースもあるため、一概に性能劣化するとは言い切れない。言語別影響調査非ラテン語はラテン語に比べて性能劣化が大きいことがわかった。日本語も性能劣化が比較的大きい言語であるので、量子化する際には注意が必要である。その他にも、量子化の影響はLLMによる自動評価で過小評価されるため、人間による評価の重要性が指摘されていた。

53 4. 量子化 4-5. 量子化による性能変化 1. パラメータの冗長性 LLMなどの巨大なニューラルネットワークでは、量子化により各パラメータの精度が低下しても、多数のパラメータが全体を平滑化し、性能への影響を最小限に抑えることができる。これは、LLMが学習データをそのまま記憶しているわけではなく、言語の普遍的なパターンや法則を学習しているためである。その
結果、モデルは必要な情報を効率的に表現できるため、パラメータの圧縮や精度の低下に対して一定の耐性がある。つまり、実際に必要なパラメータ容量はそれほど大きくなく、一定の範囲内での圧縮が可能であると考えられている。 2. 活性化関数の非線形性 LLMでは、ReLUやGELUなどの非線形活性化関数が使用されている。これにより、数値のスケールが適応的に圧縮され、量子化による小さな誤差が累積しにくくなっている。例えば、小数点以下の情報が一部失われた場合でも、非線形な活性化関数を通過することで、その誤差が入力の大きさに応じて自然に抑制されるため、全体の計算結果に与える影響が小さくなる。 TIPS：LLMはなぜ量子化による性能低下の影響を受けにくいのか？ A. 深層学習モデルはノイズに強く、ロバスト性が高いため。

54 5. PEFT

55 5. PEFT PEFT（Parameter Efficient Fine-Tuning）とは追加で設定したパラメータや一部のパラメータのみを訓練することで、効率的にファインチューニングを行う方法。 5-1. 概要
LLMのファインチューニングにおける課題 LLMはそのパラメータの多さから、すべてのパラメータをチューニングするためには膨大な計算コストがかかる。そのため、少ないリソースでもファインチューニングを行う手法が求められる。 PEFT手法を利用することで、少ないリソースでフルパラメータチューニングと同等の性能を達成することができると報告されている。また、フルパラメータチューニングは壊滅的忘却の発生や過学習のリスクが高く、PEFTはこれらを軽減する効果があると言われている。

56 5. PEFT 5-2. PFETの型 1. Adapters型 Transformerブロックの中に学習可能な層（Adapter layer）を設定し
てファインチューニングする手法。 Adapter layerはMLP（Multi Layer Perceptron）構造を持つ。 2. Soft Prompt型各タスクに対応したベクトルを入力系列（Soft Prompt）を追加することで、大部分のパラメータは固定して埋め込み部分の一部のみを微調整する手法。引用: Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning (2023) PEFTの種類

57 5. PEFT 5-2. PFETの型引用: Scaling Down to Scale
Up: A Guide to Parameter-Efficient Fine-Tuning (2023) PEFTの種類 3. Selective型モデル内の特定の層のみ・バイアス項のみといったように、パラメータの大部分を固定して一部だけを選択的に微調整する手法。 4. Reparametrization型事前学習済みのモデルの重み行列を直接更新するのではなく、低ランク行列の変換を用いることで効率的に微調整する手法。主流

58 5. PEFT 5-3. 代表的な手法 Reparametrization型に該当する、PEFTの手法のなかでも現在最もよく使われている手法。元のモデルと微調整後の重みの差分行列を低ランク近似することでパラメータを削減し、計算コストを効率化する。 LoRA（Low-Rank Adaptation）
出力をℎとして元のモデルの重みを𝑊0 とし微調整される重みを ∆Wとすると、ℎ = 𝑊0 𝑥 + ∆𝑊𝑥と表される。このとき、行列サイズは𝑑 ∗ 𝑑であるとする。この差分行列∆Wを2つの行列A, Bを使って∆𝑊 = 𝐵𝐴とすると、 ℎ = 𝑊0 𝑥 + ∆𝑊𝑥 = 𝑊0 𝑥 + 𝐵𝐴𝑥と表される。 𝑟を任意のランクとすると、行列Bのサイズは𝑑 ∗ 𝑟であり、Aのサイズは𝑟 ∗ 𝑑である。したがって、元の差分行列のパラメータ数は𝑑2であったが、低ランク行列への変換によって2𝑑𝑟に削減することができる。引用: LoRA: Low-Rank Adaptation of Large Language Models (2021)

59 5. PEFT 5-3. 代表的な手法 LoRA（Low-Rank Adaptation）引用: LoRA: Low-Rank
Adaptation of Large Language Models (2021) LoRAを提案した論文ではBERT系のモデルを使って他手法との精度比較を実験している。右の表はGLUEという言語理解のベンチマークでの結果である。 LoRAはフルパラメータや他の手法と同じかそれよりも高いスコアとなっており、平均で見ると最も高いスコアとなったことが報告されている。

60 5. PEFT 5-3. 代表的な手法 LoRAと同じく効率的なファインチューニングの手法。4bitに量子化した事前学習モデルとLoRA手法を適用することで、メモリ使用量を大幅に削減してモデルを訓練する。 QLoRA（Quantized Low-Rank Adaptation）
1. 4-bit NormalFloat 正規分布に基づくデータに適した量子化データ型を使用。 2. Double Quantization 量子化する際の量子化定数に対してもさらに量子化を行う。（二重量子化） 3. Paged Optimization CPUとGPU間のページ転送を行い、計算時のメモリを有効活用。引用: QLORA: Efficient Finetuning of Quantized LLMs (2023) より引用 ℎ = 𝑊0 𝑥 + 𝐵𝐴𝑥 4bitに量子化 16bit

61 5. PEFT 5-3. 代表的な手法 QLoRAを提案した論文ではRoBERTa とT5を使用し、BF16でのフルパラメータチューニングおよびBF16での LoRAとの比較実験を行っている。結果として、QLoRAを用いた場合で
の性能劣化はほとんどないことが確認された。 QLoRA（Quantized Low-Rank Adaptation）引用: QLORA: Efficient Finetuning of Quantized LLMs (2023)

62 5. PEFT 5-4. 実装上のTips LoRA, QLoRAはアダプターとして公開 LLMを利用する際はHuggingFaceからモデルデータを取得することが多い。事前学習済みのモデルやフルパラメータ
チューニングされたモデルは、すべてのパラメータの重みをダウンロードして使うが、 LoRAやQLoRAは事前学習後の重みからの低ランクの差分行列があれば適用することができるため、アダプターのみが公開されていることが一般的である。これによって、ベースのモデルの重みを一度ダウンロードしておけば、容量の軽いアダプターは付け替えるだけで様々な微調整モデルを使うことができる。モデルページの右側にある Adapter から models をクリックそのモデルに結合可能な様々なアダプターを確認できる

63 6. Pythonによる実装

64 6. Pythonによる実装 class transformers.BitsAndBytesConfig：量子化の設定を行うためのクラス 4ビット量子化を適用したい場合は load_in_4bit をTrueに、8ビット量子化を適用したい場合は load_in_8bit
をTrueに設定する。 6-1. 使用するライブラリ bitsandbytes LLMの量子化に利用されるライブラリ。4bit/8bit量子化をモデルに適用することができる。 peft LLMのファインチューニングで、PEFTを適用するためのライブラリ。 class peft.LoraConfig： LoRAの設定を行うためのクラス使用メモリ量を削減したい場合は、 r や lora_alpha の値を下げたり、 target_modules でLoRAを適用する層を限定するとよい。ただし、モデルの表現力が低下するため、メモリ使用量と性能のバランスを見ながら調整することが必要。

65 6. Pythonによる実装 6-1. 使用するライブラリ class transformers.TrainingArguments：モデルのトレーニングに関する設定を管理するクラス • 学習データの利用回数 num_train_epochs
を設定。値を増やしすぎると過学習につながるため注意。 • 使用メモリ量を削減したい場合（学習時間は増加） per_device_train_batch_size や per_device_eval_batch_size を小さい値に設定する。 • 学習を調整したい場合 learning_rate の最適化や、 lr_scheduler_type を固定から線形、コサイン関数などに変更して学習率の立ち上がりを調整する。 • 評価タイミングの設定 eval_steps を調整。評価頻度を増やすと学習状況が詳細に把握できるが、学習時間が増加する。 transformers LLMやNLPモデルの実装・応用に利用されるライブラリ。Transformerのアーキテクチャを利用する様々なモデルのロードや学習ができる。

66 6. Pythonによる実装 class trl.DataCollatorForCompletionOnlyLM：損失対象を指定するcollatorクラス生成されたプロンプトのみでモデルの損失計算を行うことができる。 response_template には計算対象の境界となるtokenを設定する。これは packing=False
の場合のみ機能することに注意。 trl LLMの微調整に利用されるライブラリ。SFTからDPOなどの様々なアルゴリズムをモデルに適用できる。 6-1. 使用するライブラリ class trl.SFTTrainer：教師あり微調整（Supervised Fine-Tuning）のためのTrainerクラス学習に使用するモデルやデータ、collator、PEFT設定、学習パラメータを定義する。 max_seq_length は、シーケンスの長さで、この値を大きくするとメモリ使用量が増加するため、データのtoken数を計算し、適切な長さに設定することが望ましい。

67 6. Pythonによる実装 6-2. 実装コード実際にファインチューニングを行ったサンプルコードを共有する。 Google Colaboratory https://colab.research.google.com/drive/18P8VQ1JvN-feObNG1W2I89fozwUtFMLJ 今回使用するLlama3は、学習データの95%が英語データで構成されているため、日本語の出力があまり得意で
はない。また、一問一答形式での学習がされていないため、以下のように対話形式で出力されてしまう。これを日本語で、一問一答形式で回答できるようにファインチューニングを実施した。質問：建物を建てる際に行う、その土地の神様を祭って工事の無事を祈願する祭礼を何というでしょう？想定出力：地鎮祭学習前の出力： You're referring to a traditional ceremony performed before constructing a building to appease the local deity and ensure ... 利用モデル：meta-llama/Meta-Llama-3-8B-Instruct Instruction Dataset：izumi-lab/llm-japanese-dataset

68 6. Pythonによる実装 6-2. 実装コード質問：建物を建てる際に行う、その土地の神様を祭って工事の無事を祈願する祭礼を何というでしょう？正解：地鎮祭学習後の出力：地鎮祭質問：英語で「過失」という意味がある、テニスでサーブがサービスコートに正しく入らないで失敗することを何というでしょう？正解：フォ（ー）ルト
学習後の出力：フォア学習結果ファインチューニングを行った結果、以下のように日本語で、一問一答形式で回答できるようになったことが確認された。質問：もともとはカトリック教徒が使っていた、大小の玉を連ねて十字架をつけたネックレス状のアクセサリーといえば何でしょう？正解：ロザリオ学習後の出力：ロザリオ

69 6. Pythonによる実装 6-2. 実装コード learning_rate（学習率）モデルの学習率は非常に重要なパラメータとなる。学習率の最適値は、LLMのパラメータ数やデータセットの件数、その他の設定によって異なるため、複数のパターンで試行することを推薦する。指標指標としては、主に検証データに対するLossを確認することが多いが、Lossが低いことが必ずしも性能の高さを意味するわけではないため、出力結果も併せて確認することが重要である。
学習用データのLoss 検証用データのLoss

70 6. Pythonによる実装 learning_rate（学習率） 6-2. 実装コード質問：建物を建てる際に行う、その土地の神様を祭って工事の無事を祈願する祭礼を何というでしょう？正解：地鎮祭モデル出力： [1𝑒−4]
地鎮祭 [1𝑒−6] 神明祭 [1𝑒−3] 建物祭質問：もともとはカトリック教徒が使っていた、大小の玉を連ねて十字架をつけたネックレス状のアクセサリーといえば何でしょう？正解：ロザリオモデル出力： [1𝑒−4] ロザリオ [1𝑒−6] ロザリオ [1𝑒−3] パイプスクロス先程の図では、学習率1𝑒−4が検証データに対するLossが最も低く、実際の出力においても正答率が高いことが伺える。但し、今回はモデルに知識を付与することではなく、回答形式を整えることが目的であるため、モデルが持っていない知識については正しく回答できないことに注意。質問：昨年のベルリン国際映画祭でアニメとして初めて金熊賞を獲得した、宮崎駿監督の映画は何でしょう？正解：千と千尋の神隠しモデル出力： [1𝑒−4] となりのトトロ [1𝑒−6] スプーン詰め [1𝑒−3] 千と千ちゃん

71 参考資料一覧 • 大規模言語モデル入門（山田育矢, 鈴木正敏, 山田康輔, 李
凌寒） • 大規模言語モデル入門Ⅱ〜生成型LLMの実装と評価（山田育矢, 鈴木正敏, 西川荘介, 藤井一喜, 山田康輔, 李凌寒） • 深層ニューラルネットワークの高速化（佐藤竜馬）参考資料 • Scaling Laws for Neural Language Models • A Survey of Large Language Models • 【連載①】大規模言語モデル（LLM）のビジネス利用に関して注意すべき点-LLMの使用許諾条件- • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding • Optimizing LLMs for accuracy • Finetuned Language Models Are Zero-Shot Learners • Self-Instruct: Aligning Language Models with Self-Generated Instructions • WizardLM: Empowering Large Language Models to Follow Complex Instructions • OpenAI 利用規約（日本語版） • OpenAI Business terms（英語版） • llm-jp/databricks-dolly-15k-ja • llm-jp/oasst1-21k-ja • llm-jp/oasst2-33k-ja • ichikara-instruction 引用資料 • Stanford Alpaca: An Instruction-following LLaMA Model • v1.1 チューニング済みモデル・データ公開 • https://github.com/llm-jp/llm-jp-eval • https://github.com/ku-nlp/ja-vicuna-qa-benchmark • https://github.com/Stability-AI/FastChat • Calculating GPU memory for serving LLMs • Quantization and Training of Neural Networks for Efficient Integer- Arithmetic-Only Inference • GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers • AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration • An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs • How Does Quantization Affect Multilingual LLMs? • Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning • LoRA: Low-Rank Adaptation of Large Language Models • QLORA: Efficient Finetuning of Quantized LLMs

72 会社概要データアナリティクスラボ株式会社データアナリティクスラボ株式会社 / Data Analytics Labo Co. 社名
設立年月日 2019年4月26日代表者近藤雅彦資本金 20百万円従業員数約140名（グループ全体約160名）事業内容所在地東京都中央区築地5-4-18 汐留イーストサイドビル6階お客様のデータ利活用のステージや必要とされるスキルニーズに合わせて、当社データサイエンティストが企業の様々なデータ利活用ニーズに対応することでより多くの地域や企業への貢献を目指しますデータ分析受託事業データ分析コンサルティング事業

73 採用データアナリティクスラボ株式会社では一緒に働く仲間を募集中です！ご興味をお持ちいただけた方は、ぜひ下記のフォームよりご連絡ください！会社HPやZenn、オウンドメディアでデータサイエンスに関する技術記事を発信しています ➢ https://dalab.jp/journal/（JOURNAL） ➢ https://zenn.dev/p/dalab（Zenn） ➢
https://dalab.jp/mag/（オウンドメディア） ➢ https://www.instagram.com/dal_labo/ Instagramで社内風景を紹介していますご相談はこちらから

74 データ分析支援 ➢ 各種データの集計、集計結果の可視化作業（SQL、pythonやR、BIツールなどを使った集計・可視化） ➢ データ選定整備（データの収集や、前処理、アノテーション作業） ➢ 分析モデルの構築
(統計や機械学習、数理モデルなどを用いた予測、判別、分類モデルの構築) ➢ レポーティング (PowerPointやExcelを用いた、表やグラフなどの作成支援業務) ➢ 先端技術のリサーチ・実装 (LLMや画像解析、量子コンピュータなどの最新技術に関する論文リサーチから実装) データ分析業務 Data Analytics Outsourcing データサイエンス人材をお探しの企業様へ当社の業界別専門知識と先進データ分析技術で貴社のデータ活用戦略を最適化します！ご相談はこちらから LLMのファインチューニングに関するご相談や実装支援などのご依頼もお待ちしております！

75 企画情報技術記事 LLMのファインチューニングに関する実装を行った技術記事もありますので、是非ご一読ください。 • LLMのファインチューニングでドメイン知識の獲得は可能か。知識付与の限界と可能性 • ファインチューニングで、汎用的な要約モデルを作るためのデータセット設定 • ネガポジ分析の最適解：LlamaとBERTのモデル比較と学習件数の影響
• ファインチューニングによる文書分類性能と文書生成タスク性能の向上企画メンバー本資料は、社内勉強会企画の一環として作成されました。企画に携わったメンバーは以下の通りです。データアナリティクスラボ株式会社データソリューション事業部力岡友和 / 宮澤朋也 / 池田翔平 / 沖田彩伽 / 本多來瑠美 / 渡邉亮勉強会企画の詳細については、以下の記事をご参照ください。 • LLMファインチューニング勉強企画の紹介

76 バージョン履歴本資料に関する質問やお問い合わせは、以下までお願いいたします。 [email protected] / [email protected] / [email protected] 問い合わせ先バージョン履歴
第1版 2024年12月19日

LLM Supervised Fine-tuningの理論と実践

LLM Supervised Fine-tuningの理論と実践

Other Decks in Programming

Featured

Transcript