最近の話題にも対応した大規模言語モデルの開発

ストックマーク株式会社　近江崇宏最近の情報にも対応した大規模言語モデルの開発 2023/09/05

自己紹介 • 近江崇宏（おおみたかひろ)　Research担当執行役員 • 2020年4月にストックマークに入社し、自然言語処理の研究開発に従事 • 前職は東京大学（特任准教授）で、時系列解析を中心とした統計学や機械学習の基礎・応用研究に従事 •
著書：「BERTによる自然言語処理入門（オーム社）」

| テクノロジー Stockmarkの自然言語処理の研究開発データ大規模言語モデル知識グラフ共同研究：東北大学乾研究室共同研究：産業技術総合研究所
ビジネスに有益な情報を世界中から収集する。ニュース・論文・特許・社内データあらゆるテキストから知識グラフを自動構築する。ビジネスのドメインに特化した大規模言語モデルを開発する。

最近の話題にも対応した14億パラメータのLLMの公開 https://tech.stockmark.co.jp/blog/202308_gpt_neox/ https://huggingface.co/stockmark/gpt-neox-japanese-1.4b

大規模言語モデル

生成系AIの急速な発展と浸透 ChatGPT メールの文面書いて SQLのコード書いてこの文書を要約して。これを英語に翻訳して
この数学の問題を解いて企画のアイデアを出して • ユーザーの指示を理解し、意図に沿った、なめらかな応答をすることができる。 • 単一のAIが多種多様なタスクを扱うことができる。生成AIの応用可能性が広がり、さまざまな領域での活用が進んでいる。

日本語の大規模言語モデルの開発も盛り上がりを見せている公開日開発組織パラメータ数 2023/05/17 CyberAgent 68億 2023/05/17 rinna 36億
2023/07/31 rinna 40億 2023/08/08 Stockmark 14億 2023/08/10 Stability AI 70億 2023/08/14 LINE 36億 2023/08/18 東大松尾研 100億 2023/08/29 ELYZA 70億

大規模言語モデルはどのようにテキストを生成するのか？ • 言語モデルは次のトークン（単語）を予測することを繰り返すことにより、テキストを生成する。今日は今日は LLM の
勉強今日は LLM の勉強会がある今日は LLM 今日は LLM の。・・・次のトークンを予測

大規模言語モデルの学習（事前学習） • 大規模なテキストコーパスを用意し、次に何のトークンが来るかを予測できるように学習を行う。 • 事前学習に用いる学習データは人によるラベル付けは不要（半教師あり学習）。 • GPT-3は数百GBのデータを用いて事前学習を行った1750億パラメータのモデル ◦ なめらかな応答
◦ 少数の例のみからタスクを解けるようになる • Stockmarkが先日公開したモデルも、事前学習を行った段階のモデル

事前学習だけでは、ユーザーの意図に沿った応答をするのは苦手 GPT-3 (davinci: 事前学習のみのモデル ) ChatGPT

意図に沿った応答をできるように追加で学習を行う。 • ChatGPTは意図に沿った応答を可能にするために、(i) Supervised Fine-Tuning と (ii) Reinforcement Learning
with Human Feedback の二つ手法で追加の学習を行なっている。 • (i) ではさまざまな指示に対して、望ましい出力を人の手で作成し、教師あり学習を行う。 ◦ 一般には、Instruction Tuningとも呼ばれ、そのためのデータセットが多く公開されている。 • (ii) に関しては今回は詳細は省略 Input: 「昨日東京へ行った。」を英語に翻訳して。 Target: I went to Tokyo yesterday. Input: 自然言語処理とは？ Target: 自然言語処理とは、私たちが普段使っている言葉をコンピュータで処理するための技術で・・・ Instruction Tuningのデータのイメージ

最近の話題にも対応した 14億パラメータのLLMの開発

StockmarkがLLMを開発するモチベーション • 公開されている多くの日本語のLLMはMC4などのCommon Crawl由来のデータをもとに学習されており、当社の重視するような情報の割合は多くない。 • 当社は主に大企業のR&D部門向けの情報収集・分析のためのサービスを開発している。よりタイムリーな情報やビジネスドメインに対応したLLMを開発することで、お客様への貢献を目指したい。 •
当社はこれまで、ビジネスに関連する情報を日々、Webから収集しており、大規模かつ高品質なテキストコーパスを所有しており、これを用いることでより良いLLMが作れるのではないか。

StockmarkにおけるWebからのデータ収集 • 世界中からビジネスに関連する情報を収集しており、サービスの重要な基盤となっている。そのための専門チームもある。 • 長年積み上げられてきた、コンテンツ抽出やノイズ除去の技術により高品質な Webのテキストデータが利用可能。

データセット構成 15 Stockmark Web Corpus 8.6B tokens Wikipedia 0.88B tokens
CC100 10.5B tokens • 10億のモデルをトレーニングするのに、データの量の目安は 20B tokensくらいだと言われている。 ◦ Chinchila scaling law; J. Hoffmann, et al., Training Compute-Optimal Large Language Models (2022). • データ量を増やすために、WikipediaとCommon Crawl 由来のCC100を追加。 • データ量がさらに多いMC4などのデータセットもあるが、ノイズが多いので今回は除外した。

学習用のデータファイルの作成 16 • 学習の効率を下げないために、複数のドキュメントをeos tokenを挟んで結合し、データにpadding tokenが入らないようにする。（GPT-3の事前学習と同じ設定） • メモリマップ形式のファイルを使用。 ◦
すべてのデータをメモリに読み込むのではなく、ファイルへのランダムアクスにより必要なデータを必要な時に読み込む。 ▪ https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/data/in dexed_dataset.py

分散学習 17 • 8 × A100 (40GB) のGPUで学習を行った。（at ABCI） •
DeepSpeed ZeRO2 の使用 ◦ optimizer state と gradient を GPU間で分割して保持することで、メモリーを節約する。 ◦ HuggingFace Trainerと連携しており、単一GPUでの学習のコードから数行変更するだけで良い。

学習の工夫 18 • 短い系列から学習し、段階的に系列長を長くする。 ◦ 最初から長い系列を学習すると学習が不安定になりやすい。 ▪ C. Li, et
al., The Stability-Efficiency Dilemma: Investigating Sequence Length Warmup for Training GPT Models. NeurIPS 2022. ◦ 1 epoch目では、データセットを３分割し、系列長を 256 -> 512 -> 1024 と段階的に挙げていった。2 epoch 目以降では1024. • Mixed Precision (fp32 & bf16) の利用。 ◦ （ざっくり言うと）forward-, backward-passは16 bitで計算し、パラメータの更新は32 bit で行うことで、精度を落とさずに高速化・メモリの削減を行える。 ◦ 16 bitの数値形式として、fp16よりもダイナミックレンジの広いbf16を利用。 ▪ bf16の方が学習が安定する。 • https://huggingface.co/blog/bloom-megatron-deepspeed#bf16optimizer

詳細 19 • Architecture ◦ GPT-NeoX • 系列長 ◦ 1
epoch：データを3分割し256 -> 512 -> 1024と段階的に上げていく ◦ 2 epoch以降：1024 • バッチサイズ ◦ 1 epoch：512 ◦ 2 epoch以降：1024 • 学習率 ◦ 1e-4 • エポック数 ◦ 5

学習時間・コスト 20 • 学習時間： ◦ 8 × A100で約15日（5 epoch）〜 2900
GPU hour • コスト： ◦ 〜 24万円 (ABCI利用) ◦ 全体では事前検証やデータ処理も含めて30万円くらい

出力例入力：最近の画像生成AIをいくつか教えてください。出力：「Stable Diffusion」は、テキストから画像を生成するAIで、「Midjourney」「DALL・E2」「Stable Diffusion 2.0」などが有名です。「Google
Colaboratory」で試すことができますが、・・・入力：ラピダスはどのような企業？出力：「日本の半導体産業の復活」をうたう、次世代半導体の国産化を目指す新会社。その名は「Rapidus」。2022年6月7日、トヨタ自動車やNTTなど8社が出資して設立された。・・・ • 最近の情報についての知識は獲得できている。 • その一方で、LLMとしてはサイズが小さいので、言語理解が十分でないケースもよく見られる。

Instruction Tuning 22 • Instruction Tuningをしたモデルは公開してませんが、公開データセットでLoRA tuning（軽量なfine-tuning）を行うnotebookをHuggingFace Hub公開しています。 ◦ Google
Colaboratoryの無料のT4でも動きます。 ◦ https://huggingface.co/stockmark/gpt-neox-japanese-1.4b/blob/main/notebooks/LoRA.ipynb

振り返って 23 • 社内でも「今さら10億のモデル公開して意味あんの？」的な声もあったが、公開したら思った以上の反響があった。 • 課題としては、 ◦ 公開したモデルのきちんとした評価があまりまだできていない。 ◦
最近の話題を事前学習で学習する意味は？ • AWSのLLM開発支援プログラムに採択されました！今後もLLMを作っていきます！ ◦ https://aws.amazon.com/jp/blogs/news/llm-development-support-program-kickoff/

最近の話題にも対応した大規模言語モデルの開発

最近の話題にも対応した大規模言語モデルの開発

Takahiro Omi

More Decks by Takahiro Omi

Featured

Transcript

ストックマーク株式会社　近江崇宏最近の情報にも対応した大規模言語モデルの開発 2023/09/05

| テクノロジー Stockmarkの自然言語処理の研究開発データ大規模言語モデル知識グラフ共同研究：東北大学乾研究室共同研究：産業技術総合研究所

最近の話題にも対応した14億パラメータのLLMの公開 https://tech.stockmark.co.jp/blog/202308_gpt_neox/ https://huggingface.co/stockmark/gpt-neox-japanese-1.4b

大規模言語モデル

生成系AIの急速な発展と浸透 ChatGPT メールの文面書いて SQLのコード書いてこの文書を要約して。これを英語に翻訳して

日本語の大規模言語モデルの開発も盛り上がりを見せている公開日開発組織パラメータ数 2023/05/17 CyberAgent 68億 2023/05/17 rinna 36億

大規模言語モデルはどのようにテキストを生成するのか？ • 言語モデルは次のトークン（単語）を予測することを繰り返すことにより、テキストを生成する。今日は今日は LLM の

事前学習だけでは、ユーザーの意図に沿った応答をするのは苦手 GPT-3 (davinci: 事前学習のみのモデル ) ChatGPT

意図に沿った応答をできるように追加で学習を行う。 • ChatGPTは意図に沿った応答を可能にするために、(i) Supervised Fine-Tuning と (ii) Reinforcement Learning

最近の話題にも対応した 14億パラメータのLLMの開発

データセット構成 15 Stockmark Web Corpus 8.6B tokens Wikipedia 0.88B tokens

分散学習 17 • 8 × A100 (40GB) のGPUで学習を行った。（at ABCI） •

学習の工夫 18 • 短い系列から学習し、段階的に系列長を長くする。 ◦ 最初から長い系列を学習すると学習が不安定になりやすい。 ▪ C. Li, et

詳細 19 • Architecture ◦ GPT-NeoX • 系列長 ◦ 1

学習時間・コスト 20 • 学習時間： ◦ 8 × A100で約15日（5 epoch）〜 2900

出力例入力：最近の画像生成AIをいくつか教えてください。出力：「Stable Diffusion」は、テキストから画像を生成するAIで、「Midjourney」「DALL・E2」「Stable Diffusion 2.0」などが有名です。「Google

Instruction Tuning 22 • Instruction Tuningをしたモデルは公開してませんが、公開データセットでLoRA tuning（軽量なfine-tuning）を行うnotebookをHuggingFace Hub公開しています。 ◦ Google

振り返って 23 • 社内でも「今さら10億のモデル公開して意味あんの？」的な声もあったが、公開したら思った以上の反響があった。 • 課題としては、 ◦ 公開したモデルのきちんとした評価があまりまだできていない。 ◦