Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最近の話題にも対応した大規模言語モデルの開発

Takahiro Omi
September 05, 2023
100

 最近の話題にも対応した大規模言語モデルの開発

Takahiro Omi

September 05, 2023
Tweet

Transcript

  1. | テクノロジー Stockmarkの自然言語処理の研究開発 データ 大規模言語モデル 知識グラフ 共同研究: 東北大学乾研究室 共同研究: 産業技術総合研究所

    ビジネスに有益な情報を世界中から収 集する。 ニュース・論文・特許・社内データ あらゆるテキストから知識グラフを自 動構築する。 ビジネスのドメインに特化した大規模 言語モデルを開発する。
  2. 生成系AIの急速な発展と浸透 ChatGPT メールの文面書 いて SQLのコード書 いて この文書を要約 して。 これを英語に翻 訳して

    この数学の問題 を解いて 企画のアイデア を出して • ユーザーの指示を理解し、意図に沿った、なめらかな応答をすることができる。 • 単一のAIが多種多様なタスクを扱うことができる。 生成AIの応用可能性が広がり、さまざまな領域での活用が進んでいる。
  3. 日本語の大規模言語モデルの開発も盛り上がりを見せている 公開日 開発組織 パラメータ数 2023/05/17 CyberAgent 68億 2023/05/17 rinna 36億

    2023/07/31 rinna 40億 2023/08/08 Stockmark 14億 2023/08/10 Stability AI 70億 2023/08/14 LINE 36億 2023/08/18 東大松尾研 100億 2023/08/29 ELYZA 70億
  4. 意図に沿った応答をできるように追加で学習を行う。 • ChatGPTは意図に沿った応答を可能にするた めに、(i) Supervised Fine-Tuning と (ii) Reinforcement Learning

    with Human Feedback の二つ手法で追加の学習を行なっ ている。 • (i) ではさまざまな指示に対して、望ましい出力 を人の手で作成し、教師あり学習を行う。 ◦ 一般には、Instruction Tuningとも呼ば れ、そのためのデータセットが多く公開さ れている。 • (ii) に関しては今回は詳細は省略 Input: 「昨日東京へ行った。」を英語に翻訳し て。 Target: I went to Tokyo yesterday. Input: 自然言語処理とは? Target: 自然言語処理とは、私たちが普段 使っている言葉をコンピュータで処理 するための技術で・・・ Instruction Tuningのデータのイメージ
  5. データセット構成 15 Stockmark Web Corpus 8.6B tokens Wikipedia 0.88B tokens

    CC100 10.5B tokens • 10億のモデルをトレーニングするのに、データの量の目安は 20B tokensくらいだと言われて いる。 ◦ Chinchila scaling law; J. Hoffmann, et al., Training Compute-Optimal Large Language Models (2022). • データ量を増やすために、WikipediaとCommon Crawl 由来のCC100を追加。 • データ量がさらに多いMC4などのデータセットもあるが、ノイズが多いので今回は除外した。
  6. 学習用のデータファイルの作成 16 • 学習の効率を下げないために、複数のドキュメントをeos tokenを挟んで結合し、 データにpadding tokenが入らないようにする。(GPT-3の事前学習と同じ設定) • メモリマップ形式のファイルを使用。 ◦

    すべてのデータをメモリに読み込むのではなく、ファイルへのランダムアクス により必要なデータを必要な時に読み込む。 ▪ https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/data/in dexed_dataset.py
  7. 分散学習 17 • 8 × A100 (40GB) のGPUで学習を行った。(at ABCI) •

    DeepSpeed ZeRO2 の使用 ◦ optimizer state と gradient を GPU間で分割して保持することで、メモリーを 節約する。 ◦ HuggingFace Trainerと連携しており、単一GPUでの学習のコードから数行 変更するだけで良い。
  8. 学習の工夫 18 • 短い系列から学習し、段階的に系列長を長くする。 ◦ 最初から長い系列を学習すると学習が不安定になりやすい。 ▪ C. Li, et

    al., The Stability-Efficiency Dilemma: Investigating Sequence Length Warmup for Training GPT Models. NeurIPS 2022. ◦ 1 epoch目では、データセットを3分割し、系列長を 256 -> 512 -> 1024 と段階的に挙げ ていった。2 epoch 目以降では1024. • Mixed Precision (fp32 & bf16) の利用。 ◦ (ざっくり言うと)forward-, backward-passは16 bitで計算し、パラメータの更新は32 bit で行うことで、精度を落とさずに高速化・メモリの削減を行える。 ◦ 16 bitの数値形式として、fp16よりもダイナミックレンジの広いbf16を利用。 ▪ bf16の方が学習が安定する。 • https://huggingface.co/blog/bloom-megatron-deepspeed#bf16optimizer
  9. 詳細 19 • Architecture ◦ GPT-NeoX • 系列長 ◦ 1

    epoch:データを3分割し256 -> 512 -> 1024と段階的に上げていく ◦ 2 epoch以降:1024 • バッチサイズ ◦ 1 epoch:512 ◦ 2 epoch以降:1024 • 学習率 ◦ 1e-4 • エポック数 ◦ 5
  10. 学習時間・コスト 20 • 学習時間: ◦ 8 × A100で約15日(5 epoch)〜 2900

    GPU hour • コスト: ◦ 〜 24万円 (ABCI利用) ◦ 全体では事前検証やデータ処理も含めて30万円くらい
  11. 出力例 入力:最近の画像生成AIをいくつか教えてく ださい。 出力:「Stable Diffusion」は、テキストから画 像を生成するAIで、「Midjourney」 「DALL・E2」「Stable Diffusion 2.0」などが 有名です。「Google

    Colaboratory」で試すこ とができますが、・・・ 入力:ラピダスはどのような企業? 出力:「日本の半導体産業の復活」をうたう、 次世代半導体の国産化を目指す新会社。そ の名は「Rapidus」。2022年6月7日、トヨタ 自動車やNTTなど8社が出資して設立され た。・・・ • 最近の情報についての知識は獲得できている。 • その一方で、LLMとしてはサイズが小さいので、言語理解が十分でないケースもよ く見られる。
  12. 振り返って 23 • 社内でも「今さら10億のモデル公開して意味あんの?」的な声もあったが、公開し たら思った以上の反響があった。 • 課題としては、 ◦ 公開したモデルのきちんとした評価があまりまだできていない。 ◦

    最近の話題を事前学習で学習する意味は? • AWSのLLM開発支援プログラムに採択されました!今後もLLMを作っていきま す! ◦ https://aws.amazon.com/jp/blogs/news/llm-development-support-program-kickoff/