Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最近の話題にも対応した大規模言語モデルの開発

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Takahiro Omi Takahiro Omi
September 05, 2023
190

 最近の話題にも対応した大規模言語モデルの開発

Avatar for Takahiro Omi

Takahiro Omi

September 05, 2023
Tweet

Transcript

  1. | テクノロジー Stockmarkの自然言語処理の研究開発 データ 大規模言語モデル 知識グラフ 共同研究: 東北大学乾研究室 共同研究: 産業技術総合研究所

    ビジネスに有益な情報を世界中から収 集する。 ニュース・論文・特許・社内データ あらゆるテキストから知識グラフを自 動構築する。 ビジネスのドメインに特化した大規模 言語モデルを開発する。
  2. 生成系AIの急速な発展と浸透 ChatGPT メールの文面書 いて SQLのコード書 いて この文書を要約 して。 これを英語に翻 訳して

    この数学の問題 を解いて 企画のアイデア を出して • ユーザーの指示を理解し、意図に沿った、なめらかな応答をすることができる。 • 単一のAIが多種多様なタスクを扱うことができる。 生成AIの応用可能性が広がり、さまざまな領域での活用が進んでいる。
  3. 日本語の大規模言語モデルの開発も盛り上がりを見せている 公開日 開発組織 パラメータ数 2023/05/17 CyberAgent 68億 2023/05/17 rinna 36億

    2023/07/31 rinna 40億 2023/08/08 Stockmark 14億 2023/08/10 Stability AI 70億 2023/08/14 LINE 36億 2023/08/18 東大松尾研 100億 2023/08/29 ELYZA 70億
  4. 意図に沿った応答をできるように追加で学習を行う。 • ChatGPTは意図に沿った応答を可能にするた めに、(i) Supervised Fine-Tuning と (ii) Reinforcement Learning

    with Human Feedback の二つ手法で追加の学習を行なっ ている。 • (i) ではさまざまな指示に対して、望ましい出力 を人の手で作成し、教師あり学習を行う。 ◦ 一般には、Instruction Tuningとも呼ば れ、そのためのデータセットが多く公開さ れている。 • (ii) に関しては今回は詳細は省略 Input: 「昨日東京へ行った。」を英語に翻訳し て。 Target: I went to Tokyo yesterday. Input: 自然言語処理とは? Target: 自然言語処理とは、私たちが普段 使っている言葉をコンピュータで処理 するための技術で・・・ Instruction Tuningのデータのイメージ
  5. データセット構成 15 Stockmark Web Corpus 8.6B tokens Wikipedia 0.88B tokens

    CC100 10.5B tokens • 10億のモデルをトレーニングするのに、データの量の目安は 20B tokensくらいだと言われて いる。 ◦ Chinchila scaling law; J. Hoffmann, et al., Training Compute-Optimal Large Language Models (2022). • データ量を増やすために、WikipediaとCommon Crawl 由来のCC100を追加。 • データ量がさらに多いMC4などのデータセットもあるが、ノイズが多いので今回は除外した。
  6. 学習用のデータファイルの作成 16 • 学習の効率を下げないために、複数のドキュメントをeos tokenを挟んで結合し、 データにpadding tokenが入らないようにする。(GPT-3の事前学習と同じ設定) • メモリマップ形式のファイルを使用。 ◦

    すべてのデータをメモリに読み込むのではなく、ファイルへのランダムアクス により必要なデータを必要な時に読み込む。 ▪ https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/data/in dexed_dataset.py
  7. 分散学習 17 • 8 × A100 (40GB) のGPUで学習を行った。(at ABCI) •

    DeepSpeed ZeRO2 の使用 ◦ optimizer state と gradient を GPU間で分割して保持することで、メモリーを 節約する。 ◦ HuggingFace Trainerと連携しており、単一GPUでの学習のコードから数行 変更するだけで良い。
  8. 学習の工夫 18 • 短い系列から学習し、段階的に系列長を長くする。 ◦ 最初から長い系列を学習すると学習が不安定になりやすい。 ▪ C. Li, et

    al., The Stability-Efficiency Dilemma: Investigating Sequence Length Warmup for Training GPT Models. NeurIPS 2022. ◦ 1 epoch目では、データセットを3分割し、系列長を 256 -> 512 -> 1024 と段階的に挙げ ていった。2 epoch 目以降では1024. • Mixed Precision (fp32 & bf16) の利用。 ◦ (ざっくり言うと)forward-, backward-passは16 bitで計算し、パラメータの更新は32 bit で行うことで、精度を落とさずに高速化・メモリの削減を行える。 ◦ 16 bitの数値形式として、fp16よりもダイナミックレンジの広いbf16を利用。 ▪ bf16の方が学習が安定する。 • https://huggingface.co/blog/bloom-megatron-deepspeed#bf16optimizer
  9. 詳細 19 • Architecture ◦ GPT-NeoX • 系列長 ◦ 1

    epoch:データを3分割し256 -> 512 -> 1024と段階的に上げていく ◦ 2 epoch以降:1024 • バッチサイズ ◦ 1 epoch:512 ◦ 2 epoch以降:1024 • 学習率 ◦ 1e-4 • エポック数 ◦ 5
  10. 学習時間・コスト 20 • 学習時間: ◦ 8 × A100で約15日(5 epoch)〜 2900

    GPU hour • コスト: ◦ 〜 24万円 (ABCI利用) ◦ 全体では事前検証やデータ処理も含めて30万円くらい
  11. 出力例 入力:最近の画像生成AIをいくつか教えてく ださい。 出力:「Stable Diffusion」は、テキストから画 像を生成するAIで、「Midjourney」 「DALL・E2」「Stable Diffusion 2.0」などが 有名です。「Google

    Colaboratory」で試すこ とができますが、・・・ 入力:ラピダスはどのような企業? 出力:「日本の半導体産業の復活」をうたう、 次世代半導体の国産化を目指す新会社。そ の名は「Rapidus」。2022年6月7日、トヨタ 自動車やNTTなど8社が出資して設立され た。・・・ • 最近の情報についての知識は獲得できている。 • その一方で、LLMとしてはサイズが小さいので、言語理解が十分でないケースもよ く見られる。
  12. 振り返って 23 • 社内でも「今さら10億のモデル公開して意味あんの?」的な声もあったが、公開し たら思った以上の反響があった。 • 課題としては、 ◦ 公開したモデルのきちんとした評価があまりまだできていない。 ◦

    最近の話題を事前学習で学習する意味は? • AWSのLLM開発支援プログラムに採択されました!今後もLLMを作っていきま す! ◦ https://aws.amazon.com/jp/blogs/news/llm-development-support-program-kickoff/