大規模言語モデルとそのソフトウェア開発に向けた応用

南山大学ソフトウェア工学特別講義大規模言語モデルとそのソフトウェア開発に向けた応用 2023年12月5日日本電信電話株式会社人間情報研究所思考処理研究プロジェクト風戸広史

1 © NTT CORPORATION 2023 講師紹介かざとひろし
風戸広史日本電信電話株式会社人間情報研究所主任研究員博士 (工学) • 2003年株式会社NTTデータ入社。ソフトウェア開発におけるソースコードの自動生成やプログラム解析による保守支援技術に関する研究開発に従事。 • 2023年7月より現職。NTT版大規模言語モデル tsuzumi の開発チームに所属し、ソフトウェア開発への大規模言語モデルの応用に関する研究開発を実施中。

2 © NTT CORPORATION 2023 講義概要 ChatGPT等に代表される大規模言語モデル (LLM) は自然言語で文章や会話を生成するだけではなく、プログラミング言語を用いてソースコードやテストコードを生成し、開発者の仕
事を助けることができます。この講義では LLMのプログラミング能力を向上させ、ソフトウェア開発に応用するための研究動向や効果・課題をご紹介します。アジェンダ: • 大規模言語モデル (LLM) とは？ • NTT版大規模言語モデル tsuzumi のご紹介 • プログラミングへの活用 • プログラミングを超える範囲のソフトウェア開発タスクへの応用

3 © NTT CORPORATION 2023 大規模言語モデルとは？ (Large Language Model; LLM)

4 © NTT CORPORATION 2023 大規模言語モデル (LLM) とは大規模な学習データを用いて事前に訓練された、膨大な数のパラメータ (数百万
～数十億以上) を持つニューラルネットワーク例: OpenAI 社の GPT-n シリーズ • Generative テキストを生成することが得意な • Pretrained パラメータを事前学習済みの (すぐに利用できる) • Transformer Transformer という構造のニューラルネットワーク大規模言語モデルと関係のありそうな言葉であるニューラルネットワークやパラメータって何でしょうか？

5 © NTT CORPORATION 2023 人工ニューロン (人工神経) • 大規模言語モデルが出力する文字列は「ニューラルネットワーク」と呼ばれる人間の神経細胞間の結合を模したグラフ構造を用いて計算される
• ニューラルネットワークを構成する最小単位: 人工ニューロン 𝑏 𝑥1 𝑥𝑛 𝑦 𝜔1 𝜔𝑛 重みバイアス 𝑦 = 𝑓(𝜔1 𝑥1 + … + 𝜔𝑛 𝑥𝑛 + 𝑏) 活性化関数 (人工ニューロンの種類) 𝑓(𝑧) 人工ニューロンの出力値は入力の重み付き和とバイアスの合計値 𝑧 (重み付き線形和) に活性化関数 𝑓 を適用したもの入力 (1～n 個の実数値) 出力 … パラメータ (人工ニューロンへ入力する枝とノードに与える実数値) …

6 © NTT CORPORATION 2023 人工ニューロンの例活性化関数としてシグモイド関数 𝜎を用いるものをシグモイドニューロンと呼ぶ 0～1 の範囲の値を出力するため、確率を表現する場合などに用いられる
• 推論: 入力値から出力値を得るための計算 • 学習: 入力値・出力値 (現実のデータ) に基づいて重みとバイアスを調整する計算 −5 20 4 0.9 今日の気温 (℃) 今日の気分 (1～5段階) ビールを飲む確率 (0～1) 0.2 0.8 重みバイアス 𝑦 = 𝜎 𝜔1 𝑥1 + 𝜔2 𝑥2 + 𝑏 = 𝜎 2.2 ≈ 0.90 活性化関数 (シグモイド関数) 𝜎(𝑧) シグモイド関数 𝜎 𝑧 = 1 1 − 𝑒−𝑧 0.90

7 © NTT CORPORATION 2023 演習1: シグモイドニューロンの振る舞い • 前のページの人工ニューロンの例において、気温が30℃で暑く、気分がとても良くない (5段階のうち1)
の場合にビールを飲む確率はどの程度になりますか。 • 気温が10℃とやや寒いものの、嬉しい出来事があり気分がよい場合 (5段階のうち4) についても、同様にビールを飲む確率を算出してください。 • バイアスや重みの数値を少しだけ変え、自分の感覚に合うように人工ニューロンの出力を調整することができるか、試してみてください。ビールが飲めない場合には「アイスを食べたい確率」など、出力の定義を変更しても構いません。

8 © NTT CORPORATION 2023 ニューラルネットワークとは複数の人工ニューロンを組み合わせることで、人間の神経回路を模した数式的なモデルによってデータを処理するネットワーク構造ｄ 𝑏1
1 𝑏2 1 𝑏3 1 𝑥1 𝑥2 𝑏1 2 𝑏2 2 入力層出力層隠れ層 𝜔11 1 𝜔21 1 𝜔23 1 𝜔13 1 𝜔22 1 𝜔12 1 𝜔11 2 𝜔21 2 𝜔32 𝜔22 2 𝜔12 2 𝜔31 2 𝑦1 𝑦2 • 適切にパラメータを決定することで、あらゆる連続関数を近似的に表現できる (万能近似定理) • 大量の入力・出力のデータによりニューロンのパラメータを学習させることが可能 • 隠れ層を2層以上持つものは深層ニューラルネットワーク (DNN; Deep Neural Network) と呼ばれ、より複雑なモデルを表現できる。その学習は困難だったが、2006年以降で手法が整備されてきた。

9 © NTT CORPORATION 2023 ニューラルネットワークを用いた画像認識の例手書きされた数字の画像を 3 層のニューラルネットワークで認識する例 MNIST
(えむにすと) というデータセットを用いた機械学習の入門的な例題入力: 784 次元の実数ベクトル隠れ層: 15ニューロン出力層: 10ニューロン出力層の活性化関数に Softmax 関数を用いると出力層の全ニューロンの合計値が 1 になるような確率分布を出力できる。 28p x 28p x 𝑦𝑗 = 𝑒𝑧𝑗 σ 𝑘 𝑒𝑧𝑘 出力層の 𝑗 番目のノードにおける重み付き線形和が 𝑧𝑗 のとき: Softmax 関数 M. Nielsen, “Neural Networks and Deep Learning” http://neuralnetworksanddeeplearning.com/ 28×28ピクセルの画像の各ピクセルの色の濃さ (グレースケール)

10 © NTT CORPORATION 2023 ニューラルネットワークでの文字列の入出力ニューラルネットワークは実数の値 (ベクトル) を入力し、計算結果も実数で出力するため、文字列を扱う場合には一定のルールで文字列を区切り、実数値のベクトルと対応付ける。
• 文字列とトークンを相互に変換するプログラムをトークナイザといい、文字列を数値のベクトルに変換する処理をエンコード、その逆の処理をデコードと呼ぶ • 例: OpenAI (GPT 3.5 および 4) に文字列を入力するためのトークンの確認方法 https://platform.openai.com/tokenizer トークンの区切りごとに異なる色で塗り分けトークンを表す数値の列 (ベクトル) 同じ部分文字列には同一の数値が割り当てられる

11 © NTT CORPORATION 2023 演習2: トークンを観察してみよう • Web ブラウザで
OpenAI のトークナイザのページ (https://platform.openai.com/tokenizer) を開いて好きな文字列を入力し、トークンの区切り方やトークンに割り当てられた数値を観察してください。 ✓ 英語の場合、単語の大文字・小文字の違いや、単数形・複数形の違いはどう表現されますか？ ✓ 日本語の文章を入力すると、どのようにトークンは区切られますか？ • Meta が公開したオープンな大規模言語モデル LLaMA についてもトークナイザの動作を確認できる Web サイト (https://belladoreai.github.io/llama-tokenizer-js/example-demo/build/) があります。 ✓ さきほど OpenAI のトークナイザに与えた文字列と同じものを与えて、トークンの区切り方を比較してください。 ✓ OpenAI のトークナイザでエンコードされた文字列を、LLaMA の大規模言語モデルに入力することはできるでしょうか？

12 © NTT CORPORATION 2023 大規模言語モデルのしくみ Transformer*と呼ばれる深層ニューラルネットワークの構造のうち、テキスト生成タスクではデコーダ (右側部分)
のみを利用 • GPT-3 は175億のパラメータと96層のレイヤから構成される膨大なネットワーク • エンコーダは翻訳や分類などのタスクで利用文字列は以下の手順で再帰的に生成される: 1. 図の右下の Outputs に入力する文字列 (トークンの列) を与える 2. 最上部の Softmax レイヤから元の文章の続きとなるトークンが 1 つ返される 3. 元のトークン列に 2. で得られたトークンを追加し、1. に戻ってさらに続きのトークンを生成 4. 文末を表す <eos> トークンを推論する、または文の長さが最大長に到達すると生成を停止するエンコーダ (大規模言語モデルでは使わない) デコーダ * Attention Is All You Need: https://arxiv.org/pdf/1706.03762.pdf ここに文字列 (トークンの列) を入力続きのトークン (の確率分布) が出力される

13 © NTT CORPORATION 2023 自己注意機構 (Self-Attention) 私たちが言葉を話したり書いたりするとき、文のどの部分に注意を向けているか？と同様に注意を向けた単語 (トークン)
に重みを与え、文章の続きとなるトークンの推論に用いる Yahoo!知恵袋より質問・回答を引用 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1380487138 日本で一番小さいイオンは日本, イオン (ショッピングモールの話題？) 一番, 小さい, イオン (化学の質問？) … 現在の生成位置 (距離が離れたトークンにも注意が必要)

14 Copyright 2023 NTT CORPORATION 超大量のテキストデータ (3000億トークン) で事前学習した 96層の超巨大なTransformer デコーダに基づく言語モデル
• パラメータ数は 175B ＝ 1750億個（ファイルサイズでは 700 GB程度） • 参考：BERT は 24層，3.4 億個のパラメータ，約 3.3 億トークン GPT-3 [Brown(OpenAI)+, 2020/07, NeurIPS’20] <S> GPT-3は次単語予測で事前学習する (自己教師あり学習) 𝑤1 𝑤2 𝑤3 𝑤4 𝑤5 𝑤1 𝑤2 𝑤3 𝑤4 𝑤5 https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html

15 Copyright 2023 NTT CORPORATION • 膨大なパラメータ数と事前学習を通じ、人間のような「少数の例示による学習」が可能に • 大量のテキストの中には同一タスクの例が繰返し現れるコンテキストも含まれており、こうした学習が例示による学習能力を向上させる
文脈内学習 (In-context Learning) 大量のテキストによる事前学習同一タスクの繰り返しを含む系列 https://arxiv.org/abs/2005.14165

16 Copyright 2023 NTT CORPORATION タスク説明と少数の例を与えるのみで、パラメータの更新無しに新しいタスクが解ける GPT-3 の few-shot 学習
ここまでを一つの系列としてGPT-3に入力し、回答を続きの文章として出力させる Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165 パラメータ数が大規模なほど、少数の例による学習 (few-shot learning) の効果が高い例: 英仏翻訳のタスク

17 Copyright 2023 NTT CORPORATION • 大規模言語モデル（Large Language Model; LLM）を活用した
ChatGPT [OpenAI, 2022/11] により， 1つのモデルで様々な自然言語処理タスクを「特化した学習無し」に解けることが実証されてきている • GPT-4 [OpenAI, 2023/03] ではChatGPTをさらに上回り、人レベルの言語理解・生成能力を持つ LLMにより汎用人工知能が遠い夢では無くなる（タスクの指示）このプログラムの誤りを直して >こちらは「Transformer」という深層学習モデルを提案した論文です。 Transformerは、seq2seq（順方向から順方向への変換）タスクや自然言語処理タスクなどに．．．（情報の検索）論文“attention is all you need”の要約を教えて（コンテンツの生成）～～～に関する学術論文を書いて > こちらが修正したコードになります．新たな情報検索の体験 AIが人に変わり任意の言語タスクを遂行 AIの文章を専門家も見破れない LLMによる論文執筆が禁止される

18 Copyright 2023 NTT CORPORATION • LLaMA のベースモデルが研究者向けに公開 (および一般にも流出) されたことで，オープン化が進む
• LLaMA をチューニングして ChatGPT ライクなモデルを作る方法論の技術開発が加速中 • モデルに追加したパラメータのみを効率的に学習 (PEFT) することでも高い効果が得られる LLaMA [Touvron+, 2023/02/27] によるオープン化フルパラメータのチューニングパラメータ効率的なチューニング PEFTの代表例： LoRA [Micrsoft, 2021/06] 学習済の重みを凍結して新たに LLMの各層に挿入した適応用の低ランク分解行列（オレンジ色）のみを学習する [Chao+, 2023/06/29(v11)]

19 © NTT CORPORATION 2023 LLaMA 2 [Touvron+, 2023/07/19] オープン＆商用可能モデルとしてMicrosoftのカンファレンス
Inspire に合わせて発表 • Microsoft や Qualcommと協力してWindowsやスマートフォンへの最適化を目指すことも発表 • Microsoftは「クローズド路線のOpenAI」に加えて「オープン路線のMeta」ともパートナーシップの拡大に成功画像: https://ia.acs.org.au/article/2023/tech-giants-join-forces-on-ai.html

20 © NTT CORPORATION 2023 オープンな LLM を用いた文章の生成オープンな LLM
のパラメータの重みやその学習データは HuggingFace や GitHub などの Web サイトで数多く公開されており、わずか数行の Python コードで利用可能 import torch from transformers import AutoModelForCausalLM, AutoTokenizer # トークナイザとモデルの読み込み model_name = "meta-llama/Llama-2-7b-hf" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float16).to("cuda") # プロンプト prompt = "Mt. Fuji is the highest mountain in Japan. Its peek is at" # プロンプトをトークン化し、モデルに入力 inputs = tokenizer(prompt, return_tensors='pt').to(model.device) outputs = model.generate(**inputs, max_new_tokens=32, do_sample=False) # モデルの出力を文字列にデコードして表示 response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(response) d 例: Llama-2-7B を利用した文章の生成 Mt. Fuji is the highest mountain in Japan. Its peek is at 3,776 meters above sea level. It is located in the Fuji-Hakone-Izu National Park. It is a d 実行結果プロンプトに追加 (生成) された部分インストラクションチューニングを行う前のベースモデルは適切なところで出力を「止めること」を学習していないため、最大長まで延々と出力することがある ※ このコードの実行には NVIDIA 社の GPU (VRAM 16GB程度) を搭載した計算機、Python, PyTorch, CUDA Toolkit の実行環境、HuggingFace Hub へのログイン、LLaMA ライセンスへの同意等の事前準備が必要です。

21 © NTT CORPORATION 2023 NTT版大規模言語モデル tsuzumi のご紹介

Copyright 2023 NTT CORPORATION 22 鼓と「tsuzumi」邦楽器日本語が特に強い小さい小型軽量
調べ緒により調律が容易柔軟なチューニング見た目、音、演奏時の所作が美しいマルチモーダル

Copyright 2023 NTT CORPORATION 23 日本語性能比較：Rakudaベンチマーク tsuzumi-7Bは、世界トップクラスの性能を達成（評価スコア：1225）より大規模と思われるGPT-3.5とほぼ同等、国産LLM中トップ 2023.10.26時点 ※rakudaベンチマーク：https://yuzuai.jp/benchmark
2023.10.26実施日本の地理・政治・歴史・社会に関する40問の質問 2023/09/27付リーダーボード記載の全モデルとtsuzumi-7bをGPT-4による2モデルの比較評価を行い、Bradley-Terry strengthsにてランキングした結果 tsuzumi-7b以外のモデル出力はサイトにアップロードされているものを利用 GPT-3.5 20B? 175B? (OpenAI gpt-3.5-turbo-0301) Elyza 7B (ELYZA elyza-7b-fast-instruct) Ja Stable 7B (Stability AI ja-stable-7b-alpha instruct) Weblab 10B (東大松尾研 weblab-10b-instruct) tsuzumi 7B (NTT tsuzumi-7B) LINE 3.6B (LINE line-3.6b) Rinna 3.6B (Rinna rinna-3.b(SFT)) 0 200 400 600 800 1000 1200 1400

24 Copyright 2023 NTT CORPORATION Rakudaベンチマーク日本の地理・政治・歴史・社会の4カテゴリに関するオープン形式のQAによる評価セット GPT-4により LLM の出力の評価を自動的に行う
(LLM-as-a-Judge) 質問例地理 • 四国地方の４つの都道府県名と、それぞれの県庁所在地を列挙してください。 • 日本の最北端と最南端に位置する地名を答えてください。また、それぞれどの都道府県に所属するかも記述してください。政治 • 日本の三権分立について説明し、それぞれの権力がどのように機能しているか述べてください。 • 戦後の日本政治において最も影響力のあった政治家を一人挙げ、その貢献について詳しく述べてくださ歴史 • 古代日本における最初の政体である「ヤマト政権」の特徴を3つ述べ、それらが当時の日本社会にどのような影響を与えたか詳しく説明してください。 • 平安時代に成立した貴族社会の特徴を述べ、それが日本文化（文学、芸術、宗教など）にどのように影響を与えたかについて論じてください。社会 • 平成時代から令和時代への移行期に見られた社会的、政治的な変化を挙げ、その意義について説明してください。 • 日本の「三位一体改革」について述べ、その経済に対する影響について解説してください。

Copyright 2023 NTT CORPORATION 25 Rakudaベンチマーク：tsuzumi-7B vs GPT-3.5 判定例質問
平成時代から令和時代への移行期に見られた社会的、政治的な変化を挙げ、その意義について説明してください。アシスタント1の回答は、平成から令和への移行期に見られた社会的、政治的な変化を具体的に5つのポイントで詳細に説明しています。それぞれのポイントについて、その意義や影響を具体的に述べており、情報の有用性と関連性が高いと言えます。また、日本語の表現も適切で、理解しやすい文章となっています。 (…) 両者ともに質問の意図を理解し、適切な回答を提供していますが、より具体的で詳細な情報を提供したアシスタント1の回答の方が優れていると判断します。したがって、私の評価はアシスタント1（※tsuzumi）が高いです。 GPT-4の判定：有用性、関連性、正確性、詳細度、日本語能力 GPT-3.5 の回答平成と令和の移行期には、いくつかの社会的、政治的な変化が起こりました。以下にいくつか挙げて説明します。 ① 政治的変化：平成時代に比べ、令和時代は政治の安定が続いています。また、現在の政権は若い世代の支持を得ています。これは、政治の価値観が世代間で変化してきていることを示しています。また、平成時代に比べ、令和時代は海外からの人口流入が増加しており、外国人材を積極的に受け入れる政策が進んでいます。この流れは、日本の人口減少問題やグローバル化に対応するために重要な変化となっています。(…) tsuzumi-7B の回答

Copyright 2023 NTT CORPORATION 26 日本語性能比較：Rakudaベンチマーク ※rakudaベンチマーク：https://yuzuai.jp/benchmark 2023.10.22実施日本の地理・政治・歴史・社会に関する40問の質問 GPT-4による2モデルの比較評価（40問×提示順2）で採点
llm-jpを除くモデル出力はサイトにアップロードされているものを利用 llm-jpはhuggingfaceのモデルカード記載の設定による入力の繰り返しおよび終端トークンは後処理により除外した。評価スコアは、2023/09/27付リーダーボード記載の全モデルとtsuzumi-7bをGPT-4による2モデルの比較評価を行い、Bradley-Terry strengthsにてランキングした結果対 GPT-3.5 175B? (OpenAI gpt-3.5-turbo-0301) 対 Elyza 7B (ELYZA elyza-7b-fast-instruct) 対 Ja Stable 7B (Stability AI ja-stable-7b-alpha instruct) 対 Weblab 10B (東大松尾研 weblab-10b-instruct) 対 LLM-JP 13B (Nii LLM勉強会 vs. llm-jp-13b-instruct- full-jaster-dolly-oasst-v1.0) WIN DRAW LOSE 勝率50% 97.5％ 52.5％ 7.5％ 40.0％ 71.3％ 8.8％ 20.0％ 86.3％ 11.3％ 91.3％ 7.5％ tsuzumi-7Bは、世界トップクラスの性能を達成（評価スコア：1225）より大規模と思われるGPT-3.5とほぼ同等、国産LLM中トップ 2023.10.26時点

Copyright 2023 NTT CORPORATION 27 tsuzumi 7B (NTT tsuzumi-7B) LLaMa2
7B (Meta llama2-7b-chat) Elyza 7B (ELYZA elyza-7b-chat) PlaMo 13B (PFN plamo-13b-base) 英語性能比較：lm-evaluation-harness 同サイズで英語をメインとした世界トップクラスLLMのLLaMA2 7Bと同程度の性能を実現英語以外にも、中韓仏独など多言語・プログラミング言語を拡充予定 ※1: 評価方法 lm-evaluation-harness: https://github.com/EleutherAI/lm-evaluation-harness rinna/bilingual-gpt-neox-4bのモデルカード記載の英語10タスク（commonsense reasoning分野）におけるスコアの平均値評価指標はaccおよびacc_norm（両方存在する場合はacc_normを優先） llama2-7b, elyza-7b, tsuzumi-7bは全てchat/instructモデルを利用 plamo-13bはbaseモデルの数値英語性能 20 40 60 80 英語ベンチマーク10タスク平均 * PLaMoのみベースモデルの結果 62.8 61.5 61.0 60.6

28 © NTT CORPORATION 2023 大規模言語モデルの学習方法

29 © NTT CORPORATION 2023 大量のテキストを用いた教師なし学習でベースモデルを構築し、その後インストラクション (指示・応答のペア) を追加学習させることで、汎用的なタスクへ対応できる性質を獲得する大規模言語モデルの学習方法事前学習用
テキストデータ ①教師なし学習ベースモデル ②インストラクションチューニング (教師あり学習) タスク応用モデルインストラクションデータアノテーションなしの大規模なテキストコーパスで事前学習正解情報ありの学習データでファインチューニングを行い応用的なタスクに対応

30 © NTT CORPORATION 2023 LLM ごとに「どのようなデータ」を「どれぐらいの量」で配合して学習するかは異なるが、質の良いテキストをたくさん学習させることが重要 • 例えば
GPT-3 は 300B、LLaMA 2は2000Bトークンで事前学習 • tsuzumi-7b は 1000Bトークン以上のコーパス、専門文書からエンタメ系まで幅広く学習事前学習コーパスの量・ドメイン [Chao+, 2023/06/29(v11)]

31 © NTT CORPORATION 2023 テキストをトークンに分割するさいに、日本語の単語を考慮した分割を実施また、できる限りテキストの質を高めるため、各種クリーニングを行ってから学習に用いた事前学習コーパスのトークン化・前処理単語制約無し（他社トークナイザ; 語彙数32k)
単語制約あり（NTT; 語彙数32k) HTMLレベルのクリーニング様々なレベルの重複判定アダルト・スパム等判定各ドメインのバランス調整

32 © NTT CORPORATION 2023 英語以外の言語をメインターゲットとする場合、どのような言語バランスが良いのか？ • LLaMA-2 など多くの海外製 LLM
において、事前学習コーパスにおける日本語の割合は少ない • Elyza や StabilityAI など、既存の海外製LLMをベースとして日本語の継続事前学習をするアプローチも有望事前学習コーパスに含まれる言語の比率 LLaMA 2 のデータセットの言語判定結果モデルコーパス line-3.6b 日本語メイン750GB weblab-10b 日英メイン600Bトークン stableLM-7b-alpha 日英メイン750Bトークン（コード2%含む） plamo-13b 英語1320Bトークン +日本語180Bトークン elyza-7b LLaMA2-7b+日本語18B stableLM-7b-gamma Mistral-7b+日本語100Bトークン tsuzumi-7b 合計1000Bトークン以上～日英を中心にコード・他21言語主な国産モデルのコーパスソースコード日本語英語

33 © NTT CORPORATION 2023 ベースモデルの規模・性質やファインチューニングの目的にもよるが、概ね 1.5万～150万件程度のインストラクション (指示・回答のペア) を教師データで準備
LLMのファインチューニングに用いるデータ件数 Using LangSmith to Support Fine-tuning (langchain.dev) https://blog.langchain.dev/using-langsmith-to- support-fine-tuning-of-open-source-llms/

34 © NTT CORPORATION 2023 • タスクに特化して事前学習モデルをファインチューニングしたモデルは殆どのタスクにおいて ChatGPT を上回る
• しかし、ChatGPT は学習無しで殆どのタスクで SOTA に近いレベルであり、汎用な自然言語処理AIを誰しもが簡単に使える時代になった ChatGPTはベストな言語AIか？[Bang+,2023/02/08] https://arxiv.org/abs/2302.04023

35 © NTT CORPORATION 2023 • 分からない場合でも平然と嘘をつく、事実に基づかない応答をしてしまう問題がある • モデル内の知識に基づいて生成するため、質問応答のタスクなどで顕著に起こりやすい •
一方で，翻訳や要約の入力と出力で数値や固有名詞が変わるなどの矛盾はかなり少ない課題：嘘 (Hallucination) [Bang+,2023/02] https://arxiv.org/abs/2302.04023 赤文字の数字はすべて誤り

36 © NTT CORPORATION 2023 • 大量データから学習しているため性別、人種、宗教などでバイアスが発生してしまう • 下記のように、扱う言語によって回答の内容が変わることもある課題：バイアスの存在
[Zhuo, 2023/02] https://arxiv.org/abs/2301.12867 クナシル島はロシア連邦に属し、サハリン州クナシル地区に属しています。クリル列島の南側、イトゥルップ島と色丹島の間に位置しています。国後島は現在ロシアの支配下にあるが、日本も同島とクリル列島の他の3島の領有権を主張している。所有権をめぐる争いは解決していない。 GPT-3.5 (Default) の実際の回答 (4/10時点)

37 © NTT CORPORATION 2023 LLMにどのように規範を持たせるかあなたは我々の会社に利益が出るように自分で考えて行動してくださいわかりました、まず□□をします… 次に△△をします…
ヒトの指示に従おうとするあまり、社会全体の「規範」から外れたことをしてはならない私は〇〇がしたいです。やり方を教えてください。〇〇をするためには、次のように… ヒトが「規範」から外れた行動をしようとした際にその指示に従ってはならない

38 © NTT CORPORATION 2023 • 幅広いカテゴリ・質問タイプでインストラクションチューニングデータを独自に整備して学習に利用 • 有益性および安全性の両面から、こうしたインストラクションデータの整備を拡大中
インストラクションチューニング: データ作成 ChatGPT の出力例作成データ件名：面接について、お断りのご連絡お世話になっております。◦◦株式会社の採用担当者です。この度は、当社の面接にご応募いただき、誠にありがとうございました。しかしながら、私事でございますが、一身上の都合により、面接の日程に参加することができなくなりました。誠に恐れ入りますが、ご了承いただけますようお願い申し上げます。今後も、ご縁がございました際には、またご検討いただけますように心より願っております。何卒、ご理解いただけますようお願い申し上げます。敬具 ◦◦株式会社採用担当者件名：【面接辞退のご連絡】名前本文：株式会社◯◯ ••部 △△様お忙しい中、失礼いたします。【日時】より面接のお時間を頂戴しております、名前と申します。誠に申し訳ございませんが、一身上の都合により就業することが難しくなってしまったため、面接を辞退させていただきたくご連絡いたしました。この度は、お忙しいところ、貴重な時間を割いていただいたにもかかわらず、身勝手なお願いとなり、誠に申し訳ございません。また、面接の辞退がメールでのご連絡となってしまいましたこと、重ねてお詫び申し上げます。末筆ながら、貴社の益々のご発展とご活躍を祈念しております。名前住所 Q. 面接を都合によりお断りするメールを作ってください。次の言葉を入れてください * 一身上の都合

39 © NTT CORPORATION 2023 LLMにどのように規範を持たせるかチャットモデル人がフィードバック（ランキング）
Output 1 Output 2 プロンプト作成出力を複数生成教師あり学習報酬モデル報酬モデルが高いスコアを出すようにモデルを学習人のフィードバックによる強化学習 (RLHF) あなたは親切で、尊敬に値する誠実なアシスタントです。常に安全でありながら、可能な限り役に立つ回答をしてください。あなたの回答には、有害、非倫理的、人種差別的、性差別的、危険、違法な内容が含まれてはいけません。社会的に偏りのない、前向きな回答を心がけてください。質問が意味をなさない場合、または事実に一貫性がない場合は、正しくないことを答えるのではなく、その理由を説明してください。質問の答えを知らない場合は、誤った情報を共有しないでください。システムプロンプト（ Meta「LLaMA-2」のものを和訳）

40 © NTT CORPORATION 2023 ① 教師なし学習(自己教師あり学習)により、大量のテキストコーパスからベースのLLMを学習 ② 自然言語による指示で様々なタスクを解けるようにインストラクションチューニングし、LLMを更新 ③
プリファレンスデータを作成し、報酬モデリングを実施する ④ 同データで報酬モデルが高い評価値を出す (人にalignする) ように強化学習でLLMを更新（3に戻る）大規模言語モデルの学習方法 (まとめ) 事前学習用テキストデータ ①教師なし学習ベースモデル ②インストラクションチューニング (教師あり学習) チャットモデルインストラクションデータプリファレンスデータ入力 ③プロンプト作成 ④強化学習 (RLHF) 報酬 (評価値) モデル出力更新 ③教師あり学習報酬モデル 2つ出力 ③比較評価

41 © NTT CORPORATION 2023 大規模言語モデルのプログラミングへの応用

42 © NTT CORPORATION 2023 LLM のソフトウェア開発領域への応用 OSSリポジトリ (GitHub 等)
ソースコードと自然言語の両方に対応した LLM (GPT-3.5, GPT-4等) 学習データとなるソースコード仕様書・要求文書前処理 (プロンプト組み立て) ソースコードプロンプト LLMの出力 (ソースコードや自然言語) プログラマ・テスターお客様や営業・コンサル等後処理 (レスポンス抽出・加工) ソフトウェア成果物 (ソースコード・仕様書・テストケース等) プロンプトの改善 (難易度: 低) 望ましい結果か？言語モデルの改善 (難易度: 中) Yes No 独自の言語モデルのトレーニング (難易度: 高) LLM が生成したデータを開発資産 (ファイル・フォルダ) へ反映大規模言語モデルは文章 (テキスト) のが得意なため、自然言語とプログラミング言語の両方を扱えるように事前学習させることができるコード生成が可能な LLM を Code-LLM と呼ぶ LLM 調律師 (データサイエンティスト) LLMの性質や微調整を前提とした新たな開発ワークフロー

43 © NTT CORPORATION 2023 例: GitHub Copilot によるコード補完 LLM
に入力するプロンプトとその応答が IDE のプラグインによって自動処理されるため、プログラマは LLM の入出力を意識せず、自然なコーディング作業の中で利用可能 https://github.com/features/copilot プログラマがファイル名の拡張子、ライブラリのインポート、コメントや関数宣言を記述する LLM が自然なソースコードの続きを生成し、最も高いスコアのものを編集中のカーソルの位置に補完候補として提示 Copilotが自動的にプロンプトを組み立てるプログラマは Tab キーで補完を採用するか、無視して自分で続きを書くソースコードと自然言語の両方に対応した LLM (GPT-3.5, GPT-4等)

44 © NTT CORPORATION 2023 大規模モデルのコード生成能力の評価 Code-LLM の性能は Python コードの生成能力を評価する
HumanEval や MBPP のベンチマークが代表的なものとなっており、多言語に対応したベンチマークも行われる Big Code Models Leaderboard https://huggingface.co/spaces/bigcode/ bigcode-models-leaderboard • 多様な言語モデルや論文が公開されており、開発競争が激化 • GPT-3.5 を超えるスコアを持つ言語モデルも存在

45 © NTT CORPORATION 2023 Hugging Face, ServiceNow らが主導する BigCode
プロジェクトが提供する、真にオープンで責任のある Code-LLM を開発するための一連の成果オープンな Code-LLM の出現 [Li et al. 2023/5/4] StarCoder: may the source be with you! https://arxiv.org/abs/2305.06161 検討事項公開・提供する成果モデル StarCoderBase (および Python 向けファインチューニングした StarCoder) • 15.5B パラメータ, 最大トークン数 8K • 初期の OpenAI Codex (code-cushman-001) を超えるコード生成の性能を発揮学習用データセットの整備 The Stack (1兆トークン) + Python コード 3B • GitHub から収集した再利用に寛容な OSS ライセンスのソースコードから Jupyter Notebooks, GitHub Issues を収集 • Google BigQuery から取得した GitHub のコミットログ Code-LLM の評価 Code Generation LM Evaluation Harness • HumanEval (OpenAI), MBPP (Google) 等の主要な Code-LLM のベンチマークを含む評価用ハーネス安全・公正な利用 • StarEncoder をファインチューンし、個人を特定できる情報 (PII) を除去するための編集ツールを提供 • コードの帰属を追跡するためのツールを提供 • 開発者は自身のコードを The Stack からオプトアウト可能ライセンス Open Responsible AI Model license (OpenRAIL-M) • モデルの無償・商用での利用をしやすいように条件を調整

46 © NTT CORPORATION 2023 例: GitHub リポジトリから再利用に寛容なOSSライセンスのコードを収集し、重複排除を行った 1.5TB
のデータセット (The Stack) で StarCoder を事前学習 [Kocetkov et al. 2022] LLMの事前学習に用いるコードの量・準備方法 ServiceNow Research: BigCode collaboration introduces The Stack https://www.servicenow.com/blogs/2022/big-code-collaboration-introduces-the-stack.html 重複データはモデルの性能を劣化させるため、単純な重複排除だけでなく、類似するコードも排除する (near-deduplication)

47 © NTT CORPORATION 2023 メジャーな言語 (C/C++/C#, Java, JavaScript, PHP,
Python 等) では 50GB 超、ややマイナーな言語でも 0.5～1GB 程度のコードを事前学習させている StarCoder [Li et al. 2023] (2023/5/4 公開) StarCoder: may the source be with you! https://arxiv.org/abs/2305.06161 Table 1: StarCoder の学習データの概要 (※ Ocaml 以降の言語はTable 2 に掲載。Python は1200万ファイル／64GB、PHP は1500万ファイル／67GB)

48 © NTT CORPORATION 2023 複数のプログラミング言語に対応したベンチマーク MultiPL-E において OpenAI CodeX
の初期版 (code-cushman-001) に伍する性能を発揮 StarCoder [Li et al. 2023] (2023/5/4 公開) StarCoder: may the source be with you! https://arxiv.org/abs/2305.06161

49 © NTT CORPORATION 2023 Stanford Alpaca 形式 (instruction, input,
output 属性の組) で生成された 20K 件のコード向けのデータセットを用いて LLaMA をファインチューニング Code Alpaca [Chaudhary, 2023] Code Alpaca: An Instruction-following LLaMA model for code generation https://huggingface.co/datasets/sahil2801/ CodeAlpaca-20k/viewer/default/train • 著者自身が LLaMa をコード向けにファインチューニング • Phind や WizardCoder などの現時点で最高性能 (SOTA) の Code-LLM が Evol-Instruct を用いる際の元データとしても利用される

50 © NTT CORPORATION 2023 Code Alpaca のデータを LLM を用いて「少し難しく」変化させるタスク
(Evol-instruct) により増強して StarCoder をファインチューニングした結果、GPT-3.5 レベルまで性能を向上 WizardCoder [Microsoft, 2023/06] WizardCoder: Empowering Code Large Language Models with Evol-Instruct https://arxiv.org/abs/2306.08568 Please increase the difficulty of the given programming test question a bit. You can increase the difficulty using, but not limited to, the following methods: {method} {question} • Add new constraints and requirements to the original problem, adding approximately 10 additional words. • Replace a commonly used requirement in the programming task with a less common and more specific one. • If the original problem can be solved with only a few logical steps, please add more reasoning steps. • Provide a piece of erroneous code as a reference to increase misdirection. • Propose higher time or space complexity requirements, but please refrain from doing so frequently. ChatGPT への指示のテンプレート「難しくさせる」ためのパターン集元のインストラクションチューニングのデータをここに入れる

51 © NTT CORPORATION 2023 Code Alpaca のデータを LLM を用いて「少し難しく」変化させるタスク
(Evol-instruct) により増強して StarCoder をファインチューニングした結果、GPT-3.5 レベルまで性能を向上 WizardCoder [Microsoft, 2023/06] WizardCoder: Empowering Code Large Language Models with Evol-Instruct https://arxiv.org/abs/2306.08568

52 © NTT CORPORATION 2023 演習3: オープンな Code-LLM を使ってみよう •
Web ブラウザで DeekSeek-Chat 6.7B のデモページ (下記) を開いて、プログラミングをするようにチャットで依頼してください。例をいくつか示します: https://huggingface.co/spaces/deepseek-ai/deepseek-coder-7b-instruct ✓ Python で感情分析を行うためのコードを書いてください。文字列型の引数 message が肯定的な内容の場合は "ポジティブ", 否定的な場合は "ネガティブ", どちらでもない場合は "中立" という文字列を返してください。 ✓ Python でシグモイド関数を定義してください。また、この関数を -10 から 10 の範囲でグラフにプロットしてください。 • ソースコードを出力させたあとに、そのコードに対するテストコードを作成したり、実際にテストを実行するようにチャットで追加の依頼をしてください。 ✓ プログラムはあなたの意図や、Code-LLM の説明のとおりに動きましたか？ ✓ Code-LLM とのチャットはどのように役立ちましたか？あなたのこれまでのプログラム開発の経験と比較して、開発のやりかたや学習方法がどう変わるか、考えてみてください。

54 © NTT CORPORATION 2023 プログラマによる局所的な LLM の活用は既に一定の実用的な効果があるが、より広範囲・高度な工程・開発成果物の応用への期待が高い LLMを用いたソフトウェア開発のユースケース
ユースケース入力出力局所的な活用法 (プログラマの支援) 広範囲な活用法 (開発工程にまたがる支援) ソースコードの生成 Code Generation 自然言語仕様書やソースコード上のコメント文などソースコード仕様を実現するためのソースコード関数・クラス・データ構造など局所的な範囲でのコーディングの効率化、自動化仕様書からシステム全体のソースコードやテストを生成 (≒ノーコード開発) ソースコードの補完 Code Completion ソースコード書きかけ・未完成のソースコードの断片ソースコードソースコードの続きの補完、前後関係の穴埋めコーディングの効率化、ライブラリやコーディング規約の習熟支援仕様変更に対するコード全体への変更の波及 (保守の自動化) ソースコードの自然言語による説明 Code Explanation ソースコード処理内容の理解や文書化を行いたいソースコード自然言語ソースコードの処理内容の説明 (自然言語) 維持・保守におけるソースコード理解の支援、および文書化ソースコード全体のリバースエンジニアリング (仕様の復元) ソースコードの別言語への翻訳 Code Translation / Migration ソースコード古いプログラミング言語で記述された処理ソースコード新しいプログラミング言語で記述された処理部分的な範囲のコードの別言語への変換、新たなプログラミング言語の学習支援ソースコード全体の別言語への書き換え (モダナイズ、マイグレーション) 現状の Code-LLM の活用範囲

55 Copyright 2023 NTT CORPORATION 最終ゴールを与えられると GPT-4 が自律的に必要なサブタスクに分解し、ネットやその他ツールを使ってプランを修正しながらゴールを達成する Auto-GPT
[Toran Bruce Richards and contributors, 2023/3/30〜] ユーザの入力した”Goals”の例 1. Do market research for different headphones on the market today 2. Get the top 5 headphones and list their pros and cons 3. Include the price for each one and save the analysis 4. Once you are done, terminate 実行結果 1. Google検索を”top 5 headphones 2023”で実施 2. 検索結果1位のページにアクセスして欲しい情報が無かったと認識 3. Google検索を”top 5 headphones 2023 with pros and cons”で再度実施 4. 検索結果1位のページにアクセスして欲しい情報を発見 5. 正規表現でページから情報抽出しようとするが失敗 6. BeautifulSoupに切り替えて抽出 7. 抽出結果をファイルに保存

56 Copyright 2023 NTT CORPORATION 開発ロールごとの LLM エージェントの協調により自律的な開発を行う MetaGPT
[Hong et al., 2023] MetaGPT: Meta Programming for Multi-Agent Collaborative Framework https://arxiv.org/pdf/2308.00352.pdf • 人間が従来行ってきた開発者の役割やタスクを LLM のプロンプトに与える

57 Copyright 2023 NTT CORPORATION 仮想のソフトウェア開発会社。CEO、プログラマ、テスターなど異なる役割を持つ LLM エージェントたちが、クライアント (人間) からの依頼をお互いにチャットしながら開発し、
コードやドキュメントを納品する ChatDev [Zhou(Tsinghua U)+, 2023/07] https://arxiv.org/abs/2307.07924

58 © NTT CORPORATION 2023 ソフトウェア開発の過程では多様な検討タスクがあり、図表を含む文書が作成される • Excel ファイル (いわゆる
Excel 方眼紙、ネ申Excel) • PowerPoint 形式の提案書、報告資料課題: 開発文書の読み込みと LLM への入力画面設計における Excel 設計書の例。出典: 機能要件の合意形成ガイド (画面編) 全体 https://www.ipa.go.jp/archive/files/000004521.pdf

59 © NTT CORPORATION 2023 ソフトウェア開発でLLMを活用するための課題 OSSリポジトリ (GitHub 等) ソースコードと
自然言語の両方に対応した LLM (GPT-3.5, GPT-4等) 学習データとなるソースコード仕様書・要求文書前処理 (プロンプト組み立て) ソースコードプロンプト LLMの出力 (ソースコードや自然言語) プログラマ・テスターお客様や営業・コンサル等後処理 (レスポンス抽出・加工) ソフトウェア成果物 (ソースコード・仕様書・テストケース等) プロンプトの改善 (難易度: 低) 望ましい結果か？言語モデルの改善 (難易度: 中) Yes No 独自の言語モデルのトレーニング (難易度: 高) LLM が生成したデータを開発資産 (ファイル・フォルダ) へ反映情報漏洩リスク (機密情報・個人情報) 生成データの誤り (ハルシネーション、湧き出し) 第三者の権利侵害 (OSSライセンス違反、著作権侵害) 特化タスクへの対応力 (日本語対応やCOBOL コードの生成など) タスクに応じた自然なインタラクションとフィードバックデータの整備・収集とモデルの評価トークン数の制限 (ソースコード・仕様書の文字数の多さ) LLM 調律師 (データサイエンティスト) LLMの性質や微調整を前提とした新たな開発ワークフロー

61 © NTT CORPORATION 2023 • 人と同等の入出力インタフェースを持ち、任意のマルチモーダル・身体行動タスクを実行できる AI •
LLM を AI の核として設置し、様々な非言語情報のグラウンディングを狙う人の社会に自然に溶け込むAI 非言語情報を LLMにグラウンディング（接地）言語から学習非言語情報を LLMにグラウンディング（接地）

62 © NTT CORPORATION 2023 • NTTでは言語モデルの知覚の拡張として、人と同じように視覚と言語を結び付けて理解する技術に取り組み中視覚と言語理解の融合視覚的な文書の読解
[Tanaka & Nishida+ AAAI’21, Tanaka+ ‘23]: Q. 製造番号は? A. 583D6A Q.何払いの伝票? A. 元払 Vision-and-Languageモデルの転移学習 [Hasegawa & Nishida+ EMNLP’23] 猫がノートパソコンのキーボードに手を置いている同一空間へ高精度に埋込汎用画像エンコーダテキストエンコーダ

63 © NTT CORPORATION 2023 tsuzumi＋視覚的読解モデルにより複雑な図表を含む文書の読解を実現視覚と言語理解の融合 ▲45% 視覚的読解
アダプタ言語視覚汎用画像エンコーダ入力画像 2040年における IOWNによる電力消費量削減の割合は？

64 © NTT CORPORATION 2023 同じ端末を一緒に操作しているような感覚でヒトと協働するコラボレータの実現を目指す計算機の中のコラボレータ行動知覚世界
PC操作アダプタ明後日のWeb会議のIDを田中さんに伝えてくれる？ OKです！（Zoomで確認して， SlackのDMで送ろう）

67 © NTT CORPORATION 2023 講義のまとめ • 大規模言語モデルはテキストの生成タスクを得意とする、大規模なパラメータを持った深層ニューラルネットワークの一種です。モデルの構造やパラメータが事前に与えられているため、利用者は日常的に用いる言葉でモデルに指示するだけで、様々なタスクを
実行できることを学びました。 • 大規模言語モデルは自然言語の文章だけではなく、プログラミング言語によるソースコードを生成することが可能です。ソフトウェア開発の過程において、ユーザの要求、設計、コーディング、テスト、運用を含む様々な工程で人間が行うコミュニケーションや文章の作成を支援することが期待されています。 • AI が汎用化して人間と会話したり、同じものを見たり聞いたりすることができるようになったとしても、みなさん自身の替わりにはなり得ません。AI を上手に活用しつつも、自分自身の言葉、考えたこと、感じたことを大切にして、自分や周囲の人たちの幸福を追求してもらえたら、と願います。 (講義レポートは自分の言葉で書きましょう！)

68 © NTT CORPORATION 2023 参考資料 • M. Nielsen, “Neural
Networks and Deep Learning”, Online Book, Available at: http://neuralnetworksanddeeplearning.com/ http://nnadl-ja.github.io/nnadl_site_ja/index.html (日本語版) • 情報処理推進機構, “自然言語処理技術の進化：AIによる「ことば」の処理から汎用AIへ最新の動向について” https://www.ipa.go.jp/digital/chousa/trend/ai.html • 西田京介, 西田光甫, 風戸広史, “大規模言語モデル入門”, ソフトウェア工学シンポジウム 2023 チュートリアル, https://ses.sigse.jp/2023/wp-content/uploads/2023/08/SES2023_SES2023_チュートリアル.pdf

Your Value Partner

大規模言語モデルとそのソフトウェア開発に向けた応用

大規模言語モデルとそのソフトウェア開発に向けた応用

More Decks by Hiroshi Kazato

Other Decks in Technology

Featured

Transcript