Upgrade to Pro — share decks privately, control downloads, hide ads and more …

情報処理学会関西支部2024年度定期講演会「自然言語処理と大規模言語モデルの基礎」

Katsuhito Sudoh
November 20, 2024

 情報処理学会関西支部2024年度定期講演会「自然言語処理と大規模言語モデルの基礎」

2024-11-21 開催の情報処理学会関西支部2024年度定期講演会『大規模言語モデルと健康・医療・ウェルビーイングへの応用』でお話した内容です。
(講演中に気づいた誤りを修正しています)

Katsuhito Sudoh

November 20, 2024
Tweet

More Decks by Katsuhito Sudoh

Other Decks in Research

Transcript

  1. 本⽇の内容 • ⾃然⾔語処理や⼤規模⾔語モデルはみんなの役に⽴つ! • という話の前座を務めます(基礎的なことがらの説明) • 須藤パートの⼤きな流れ 1. ⾃然⾔語処理とは 2.

    ⾔語モデルとは 3. ⼤規模⾔語モデルに⾄る流れ 4. ⼤規模⾔語モデルとは 3 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  2. ⾃然⾔語処理の役割 • ⾃然⾔語を解析する • ことばがどう組み上げられているか? • 形態素解析,構⽂解析,… • ⾃然⾔語を操る •

    ことばをどう活⽤するか? • ⽂書分類,翻訳,要約,⽣成,… 5 外国 | ⼈参 | 政権 名詞 名詞 名詞 He saw the girl with a telescope NP NP PP VP VP S 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  3. 分類:あらゆる処理の基本 ⽂書分類 外国 ⼈ 参政 権 外国 ⼈参 政権 昨⽇

    本 を 買っ た 名詞:⼀般 接尾辞:助数詞 形態素解析 出典 https://twitter.com/nkmr_aki/status/1030799586737020930 構⽂解析 6 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  4. 系列の分類 • 系列全体の分類 • 系列要素の分類 (系列ラベリング) 7 村⼭富市⾸相は年頭にあたり内閣 記者会内閣記者会と⼆⼗⼋⽇会⾒ し、社会党の新⺠主連合所属議員

    の離党問題について「政権に… 昨⽇ 本 を 買っ た 名詞 (副詞可能) 名詞 (⼀般) 助詞 (格助詞) 動詞 (⼀般) [五段‧連⽤形] 助動詞 [終⽌形] 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  5. 何を理由に分類するか? • 素性(特徴量) • 「⾸相」「衆院」→ 政治 • 頻度(外国→⼈)>頻度(外国→⼈参) • 接尾辞:助数詞

    の前は 名詞:数 • 頻度(頭が⾚い→猫)≶頻度(頭が⾚い→⿂) • 様々な情報から判断する • どんな素性を使えば良いか?各素性の優先順は? 8 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  6. 系列変換の例:翻訳&要約 • ⼊⼒を変換した結果としての出⼒を予測 • sequence-to-sequence (seq2seq) と呼ぶ系統の問題 9 彼は尻尾の⻑い黒い猫を⾒た。 He

    saw a black cat with a long tail. 近年,⼈⼯知能に注⽬が集まっています.⼈⼯知能技術の⼀つとして,私たち⼈間が普段使って いる⾔葉を機械で扱う技術,すなわち⾃然⾔語処理技術もさまざまな応⽤が期待されています. 世の中には⾃然⾔語で書かれたデータが⾮常に多く存在する上,⼈間と機械のインタフェースに も⾃然⾔語を⽤いることができます.⾃然⾔語処理技術は,新たな製品やサービスを⽣み出した り,業務の効率化を⾏ったりすることにつながり,ビジネスに⼤きく貢献すると考えられますが, まだ幅広く活⽤されているとは⾔えないのが現状です. 近年注⽬される⼈⼯知能の⼀つである⾃然⾔語処理 技術は様々な応⽤でビジネスに貢献できるものだが, まだ幅広くは活⽤されていない。 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  7. 系列予測は分類の繰り返し 彼は尻尾の⻑い黒い猫を⾒た。 He saw a black cat with a long

    tail. ⽂頭 I I I … I he he he … he am am am … am is is is … is saw saw saw … saw a a a … a the the the … the black black black … black … … … … … ⽂末 ⽂末 ⽂末 … ⽂末 10 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  8. ⾔語モデル (Language Model; LM) 12 𝑃 𝑊 = $ !"#

    $ 𝑃 𝑤! 𝑤%! ① 𝑡番⽬の単語はそれ以前の単語列 (前⽅⽂脈)で確率的に決まる ②⽂の確率は先頭から順に単語の 確率を掛け合わせて得られる ※⽂の⽣成確率を計算できるモデルが狭義の「⾔語モデル」で、 その他の「ことばのモデル」は本来LMとは呼ばない 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  9. 単語Nグラムモデル • 直前N-1個の単語で前⽅⽂脈を近似する 𝑃 𝑊 = $ !"# $ 𝑃

    𝑤! 𝑤!&# , 𝑤!&' , … , 𝑤!&()# • ゼロ頻度問題 → スムージング(詳細は割愛) • あらゆる 𝑤!"#$% , … , 𝑤! (語彙サイズ 𝑉 に対して 𝑉# の異なり順 列)を事前に観測しておくことは不可能 • ⾔語的にありえない組み合わせも多数存在 13 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  10. 系列予測は分類の繰り返し 彼は尻尾の⻑い黒い猫を⾒た。 He saw a black cat with a long

    tail. ⽂頭 I I I … I he he he … he am am am … am is is is … is saw saw saw … saw a a a … a the the the … the black black black … black … … … … … ⽂末 ⽂末 ⽂末 … ⽂末 14 各ステップで単語Nグラムモ デルから 直前N-1個の単語の条件付き 確率分布として 単語の確率分布を得る 𝑃 𝑤! = 𝑣& 𝑤!"% , 𝑤!"' , … , 𝑤!"#$% 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  11. ニューラル⾔語モデル He left the car in the parking lot 𝑃

    He ⽂頭 𝑃 left ⽂頭, He 𝑃 parking ⽂頭, He,left,the,car,in,the 15 Recurrent Neural Network (RNN) (回帰型ニューラルネットワーク) 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  12. 系列予測は分類の繰り返し 彼は尻尾の⻑い黒い猫を⾒た。 He saw a black cat with a long

    tail. ⽂頭 I I I … I he he he … he am am am … am is is is … is saw saw saw … saw a a a … a the the the … the black black black … black … … … … … ⽂末 ⽂末 ⽂末 … ⽂末 17 各ステップでの出⼒層で 語彙サイズ数 (𝑉) 次元の ベクトルが得られる ↓ softmaxで正規化し 各単語の⽣成確率とする 𝑃 𝑤! = 𝑣& 𝑤(! = 𝑒) 𝑤! = 𝑣& 𝑤(! ∑ *+, - 𝑒) 𝑤! = 𝑣* 𝑤(! 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  13. ニューラル機械翻訳 (NMT) He left the car in the parking lot

    彼は 駐⾞場 に ⾞を 置いてきた 読んで記憶する ニューラルネットワーク (エンコーダ) 別の⾔語で⾔い換える ニューラルネットワーク (デコーダ) 20 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  14. なぜNMTが“翻訳”できるのか? He left the car in the parking lot 彼は

    駐⾞場 に ⾞を 置いてきた 21 ②読んだ記憶を 細かく残す ①多次元空間中 の点として 記憶する ③局所化した記 憶を選択的に参 照する ④記憶に最も合 致する ことばを選ぶ ⑤所与の条件でよ く出ることばの並 びを選ぶ 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  15. 注意機構 • 注意 (attention) 22 He left the car in

    the parking lot 彼 は 駐⾞場 に ⾞ を 置いてきた ⼀つのベクトルで全部 記憶させるのは難しい 各ステップで必要なベクトルを 重み付きで混合して利⽤ 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  16. サブワード • 単語よりも短い単位による表現例: • extraordinary → ex/tra/ord/ina/ry • 作り⽅ •

    バイト対符号化(データ圧縮の技術) • 統計モデル • 利点: 語彙サイズ縮⼩, 低頻度語‧未知語減少 • 計算量が減り、品詞や活⽤の変化に対応しやすい • ⽋点: 不⾃然な分割‧結合 23 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  17. Transformer • 回帰構造を排したモデル • 直列→並列、並列化で⾼速に • ⾃⼰注視で周囲の情報を取得 • 位置情報は符号化して与える 24

    単語 ベクトル 単語 ベクトル 単語 ベクトル John runs . 単語 ベクトル 単語 ベクトル 単語 ベクトル <start> ジョン が 位置依存 単語ベクトル 位置依存 単語ベクトル 位置依存 単語ベクトル 位置エンコーディング 正規化 複数ヘッド ⾃⼰注視 正規化 FFNN 正規化 複数ヘッド ⾃⼰注視 正規化 FFNN 正規化 複数ヘッド ⾃⼰注視 正規化 FFNN N層 位置依存 単語ベクトル 位置依存 単語ベクトル 位置エンコーディング 正規化 複数ヘッド ⾃⼰注視 正規化 FFNN N層 複数ヘッド クロス注視 正規化 正規化 複数ヘッド ⾃⼰注視 正規化 FFNN 複数ヘッド クロス注視 正規化 ジョン が 須藤, ニューラル機械翻訳の進展 ─系列変換モデルの進化とその応⽤─ ⼈⼯知能学会誌 Vo.34, No.4 これ は 機械 翻訳 です 1 2 3 4 5 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  18. BERTによる⾃然⾔語処理タスクの解き⽅ 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」 27 予測 (スコアやクラス) [CLS] C

    T1 T2 T3 T4 BERT (Transformerのエンコーダ) sentence [CLS] C T1 T2 T3 T4 BERT (Transformerのエンコーダ) sentence 予測 (ラベルやスパン) ⽂書分類など 構⽂解析など
  19. ⼤規模テキストによる事前学習の重要性 • 様々な⾃然⾔語処理タスクの性能が⼤きく向上した • マスク⾔語モデル (+α) の事前学習 • ただし学習データ(⽣のテキスト)量は膨⼤ •

    所望タスクのデータによる追加学習(ファインチューニング) • 従来の⽂書分類や構⽂解析のデータ(⽣テキストに⽐べれば極少) • BERTはエンコーダ(特徴抽出)のみだが、エンコーダと デコーダを持つ系列変換モデルの事前学習も流⾏ • BART: ノイズ除去学習(マスク⾔語モデルと類似) • T5: マスク除去と各種系列変換タスクによる事前学習 28 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  20. 要は⾔語モデルのバケモノ • ⼤規模なTransformerを⽤いたニューラル⾔語モデル • 積み上げる層の数を増やす • ベクトルの次元数を増やす • それだけといえばそれだけ •

    ただし学習データ量が莫⼤ • 学習コスト(電気代)も莫⼤ • 装置コスト(GPU代)も莫⼤ 30 単語 ベクトル 単語 ベクトル 単語 ベクトル John runs . 単語 ベクトル 単語 ベクトル 単語 ベクトル <start> ジョン が 位置依存 単語ベクトル 位置依存 単語ベクトル 位置依存 単語ベクトル 位置エンコーディング 正規化 複数ヘッド ⾃⼰注視 正規化 FFNN 正規化 複数ヘッド ⾃⼰注視 正規化 FFNN 正規化 複数ヘッド ⾃⼰注視 正規化 FFNN N層 位置依存 単語ベクトル 位置依存 単語ベクトル 位置エンコーディング 正規化 複数ヘッド ⾃⼰注視 正規化 FFNN N層 複数ヘッド クロス注視 正規化 正規化 複数ヘッド ⾃⼰注視 正規化 FFNN 複数ヘッド クロス注視 正規化 ジョン が 須藤, ニューラル機械翻訳の進展 ─系列変換モデルの進化とその応⽤─ ⼈⼯知能学会誌 Vo.34, No.4 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  21. スケーリング則 (Scaling Law) • 計算量‧データ量‧パラメータ数を指数的に増やせば⾔語 モデルの性能(単語予測性能)は向上する 31 Dataset Size tokens

    Parameters non-embedding Compute PF-days, non-embedding Test Loss Figure 1 Language modeling performance improves smoothly as we increase the model size, datasetset size, and amount of compute2 used for training. For optimal performance all three factors must be scaled up in tandem. Empirical performance has a power-law relationship with each individual factor when not bottlenecked by the other two. 出典: Kaplan et al., Scaling Laws for Neural Language Models, arXiv preprint 2001.08361 (2020) 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  22. GPT-3 (GPT-2以前の説明は割愛) 出典: T. B. Brown et al., Language Models

    are Few-Shot Learners, Proc. NeurIPS 2020 (タスク記述) Translate English to French (プロンプト) cheeze => (タスク記述) Translate English to French (実例) sea otter => loutre de mer (プロンプト) cheeze => (タスク記述) Translate English to French (実例) sea otter => loutre de mer peppermint => menthe poivrée plush girafe => girafe peluche (プロンプト) cheeze => Zero-shot (実例なし) One-shot (単⼀実例) Few-shot (少数実例) 32 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  23. InstructGPT • GPT-3を追加学習 • ⼈間が作成した指⽰(プロンプト)と応答のペアから学習 • 適当なプロンプトに対する応答を⼈間がランク付けし、「何が 良い応答か」を測る尺度(報酬; reward)を学習 •

    報酬に基づく強化学習(reinforcement learning) • もう⼈間が正解を与える必要はない (cf. AlphaGo) 33 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  24. ChatGPT (GPT-3.5+InstructGPT+α ) • ⾮常に多くの問題が zero-shot で解ける • 前⽅⽂脈を約4000トークン(⽂字と単語の間の単位)分利⽤で きるので、対話応答や⻑い⽂章の出⼒も可能

    • ただモデル⾃体は「⾔語モデルのバケモノ」のまま • InstructGPTにより様々な要求に対応できるように変化 34 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  25. GPTシリーズの進化 GPT-1 GPT-2 GPT-3 GPT-4 発表時期 2018.6 2019.2 2020.5 2023.3

    パラメータ数 1.2億 15億 1,750億 ??? データ量 4.5GB 40GB 570GB ??? 36 現在はマルチモーダルモデルの GPT-4o や 応答前に思考(システム内部で思考過程を⽣成)するOpenAI o1も 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  26. 様々なサービスや公開モデル • テキスト系⽣成AIサービス • OpenAI: ChatGPT • Google: Gemini •

    Anthropic: Claude • Perplexity: Perplexity AI • Microsoft: Copilot • Mistral AI: Mistral AI • 最近は検索拡張⽣成 (RAG) 注⽬されている • 公開モデル(海外) • Meta: Llama • LMSYS: Vicuna • その他たくさん • 公開モデル(国内) • NII: LLM-jp • Science Tokyo: Swallow • その他企業からも様々な LLMが公開 37 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  27. ①事例を特に与えることなく (zero-shot) ことばで柔軟に複雑な指⽰が可能 • ことばのスタイル変更、表を書く、プログラムを書く、… • 「呪⽂」が不要、⾃然なことばで気軽に使える • 仕様の明確化(⾔語モデルへの⼗分な条件付け)が重要 •

    ノウハウの蓄積が進んでいる • バージョンが変わっても⽐較的頑健であると期待 39 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  28. ②APIの提供によりサードパーティから様 々なサービスが展開 • プロンプトの⼯夫により多様な処理が可能 • サードパーティは中継時に独⾃のプロンプトに加⼯できる • 例: Microsoftの検索エンジンBing •

    モデルは固定でもWeb検索結果をプロンプトに反映させることでライ ブに近い情報を⽤いたチャットができる • 「⾬後の筍」状態 40 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  29. ③ 【最重要】 従来の⽣成AIのような 「やらかし」が⾮常に少ない • Toxicな出⼒をしないよう慎重に調整されている • Cf. 2016年のMicrosoftのチャットボット Tay

    の事例 • 科学的‧倫理的に問題のある回答を避けるよう学習 • ⼈⼿で作成したデータによる学習のたまもの? • ⽣成AIの典型的な問題が⼤きく軽減されていた驚き 41 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  30. LLMが得意な(はずの)こと • 「平均値」的なことばの⽣成 • 「誰かがどこかで書いていそうなこと」 • 「⾒覚えがあるものの組み合わせ」 • 端的には「学習したこと」に近いことは得意(なはず) •

    多くの学習事例があるものほど結果が安定する 42 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  31. LLMが苦⼿な(はずの)こと② • (本質的な)演繹 • 論理的‧記号的な処理を「本当に理解しているかは不明」 • ただ実際にはかなりのケースで解けることも知られている • 真に論理的でなくてもある種確率的に解けてしまう? •

    (実は何かルール的な書き換え処理が埋め込まれている…?) • ある事例の正解をもって能⼒が断定できるかは怪しい • 最近は深い思考を擬似的に⾏う仕組みの研究が進んでおり 今後に期待 44 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  32. LLMが苦⼿な(はずの)こと③ • 回答の整合性:厳密なコントロールは難しい • 参照可能な前⽅⽂脈の限界 • 「多次元空間中の点」による表現の功罪 • 近傍の「ことば」を含めた柔軟性と厳密な整合性の両⽴が困難 •

    プロンプトによる上書きの限界、特に固有名詞がらみ 45 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
  33. LLMの法的課題 • いわゆる「⼠業」関連法違反の懸念 • 学習データの著作権 • 「著作権法 第三⼗条の四」の限界? • 著作物に表現された思想⼜は感情の享受を⽬的としない利⽤

    • 学習はセーフでも⽣成物の利⽤で侵害が⽣じうる • 参考: STORIA法律事務所(柿沼太⼀⽒)「⽣成AIの猛烈な進化 と著作権制度〜技術発展と著作権者の利益のバランスをとるに は〜」 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」 47
  34. LLMの倫理的課題 • 悪⽤の懸念 • そもそも良からぬ⽤途で利⽤する • インターネットが機械⽣成のドキュメントで埋め尽くされる (データ汚染、情報の信頼性の崩壊) • 社会的バイアスや格差の拡⼤

    • データに対する労働搾取(元⽂章、学習データ整備) 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」 48
  35. まとめ • ⼤規模⾔語モデル (LLM) への導⼊ • ⾃然⾔語処理のごく概略 • ⾔語モデル(単語Nグラムモデル、ニューラル⾔語モデル) •

    機械翻訳、Transformer、BERTとLLMに⾄る道のり • ⼤規模⾔語モデルのこれまでの歩み • GPT-3/3.5/4 を中⼼に簡単に紹介 • ChatGPTをはじめとする対話型LLMの果たした役割と課題 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」 50