大規模言語モデル

Slide 1

Slide 1 text

大規模言語モデル岡崎直観東京工業大学情報理工学院 [email protected] https://www.nlp.c.titech.ac.jp/ 2023年度統計関連学会連合大会チュートリアルセッション言語モデルと自然言語処理のフロンティア

Slide 6

Slide 6 text

大規模言語モデルをめぐる驚異的なスピード（ChatGPT発表以降） 5  OpenAIがChatGPTを公開（正確な公開日は2022年11月30日）  ChatGPTは公開後5日で100万ユーザを獲得  Stack OverflowがChatGPTで生成された投稿を禁止  GoogleがChatGPTに関して「コードレッド」を宣言と報道 2023年3月 2023年2月 2023年1月 2022年12月  OpenAIがサブスクリプションサービスChatGPT Plusを発表  MicrosoftがChatGPTを搭載した検索エンジンBingを発表  Googleが（ChatGPT対抗と言われる）対話型AIのサービスBardを限定公開  Metaが大規模言語モデルLLaMA（7B～65B）を（モデルのパラメータも含めて）公開  OpenAIがChatGPTとWhisperのAPIを公開  MicrosoftがAzure OpenAI ServiceでChatGPTを提供  OpenAIがGPT-4を発表  GitHubがGPT-4を搭載したCopilot Xを発表  機械学習に関する国際会議ICMLが生成型AIで論文を執筆することを禁止  自然言語処理に関する国際会議ACLが生成型AIに関するポリシーを発表  Natureが論文の共著者としてChatGPTを認めない方針を発表  ChatGPTの月間アクティブユーザの推計が１億人に到達（Instagramを抜き過去最速）  個人情報保護への懸念から、 ChatGPTのイタリアでの提供を禁止  GPT-4よりも強力なAI技術の開発と実験を6か月停止する公開書簡を発表  OpenAIのCEOが岸田首相と面会し、日本でのサービス拡充を提案  イラストレーターや漫画家の団体が画像生成AIの適切な使用や法整備を求める提言を提出 2023年4月 2023年5月  日本政府が人工知能に関する政策の司令塔機能を担う「AI戦略会議」を設置  Googleの対話型AIサービスBardの新バージョン（PaLM 2）が日本語に対応  日本語に対応した大規模言語モデルがrinnaやサイバーエージェントから発表される  G7広島サミットの首脳声明で、信頼できる人工知能というビジョンと目標が掲げられる

Slide 22

Slide 22 text

ニューラルnグラム言語モデル (Bengio+ 2000, 2003) 21 条件付き確率をnグラムの単語埋め込みから推定する 𝑃𝑃 𝑦𝑦𝑡𝑡 𝑦𝑦𝑡𝑡−𝑛𝑛+1 , … , 𝑦𝑦𝑡𝑡−1 = softmax 𝑾𝑾𝑦𝑦𝑦 tanh 𝑾𝑾ℎ𝑧𝑧 𝒛𝒛𝑡𝑡 + 𝑾𝑾𝑦𝑦𝑧𝑧 𝒛𝒛𝑡𝑡 , 𝒛𝒛𝑡𝑡 = 𝒚𝒚𝑡𝑡−𝑛𝑛+1 ⊕ ⋯ ⊕ 𝒚𝒚𝑡𝑡−1 , 𝒚𝒚𝑡𝑡 ∈ ℝ𝑑𝑑𝑦𝑦, 𝒛𝒛𝑡𝑡 ∈ ℝ 𝑛𝑛−1 𝑑𝑑𝑦𝑦, 𝑾𝑾𝑦𝑦𝑦𝑦 ∈ ℝ 𝕍𝕍 × 𝑛𝑛−1 𝑑𝑑𝑦𝑦, 𝑾𝑾ℎ𝑧𝑧 ∈ ℝ𝑑𝑑ℎ× 𝑛𝑛−1 𝑑𝑑𝑦𝑦, 𝑾𝑾𝑦𝑦𝑦 ∈ ℝ 𝕍𝕍 ×𝑑𝑑ℎ ✅ 類義語や関連語が単語埋め込みで考慮されるが、❌ 長距離依存を扱えない BOS アメリカの首都は単語ベクトル 𝒚𝒚𝑡𝑡 ∈ ℝ𝑑𝑑𝑦𝑦 単語予測の確率分布（要素数は 𝕍𝕍 ） softmax softmax softmax softmax softmax 𝑾𝑾𝑦𝑦𝑦𝑦 𝑾𝑾𝑦𝑦𝑦 𝑾𝑾ℎ𝑧𝑧 𝒛𝒛𝑡𝑡 ∈ ℝ 𝑛𝑛−1 𝑑𝑑𝑦𝑦 ⊕ ⊕ ⊕ ⊕ 𝑾𝑾𝑦𝑦𝑦𝑦 𝑾𝑾𝑦𝑦𝑦 𝑾𝑾ℎ𝑧𝑧 𝑾𝑾𝑦𝑦𝑦𝑦 𝑾𝑾𝑦𝑦𝑦 𝑾𝑾ℎ𝑧𝑧 𝑾𝑾𝑦𝑦𝑦𝑦 𝑾𝑾𝑦𝑦𝑦 𝑾𝑾ℎ𝑧𝑧 𝑾𝑾𝑦𝑦𝑦𝑦 𝑾𝑾𝑦𝑦𝑦 𝑾𝑾ℎ𝑧𝑧 Y Bengio, R Ducharme, P Vincent. 2000. A Neural Probabilistic Language Model. In NIPS, pp. 932–938. Y Bengio, R Ducharme, P Vincent, C Janvin. 2003. A Neural Probabilistic Language Model. Journal of Machine Learning Research:3, pp. 1137–1155. それぞれの位置𝑡𝑡おいて 𝕍𝕍 個の要素からなるベクトルが計算される（各要素が単語に対応し、条件付き確率を表す）ニューラルnグラム言語モデルで次単語予測を行う例 (𝑛𝑛 =3)

Slide 25

Slide 25 text

再帰型ニューラル言語モデル（RNNLM） (Mikolov+ 2010) 24 BOS アメリカの首都は T Mikolov, M Karafiát, L Burget, J Černocký, S Khudanpur. 2010. Recurrent Neural Network Based Language Model. In INTERSPEECH, pp. 1045–1048. ✅ 埋め込み表現（単語ベクトル）により類義語・関連語を考慮できる 😟😟 原理上は長距離依存を扱えるが、固定長のベクトル𝒛𝒛𝑡𝑡 だけでは情報を覚えきれない 😟😟 ネットワークが単語位置方向に深くなるため、学習が難しくなる（勾配爆発・消失）勾配消失アメリカ正解の出力単語列単語予測の確率分布 softmax softmax softmax softmax softmax の首都はワシントン RNNで計算された時刻𝑡𝑡の隠れ状態ベクトル𝒛𝒛𝑡𝑡 から条件付き確率を推定する 𝑃𝑃 𝑦𝑦𝑡𝑡 𝑦𝑦0 , … , 𝑦𝑦𝑡𝑡−1 = softmax 𝑾𝑾𝑦𝑦𝑦𝑦 𝒛𝒛𝑡𝑡 , 𝒛𝒛𝑡𝑡 = RNN 𝒛𝒛𝑡𝑡−1 , 𝒚𝒚𝑡𝑡 = tanh(𝑾𝑾𝑧𝑧𝑧𝑧 𝒛𝒛𝑡𝑡−1 + 𝑾𝑾𝑧𝑧𝑦𝑦 𝒚𝒚𝑡𝑡 ) 𝒚𝒚𝑡𝑡 ∈ ℝ𝑑𝑑𝑦𝑦, 𝒛𝒛𝑡𝑡 ∈ ℝ𝑑𝑑𝑧𝑧, 𝑾𝑾𝑧𝑧𝒚𝒚 ∈ ℝ𝑑𝑑𝑧𝑧×𝑑𝑑𝑦𝑦, 𝑾𝑾𝑧𝑧𝑧𝑧 ∈ ℝ𝑑𝑑ℎ×𝑑𝑑ℎ, 𝑾𝑾𝑦𝑦𝑦𝑦 ∈ ℝ 𝕍𝕍 ×𝑑𝑑𝑧𝑧 𝑾𝑾𝑦𝑦𝑦𝑦 𝑾𝑾𝑧𝑧𝑦𝑦 𝑾𝑾𝑧𝑧𝑧𝑧 単語ベクトル 𝒚𝒚𝑡𝑡 ∈ ℝ𝑑𝑑𝑦𝑦 隠れ状態ベクトル 𝒛𝒛𝑡𝑡 ∈ ℝ𝑑𝑑ℎ 𝑾𝑾𝑦𝑦𝑦𝑦 𝑾𝑾𝑧𝑧𝑦𝑦 𝑾𝑾𝑧𝑧𝑧𝑧 𝑾𝑾𝑦𝑦𝑦𝑦 𝑾𝑾𝑧𝑧𝑦𝑦 𝑾𝑾𝑧𝑧𝑧𝑧 𝑾𝑾𝑦𝑦𝑦𝑦 𝑾𝑾𝑧𝑧𝑦𝑦 𝑾𝑾𝑧𝑧𝑧𝑧 𝑾𝑾𝑦𝑦𝑦𝑦 𝑾𝑾𝑧𝑧𝑦𝑦

Slide 32

Slide 32 text

注意機構 (Bahdanau+ 2015, Luong+ 2015) 31 The capital of UK is + London 英国の首都は英国の首都はロンドン D Bahdanau, K Cho, Y Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In ICLR. M-T Luong, H Pham, C D Manning. 2015. Effective Approaches to Attention-Based Neural Machine Translation. In EMNLP, pp. 1412–1421. どの単語に着目するべきか自動的に学習・決定される 𝒉𝒉𝐼𝐼 𝒉𝒉1 𝒙𝒙𝐼𝐼 𝒙𝒙1 𝒛𝒛0 𝒚𝒚0 𝒛𝒛1 𝒚𝒚1 𝒛𝒛𝑗𝑗 𝒚𝒚𝑗𝑗 入力言語側の隠れベクトル𝒉𝒉1 , … , 𝒉𝒉𝐼𝐼 の重み付き和� 𝒉𝒉𝑗𝑗 も用いて条件付き確率を計算する 𝑃𝑃 𝑦𝑦𝑗𝑗 𝑥𝑥1…𝐼𝐼 , 𝑦𝑦0…𝑗𝑗−1 = softmax 𝑾𝑾𝑦𝑦𝑦𝑦 � 𝒛𝒛𝑗𝑗 , � 𝒛𝒛𝑗𝑗 = tanh 𝑾𝑾 ̂ 𝑧𝑧ℎ[𝒛𝒛𝑗𝑗 ; � 𝒉𝒉𝑗𝑗 ] , (1 ≤ 𝑗𝑗 ≤ 𝐽𝐽 + 1) � 𝒉𝒉𝑗𝑗 = 𝑯𝑯𝒂𝒂𝑗𝑗 , 𝒂𝒂𝑗𝑗 = softmax 𝒂𝒂𝑗𝑗 ′ , 𝒂𝒂𝑗𝑗 ′ = 𝑯𝑯⊤𝒛𝒛𝑗𝑗 , (𝑯𝑯 = 𝒉𝒉1 , … , 𝒉𝒉𝐼𝐼 ∈ ℝ𝑑𝑑ℎ×𝐼𝐼, 𝒂𝒂𝑗𝑗 , 𝒂𝒂𝑗𝑗 ′ ∈ ℝ𝐼𝐼) 𝒛𝒛𝑗𝑗 = � RNN 𝒛𝒛𝑗𝑗−1 , 𝒚𝒚𝑗𝑗 (1 ≤ 𝑗𝑗 ≤ 𝐽𝐽 + 1) RNN 𝒉𝒉𝐼𝐼 , 𝒚𝒚0 (𝑗𝑗 = 0) , 𝒉𝒉𝑖𝑖 = � RNN 𝒉𝒉𝑖𝑖−1 , 𝒙𝒙𝑖𝑖 (1 ≤ 𝑖𝑖 ≤ 𝐼𝐼) 0 (𝑖𝑖 = 0) (𝒛𝒛𝑗𝑗 , 𝒉𝒉𝑖𝑖 ∈ ℝ𝑑𝑑ℎ) ✅ 入力単語の情報を柔軟に参照することにより、長い入力文の翻訳精度を改善した 😟😟 入力文中の単語間、出力文中の単語間の長距離依存を考慮しにくい � 𝒉𝒉𝑗𝑗 � 𝒛𝒛𝑗𝑗 𝒂𝒂𝑗𝑗 重みは𝒉𝒉𝑖𝑖 と𝒛𝒛𝑗𝑗 の内積から計算される 𝒉𝒉1 , … , 𝒉𝒉𝐼𝐼 の加重和重みの正規化（𝒂𝒂𝑗𝑗 ′ → 𝒂𝒂𝑗𝑗 ）重み𝒂𝒂𝑗𝑗 ′を𝒉𝒉1 , … , 𝒉𝒉𝐼𝐼 と𝒛𝒛𝑗𝑗 の内積で計算

Slide 158

Slide 158 text

大規模言語モデルが引き起こす悪影響 (Weidinger+ 2021) 157 差別・排除・有害不平等な意思決定、ステレオタイプ、排他的な標準規範（例：「家族とは結婚した男性と女性と子供である」）、有害な表現（憎悪、不敬、人格攻撃、侮辱、脅し、性的表現、攻撃的表現など）、特定の言語での性能低下（例：日本語を使うと生成AIの性能が低くなる）情報ハザード個人情報を生成AIが記憶・推測することによるプライバシーの侵害（例：「〇〇さんのプライベートはどういう生活？」という質問に答える）、機密情報のリーク・推測によるリスク（例：「NASAのセキュリティの脆弱性は何？」という質問に答える）誤情報による悪影響誤情報および誤解を招く情報の拡散、低品質な情報提示による物的損害（例：「頭が痛く、気絶しそうで、吐き気がして、物が二重に見える」という生命の危機にある相手に「二日酔いだよ」と応答する）、非倫理的で有害で暴力などの問題行動を助言悪用誤情報（風評や悪評）の安価な生成、スパムや詐欺メールの生成、サイバー攻撃や武器に関するコード生成、違法な監視や検閲インタラクションにおける悪影響擬人化による過度な依存な利用（例：心が病んでいる人に「医者なので何でも相談して」と応答する）、利用者の操り（例：夕飯を何にすればよいか尋ねただけなのに「どんな気分なの？」と聞き出す応答をする）、ステレオタイプ（例：AIの利用者は男性、AIは女性）の助長社会や環境への悪影響生成AIを学習・運用するために必要なエネルギーや環境負荷、生成AIで仕事が自動化されることによる失業、創造的な仕事の破壊（例：生成AIによる著作権侵害、および著作権侵害が無くてもクリエイターが不利益を被る）、生成AIの運用・活用能力の有無による不平等 L Weidinger et al. 2021. Ethical and social risks of harm from Language Models. arXiv:2112.04359

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text