系列変換の例:翻訳&要約
• ⼊⼒を変換した結果としての出⼒を予測
• sequence-to-sequence (seq2seq) と呼ぶ系統の問題
9
彼は尻尾の⻑い黒い猫を⾒た。
He saw a black cat with a long tail.
近年,⼈⼯知能に注⽬が集まっています.⼈⼯知能技術の⼀つとして,私たち⼈間が普段使って
いる⾔葉を機械で扱う技術,すなわち⾃然⾔語処理技術もさまざまな応⽤が期待されています.
世の中には⾃然⾔語で書かれたデータが⾮常に多く存在する上,⼈間と機械のインタフェースに
も⾃然⾔語を⽤いることができます.⾃然⾔語処理技術は,新たな製品やサービスを⽣み出した
り,業務の効率化を⾏ったりすることにつながり,ビジネスに⼤きく貢献すると考えられますが,
まだ幅広く活⽤されているとは⾔えないのが現状です.
近年注⽬される⼈⼯知能の⼀つである⾃然⾔語処理
技術は様々な応⽤でビジネスに貢献できるものだが,
まだ幅広くは活⽤されていない。
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
Slide 9
Slide 9 text
系列予測は分類の繰り返し
彼は尻尾の⻑い黒い猫を⾒た。
He saw a black cat with a long tail.
⽂頭
I I I … I
he he he … he
am am am … am
is is is … is
saw saw saw … saw
a a a … a
the the the … the
black black black … black
… … … … …
⽂末 ⽂末 ⽂末 … ⽂末
10
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
系列予測は分類の繰り返し
彼は尻尾の⻑い黒い猫を⾒た。
He saw a black cat with a long tail.
⽂頭
I I I … I
he he he … he
am am am … am
is is is … is
saw saw saw … saw
a a a … a
the the the … the
black black black … black
… … … … …
⽂末 ⽂末 ⽂末 … ⽂末
14
各ステップで単語Nグラムモ
デルから
直前N-1個の単語の条件付き
確率分布として
単語の確率分布を得る
𝑃 𝑤!
= 𝑣&
𝑤!"%
, 𝑤!"'
, … , 𝑤!"#$%
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
Slide 14
Slide 14 text
ニューラル⾔語モデル
He left the car in the parking lot
𝑃 He ⽂頭
𝑃 left ⽂頭, He 𝑃 parking ⽂頭, He,left,the,car,in,the
15
Recurrent Neural Network (RNN)
(回帰型ニューラルネットワーク)
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
Slide 15
Slide 15 text
多次元空間の点でことばを表現する
(word2vec)
出典:TensorFlow: Vector Representations of Words https://www.tensorflow.org/tutorials/representation/word2vec
16
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
Slide 16
Slide 16 text
系列予測は分類の繰り返し
彼は尻尾の⻑い黒い猫を⾒た。
He saw a black cat with a long tail.
⽂頭
I I I … I
he he he … he
am am am … am
is is is … is
saw saw saw … saw
a a a … a
the the the … the
black black black … black
… … … … …
⽂末 ⽂末 ⽂末 … ⽂末
17
各ステップでの出⼒層で
語彙サイズ数 (𝑉) 次元の
ベクトルが得られる
↓
softmaxで正規化し
各単語の⽣成確率とする
𝑃 𝑤!
= 𝑣&
𝑤(!
=
𝑒) 𝑤!
= 𝑣&
𝑤(!
∑
*+,
- 𝑒) 𝑤!
= 𝑣*
𝑤(!
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
ニューラル機械翻訳 (NMT)
He left the car in the parking lot
彼は 駐⾞場 に ⾞を 置いてきた
読んで記憶する
ニューラルネットワーク
(エンコーダ)
別の⾔語で⾔い換える
ニューラルネットワーク
(デコーダ)
20
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
Slide 20
Slide 20 text
なぜNMTが“翻訳”できるのか?
He left the car in the parking lot
彼は 駐⾞場 に ⾞を 置いてきた
21
②読んだ記憶を
細かく残す
①多次元空間中
の点として
記憶する
③局所化した記
憶を選択的に参
照する
④記憶に最も合
致する
ことばを選ぶ
⑤所与の条件でよ
く出ることばの並
びを選ぶ
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
Slide 21
Slide 21 text
注意機構
• 注意 (attention)
22
He left the car in the parking lot
彼 は 駐⾞場 に ⾞ を 置いてきた
⼀つのベクトルで全部
記憶させるのは難しい
各ステップで必要なベクトルを
重み付きで混合して利⽤
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
BERT
• Transformerのエンコーダで⽂の組を符号化
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
25
[CLS] my dog is cute [SEP] he likes play ##ing [SEP]
C T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
BERT
(Transformerのエンコーダ)
Slide 25
Slide 25 text
BERTの事前学習(マスク⾔語モデル)
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
26
[CLS] my dog is cute [SEP] he likes play ##ing [SEP]
C T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
BERT
(Transformerのエンコーダ)
[MASK] [MASK]
is likes
Slide 26
Slide 26 text
BERTによる⾃然⾔語処理タスクの解き⽅
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
27
予測
(スコアやクラス)
[CLS]
C T1
T2
T3
T4
BERT
(Transformerのエンコーダ)
sentence
[CLS]
C T1
T2
T3
T4
BERT
(Transformerのエンコーダ)
sentence
予測
(ラベルやスパン)
⽂書分類など 構⽂解析など
スケーリング則 (Scaling Law)
• 計算量‧データ量‧パラメータ数を指数的に増やせば⾔語
モデルの性能(単語予測性能)は向上する
31
Dataset Size
tokens
Parameters
non-embedding
Compute
PF-days, non-embedding
Test Loss
Figure 1 Language modeling performance improves smoothly as we increase the model size, datasetset
size, and amount of compute2 used for training. For optimal performance all three factors must be scaled
up in tandem. Empirical performance has a power-law relationship with each individual factor when not
bottlenecked by the other two.
出典: Kaplan et al., Scaling Laws for Neural Language Models, arXiv preprint 2001.08361 (2020)
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」
Slide 31
Slide 31 text
GPT-3
(GPT-2以前の説明は割愛)
出典: T. B. Brown et al., Language Models are Few-Shot Learners, Proc. NeurIPS 2020
(タスク記述)
Translate English
to French
(プロンプト)
cheeze =>
(タスク記述)
Translate English to French
(実例)
sea otter => loutre de mer
(プロンプト)
cheeze =>
(タスク記述)
Translate English to French
(実例)
sea otter => loutre de mer
peppermint => menthe poivrée
plush girafe => girafe peluche
(プロンプト)
cheeze =>
Zero-shot
(実例なし) One-shot (単⼀実例)
Few-shot (少数実例)
32
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21)
「⾃然⾔語処理と⼤規模⾔語モデルの基礎」