RNN, Transformer 和 NLP 的新進發展

RNN, Transformer 和 NLP 的新進發展清大工業工程系政治大學應數系蔡炎龍

0 NLP 預備知識 2

3 人工智慧機器學習深度學習基本上就是用不同的方式, 去學函數!

4 在自然語言處理當中, 最基本的問題就是, 我們如何把我們如何把語言「輸入」... f 一段文字

5 通常我們就是一個字 (或一個詞), 就給它一個代表的數字。 E 龍 87 這樣的函數就叫做一個 word
embedding。 * 數學上說 embedding 需要確定函數 1-1, 而且保持某種結構, 這裡沒有這麼嚴格, 不過大致精神是這樣。

6 E 龍這裡也要變成數字才能輸入電腦還有個小問題...

7 One-Hot Encoding 1 的一了是我最常見的方式是我們把字依出現的頻率排序,
越常出現給的編號越小。 1 2 3 4 5

8 One-Hot Encoding 1 的一了是我然後做
one-hot encoding! 1 2 3 4 5 1 0 0 0 0 ⋮ 0 1 0 0 0 ⋮ 0 0 1 0 0 ⋮ 0 0 0 1 0 ⋮ 0 0 0 0 1 ⋮ * 總共 V 個字, 每個字就一個 V 維向量。

9 Word2Vec 2 著名的 word embedding 方式。相似的
字會在一起! 怎麼做到的? 當然是神經網路學出來啊! Google 官網: https://code.google.com/archive/p/word2vec/

10 Word2Vec 2 T. Mikolov, K. Chen, G. Corrado, J.
Dean. Toutanova. Efficient Estimation of Word Representations in Vector Space. Proceedings of Workshop at ICLR, 2013.. 訓練好了有很多炫炫的功能。巴黎法國義大利羅馬國王男人女人皇后

11 Word2Vec 2 雖然說得很神奇, 但沒有很神奇, 如果我們有句話 w1 , w2
, …, wt , … E wt−1 wt 是某個字的 one-hot encoding。 wt

12 Word2Vec 2 wt−1 wt 輸出用 softmax 假設我們有 V 個字,
每個字準備壓到 N 維大小。 N 個神經元, 線性激發函數 (輸入什麼就輸出什麼) 這裡權重矩陣 W 是維! V × N

13 Word2Vec 2 我們現在有個可愛的 W 權重矩陣, 剛好是維... V ×
N w11 w12 ⋯ w1N w21 w22 ⋯ w2N ⋮ ⋮ ⋮ wi1 wi2 ⋯ wiN ⋮ ⋮ ⋮ wV1 wV2 ⋯ wVN embedding 維度總字數當成第 i 個字的 embedding

14 2 Word2Vec 事實上有兩個比較主要的訓練方式, 一個是 CBOW model, 一個是 Skip-Gram model。
Word2Vec: CBOW E wt−2 wt wt−1 wt+1 wt+2 CBOW model 用周圍的字預測中間的字。

15 2 Word2Vec: CBOW wt−2 wt−1 wt+1 wt+2 CBOW model
wt 四組權重的平均, 可以當我們那 embedding 矩陣!

16 2 Word2Vec: Skip-Gram Skip-Gram model E wt−2 wt wt−1
wt+1 wt+2 再來是 Skip-Gram model, 正好反過來, 由一個字預測周圍的字。

17 2 Word2Vec 要瞭解 word2vec, 非常推薦容新 (Xin Rong) 的
文章, 幫助許多人理解了 word2vec。 Xin Rong. word2vec Parameter Learning Explained. arxiv:1411.2738, 2016.

18 Word2Vec 2 x x h 一般我們都用某個隱藏層的輸出, 例如 autoencoder
就是這樣。

19 Word2Vec 2 word2vec 給我們一個啟發, 就是權重也可以是我們日後要用的部份, 可以當成是某種「記憶」。
w11 w12 ⋯ w1N w21 w22 ⋯ w2N ⋮ ⋮ ⋮ wi1 wi2 ⋯ wiN ⋮ ⋮ ⋮ wV1 wV2 ⋯ wVN W

20 Word2Vec 2 h W x One-hot encoding T 0
0 ⋮ 1 ⋮ 0 w11 w12 ⋯ w1N w21 w22 ⋯ w2N ⋮ ⋮ ⋮ wi1 wi2 ⋯ wiN ⋮ ⋮ ⋮ wV1 wV2 ⋯ wVN WT x = h 就 word2vec 來說, 其實也可以看成是隱藏層的輸出! = h

21 Bag of Words n-Gram 不如順便介紹一下兩個 NLP 常用概念。詞袋模型 n元語法

22 Bag of Words (BOW) 1 假設我們現在有個句子, , 每個字是什麼字就放進那個字的「袋子」中。最後這
句話就數每個袋子有幾個字, 來表示這句話。 {w1 , w2 , …, wT } B1 B2 B3 BV 2 0 3 0 [2, 0, 3, …, 0] 這句話就表示成這個向量。

23 n-Gram 2 就是把附近的字合起來考慮, 假設我們的句子還是 , 現在準備用 2-gram 表示,
那就是: {w1 , w2 , …, wT } [[w1 , w2 ], [w2 , w3 ], …, [wV−1 , wV ]]

1 RNN 複習 24

25 標準 NN CNN RNN 資料做全域計算考慮資料局部特徵考慮過去的訊息三大神經網路架構

26 CNN 和 RNN 的運作可以看成是特殊形式的 NN!

27 h = (1 1 + 2 2 + 3
3 + ) 每個神經元的動作基本上都是一樣的!

28 h = ( + ) 我們常簡化為這樣的式子。

29 實際上某一個 RNN Cell 的作用是這樣注意每個 cell 輸出還是一個純量。

30 RNN 是有記憶的神經網路

31 一般的神經網路一筆輸入和下一筆是沒有關係的... x1 x2 ̂ y1 ̂ y2

32 意思是輸入次序換了, 每次輸出的結果是一様的! x1 x2 ̂ y1 ̂ y2

33 RNN 會偷偷把上一次的輸出也當這一次的輸入。 x1 ̂ y1 也就是 RNN 「記得」前面
發生的事!

34 很多人畫成這樣。

35 符號說明。 wx ij wh ij ht i t 時的第
i 個 hidden state 對輸入的權重對 hidden state 的權重

36 注意也有類似的公式。 ht 2 ht 2 = σ(wx 12
xt 1 + wx 22 xt 2 + wh 12 ht−1 1 + wh 22 ht−1 2 + b2 )

37 ht = [ ht 1 ht 2 ] =
[ σ(wx 11 xt 1 + wx 21 xt 2 + wh 11 ht−1 1 + wh 21 ht−1 2 + b1 ) σ(wx 12 xt 1 + wx 22 xt 2 + wh 12 ht−1 1 + wh 22 ht−1 2 + b2 )] 重要的 hidden states 寫成向量形式。這看來好可怕!

38 WT x = [ wx 11 wx 21 wx
12 wx 22 ] 權重矩陣 x 1號 RNN 神經元 xt = [ xt 1 xt 2 ]

39 WT x ⋅ xt = [ w11 xt 1
+ w21 xt 2 w12 xt 1 + w22 xt 2 ] 加權和 x 同時算了兩個神經元的!

40 ht−1 = [ ht−1 1 ht−1 2 ] hidden
states 也寫成向量。

41 WT x ⋅ xt + WT h ⋅ ht−1
+ b b = [ b1 b2 ] 計算「總刺激」的部份。

42 ht = σ(WT x ⋅ xt + WT h
⋅ ht−1 + b) 最後美美的公式 (?) 長這樣。

43 注意為了讓大家更容易瞭解, 我們會用較簡單的圖示。請注意輸入都是個向量、會有權重; 輸出都是純量。實際輸入⻑這樣 1 2
(1 1 + 2 2 + ⋯ + + )

注意為了讓大家更容易瞭解, 我們會用較簡單的圖示。請注意輸入都是個向量、會有權重; 輸出都是純量。同理 h 也是這樣 44
−1

45 對同一層第 k 個 cell, 就一個輸出。輸入可能是向量第 k 號
RNN Cell −1 h hidden state

46 標準 RNN 一個 Cell 的輸出 −1 h h =
( h −1 + + )

47 事實上我們以後可能連 bias 都不畫出來, 但意思還是一樣的! −1 h h =
( h −1 + + )

48 ht k = σ(xt, ht−1) 很多文章喜歡表示成這樣。 −1 h

49 1 2 真正連結的樣子, 注意 RNN Cell 會把記憶傳給同一層其他 RNN
Cells。 1 2 3 h 1 h 2

50 1 2 1 2 3 h 1 h 2
ht = φ(xt, ht−1) φ 有時會像這樣整個 RNN 層一起輸出。

51 ̂ yt = f(xt, ht−1) xt ̂ yt 甚至整個神經網路一起
來! RNN 層

52 訓練 RNN 時容易發生梯度消失 (vanishing gradient)的問題!

53 為什麼呢? x3 x4 x5 ̂ y3 xm x2 x1
̂ y1 ̂ y2 ̂ y4 ̂ y5 ̂ ym 因為 RNN ⾃然會變成很深的神經網路... backpropagation

這有救嗎? 54

55 RNN 很難訓練, 但有兩個神救援 LSTM 和 GRU!

56 LSTM Long Short Term Memory RNN 系的王牌救援

57 Gate 控制閥重要概念

重點 Gate 58 輸出 0 到 1 間的一個數 sigmoid 只是決定「閥」要開多大
−1

59 LSTM 有三個 Gates

60 輸入門輸出門 −1 −1 −1 忘記門

61 編號 k 的 LSTM LSTM 多出來的 cell state 是屬於這個
cell 的一個 c e l l 的 output 還是會和同一層分享 −1 h

62 「新的」狀態資訊 −1 ˜ ˜ = tanh( + h +
)

63 h = tanh( ) = −1 + ˜

64 LSTM 有效的原因是如 ResNet 有那種 bypass 的味道...

65 ℱ(x) x +

66 這意思是本來某⼀層的輸出是 ℱ(x) 現在變成 ℋ(x) = x + ℱ(x)

67 這意思是本來某⼀層的輸出是 ℱ(x) 現在變成 ℋ(x) = x + ℱ(x) 之前學到的
還沒學到的

68 ℱ(x) = ℋ(x) − x 已經學到的⽬標

69 Li,H., Xu, Z., Taylor, G., Studer C., Goldstein T.
(NeuraIPS 2018). Visualizing the Loss Landscape of Neural Nets. . without skip with skip

70 真要弄得那麼複雜? 要忘多少和要記多少難道不能⼀起...

71 LSTM 的簡化版 GRU

72 只留兩個 Gates 雖然名稱有 gated

73 記憶門重設門 −1 −1

74 input 可不考慮從前 −1 ˜ h

75 h = h−1 + (1 − ) ˜ h

重點 RNN 的名字 76 現在說到 RNN, 其實包括原始 RNN, LSTM, GRU
等各種變形。特別要叫原始的 RNN, 我們習慣叫它 Vanilla RNN, 在 Tensorflow 2 中是 SimpleRNN。

2 RNN 應用類型 77

78 對話機器人

79 f 客戶說的話客服機器人回應這樣會有問題!

80 f 目前的字下一個字 f(wt−1 ) = wt

81 f(wt−T , wt−T+1 , …, wt−1 ) = wt
因為 RNN 的特性, 事實上是這樣子的: 於是現在很喜歡把它叫做「自迴歸」 (autoregression) 的語言模型。

82 P(xi ∣ wt−T , wt−T+1 , …, wt−1 )
當然, 因為基本上最後我們都是用 softmax 等方式去預測每個字的機率, 所以大家更愛寫成這樣的 model 是在逼近這個機率分布。其中是我們字庫裡的第 i 個字。 xi

83 注意這樣的模式, 每次輸入和輸出都不是固定的長度! 字1 字2 回1 EOS 回1 回2 回k
EOS

84 One-to-Many 例子生成文章

85 Many-to-One 例子情意分析

86 Many-to-Many 例子對話機器人

87 Many-to-Many 例子 Slot Filling

88 Bidirectional RNN

89 某些應用領域上 (如語音辨識、影片摘要)，我們希望考慮前後資訊時，就會用到雙向的 RNN (bidirectional RNN)!

90 = 1 = 2 = − 1 = 我們有個「正常方向」的
RNN 1 2 −1

91 = 1 = 2 = − 1 = 1
2 −1 1 2 −1 反向也做個 RNN

92 下一層可以合併, 也可以做其他處理。

3 Encoder-Decoder Structure 93

94 字1 字2 回1 EOS 回1 回2 回k EOS Seq2seq
重點 Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In Advances in neural information processing systems (pp. 3104-3112). 還記得我們對話機器人 seq2seq model? c

95 字1 字2 回1 EOS 回1 回2 回k EOS 我們可以想成,
這是個 enconder-decoder 的結構。 c encoder decoder 這裡的 c 是 encoder 最終輸出的 hidden state。

c 回應客戶的話 encoder decoder 更清楚明白的說, 是如下的結構。 96

c 回應客戶的話我們統一下符號, 輸入用示, 而輸出用表示。
encoder decoder 1 , 2 , …, 1 , 2 , …, 97

假如把我們的 RNN 叫做我們有這個式子: = (−1, ) Decoder 也是一樣的! =
(−1, ) 98 但怕大家弄混, 我們 hidden states 改名子。ｓ = (ｓ−1, )

重點函數的寫法 99 c 這樣子 enconding 最後輸出的 h 就是我們唯一的資訊,
代表前面完整的句子! 然後我們就要用單一向量生出完整的回應 (翻譯，文章…)

這當然不是唯一方式! 100

c encoder 1 , 2 , …, Encoder 的方式基本上是一樣的! =
(−1, ) = (−1, ) 101

Decoder 每次都參考原版的 c!! ｓ = (ｓ−1, , ) 102 Cho,
K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078.

ｓ = (ｓ−1, , ) 103 Decoder 每次都參考原版的 c!! 這個ｃ一定要固定不變的嗎？

4 Attention 104

ｓ = (ｓ−1, , ) 105 我們 summary 的 c
其實不一定是要輸入串最後一個 hidden state。 = (1, 2, ⋯, ) 也可以參考所有輸入時的 hidden states 算出來! [9] Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.

106 可以不是固定的嗎? c Decoder 不同階段看重的部份可能不一様!

107 我們準備生出時, 會關注之前輸入每個字的比重可能不一樣! 1 2 −1

108 這種注意力放在幾個重點的叫 attention D. Bahdanau, K. Cho, Y. Bengio, Neural
machine translation by jointly learning to align and translate. arXiv:1409.0473. 2014.

109 1 2 Ｔ−1 Ｔ 1 2 Ｔ−1 Ｔ 1
2 −1 + 1 2 T−1 T = ∑ =1 st = fe (st−1 , yt , ct ) yt yt+1 st−1 st

110 我們來說明一下這裡發生了什麼事?

111 我們對每個位置的「注意力」大小不同, 所以要給不同權重。 ct = α1 h1 +α2 h2
+ ⋯+αT hT 我們要決定這些權重怎麼決定! α1 , α2 , …, αT values

112 yt yt+1 st−1 st h1 h2 hT encoder decoder
目前關切的 query keys 一一算關連強度 e1 e2 eT ej = a(st−1 , hj ) 用 attention 算出 e1 , e2 , …, eT

113 ej = a(st−1 , hj ) hj st−1 ej
ej = st−1 ⋅ hj 可以用一個神經元甚至就 dot product Attention 可以怎麼設計呢?

114 於是就算出了現在的狀態, 對每個位置的注意力強度! e1 e2 eT 我們希望這些數字加起來是 1。於是我們的老朋友
softmax 登場了...

115 = (−1 , ) = exp( ) ∑ =1
exp( ) alignment model 這就是 softmax! 其實這是某種的「對齊」。

5 Transformer 116

不⽤ RNN, 可以做 Attention 嗎? 117 [13] Vaswani, A., Shazeer,
N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems (pp. 5998-6008).

118 encoder x1 x2 xT decoder y1 y2 yk−1 yk
⼀次⼀起輸⼊ Self-Attention

119 Encoder 的⼀個 Layer Multi-Head (Self) Attention Dense sublayer sublayer
原版 encoder 做了 6 層

120 Encoder 的⼀個 Layer Multi-Head (Self) Attention Dense 每個 sublayer
都做 ResNet 型的連結

121 Decoder 的⼀個 Layer Multi-Head Attention Dense sublayer sublayer 原版
decoder 也做了 6 層 Masked Multi-Head (Self) Attention sublayer 從 encoder 來的 K, V

122 神秘的 Q, K, V Q queries K keys V
values

123 神秘的 Q, K, V self-attention 的時候, q, k, v
向量都是由輸⼊ embedding 算出來的。 xp qp kp vp xp WQ xp WK xp WV query key value

124 神秘的 Q, K, V Decoder 中有個和 encoder 有連結的那個 sublayer
時... q k v Multi-Head Attention 來⾃ encoder 來⾃之前的 output

125 Attention 然後就進⼊「正常的」attention 程序。 q k1 k2 kd 送⼊⼀個 query
q, 就和每⼀個 kp 做 attention, 得到的「強度」做 softmax 之後成為 hp 的係數。本⽂的 attention 只是做內積。

126 Attention ⼀次寫出來是這樣。 Attention(Q, K, V) = softmax( QKT dk
)V dk 是一個 key 的維度。

127 Multi-Head Attention 有⼈規定 attention 只能⽤⼀個嗎? Attention(QWQ i , KWK
i , VWV i ) 第 i 個 attention

128 Transformer Encoder 要注意的是, transformer 輸入有幾個 (字), 輸出就有幾個。

129 Transformer Decoder 包括 Decoder 也是這樣, 只是開始還沒有的輸入會被 mask 住。

130 K V Q Key-value 可看成我們的「記憶」 Query 是實際發生的事雖然 key-value-query
不是 transformer 首創, 但啟發我們這樣的思考方向。

6 NLP 最近的發展 131

NLP 的進展, 被視為 2019 年 AI 重大突破! https://www.stateof.ai/ State of
AI Report 2019 不用配對、非監督式的翻譯系統 NLP 的 Transfer Learning 132

133 傳統的 Word Embedding 1 這個人的個性有點天天。我天天都會喝一杯咖啡。可是一
個字、一個詞, 在不同的地方可能有不一樣的意思。

134 語意型的 Word Embedding 2 f 某個意涵編碼這真的做得到?

ELMo 135 M.E. Peters, M. Neumann, M. Iyyer, M. Gardner,
C. Clark, K. Lee, L. Zettlemoyer. Deep contextualized word representations. NAACL 2018. arXiv preprint arXiv:1802.05365v2. AI2

1 2 −1 <BOS> 我天天啡咖喝
咖注意通常都用雙向型的 RNN, 我們畫成單向只是容易理解。我們要的 embedding 136

1 2 −1 <BOS> 天喝咖 1 2 −1
我們可能不只一層 RNN 層。 137 LSTM1 LSTM2

138 hi hi token w1 w2 w3 + + 我們在要用時,
才會去學 , 成為「真正」的 embedding。 w1 , w2 , w3 前面需要大量訓練資料的都不用動哦!

139 BERT J. Devlin, M.W. Chang, K. Lee, K. Toutanova.
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805v2. Google

140 BERT B E R T 的架構基
本上是 transformer 的 encoder。訓練主要有兩件工作。我天天都會喝一杯_ _。咖啡克漏字

141 我天天都會喝一杯咖啡 [sep] 微積分很重要判斷句子是否相連

142 Transformer Encoder [cls] 字1 字T 記得 BERT 是用 transformer,
所以幾個輸入就是幾個輸出。要應用, 例如情意分析是這樣...

143 感受 BERT 的威力 https://github.com/google-research/bert BERT 官方版本, 包括中文版! 我自然語言項目幾乎全能哦!

144 不過世界實在變得太快...

145 ELMo AI2 Transformer 版 BERT 再帶起 Transformer 風潮, 甚至
ELMo 都出現... M. E. Peters, M. Neumann, L. Zettlemoyer, W.-T. Yih. Dissecting Contextual Word Embeddings: Architecture and Representation. EMNLP 2018.

GPT-2 基本上是 transformer 的 decoder。 146 OpenAI 還有改善 BERT 不太會生文章、大到可怕的...
A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever. Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 2019.

著名的「發現獨角獸」唬爛文章。 Better Language Models and Their Implications https://openai.com/blog 147

148 https://talktotransformer.com/ 試試 GPT-2 的功力

149 https://talktotransformer.com/ Zero-Shot Learning GPT-2 這個唬爛王什麼都能接...

150 https://talktotransformer.com/ Zero-Shot Learning 真的什麼都可以問!

151 值得關注的 NLP Models ERNIE 為中文打造的 BERT XLNet 2019 超級新星
百度 Google

Stanford 大學的 QA SQuAD 進入 2.0 時代。電腦照樣勝過人類, 甚至不再是
BERT 時代。 152

153 XLNet 2019 超級新星 Z. Yang, Z. Dai, Y Yang,
J. Carbonell, R. Salakhutdinov, Q. V. Le. XLNet: Generalized Autoregressive Pretraining for Language Understanding. NeruIPS 2019. 使用 Transformer XL 使用 permutation 訓練法

154 Ro a RoBERTa 加強訓練的 BERT! Facebook 唸的書更多就更強!

155 MegatronLM 超級⽕⼒展⽰ 8,300!! M. Shoeybi, M. M. A. Patwary,
P. Puri, P. LeGresley, J. Casper, B. Catanzaro, Megatron-LM: Training Multi-Billion Parameter Language Models Using GPU Model Parallelism. arXiv:1909.08053 2019.

156 然後大家終於想到, 這樣軍備競賽下去, 很多場景其實不太能應用。 V. Sanh, L. Debut, J.
Chaumond, T. Wolf. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. NeruIPS 2019. 小巧版的 BERT 來了! DistilBERT

157 DistilBERT 其實就是大 BERT 訓練小 BERT 的概念。來, 我教你! G.
Hinton, O. Vinyals, J. Dean. Distilling the knowledge in a neural network. arxiv: 1503.02531, 2015.

158 0 125 250 375 500 ELMo GPT BERT XLNet
RoBERTa DistilBERT ELMo Transformer 94 110 340 465 340 355 66 可怕的 GPT-2, MegatronLM 我們沒放進去...

159 有問題嗎? 投影片網址: http://bit.ly/2020NLP

RNN, Transformer 和 NLP 的新進發展

RNN, Transformer 和 NLP 的新進發展

More Decks by [email protected]

Other Decks in Technology

Featured

Transcript