では BERT とは (話が⾶びます)
• BERT (Bi-directional Encoder
Representations from Transformers)
o 双⽅向 (bi-directional) transformer
• Pros
o 同時に複数時刻 (単語) の計算ができる
o ⾮再帰・attention だけなので構造がシンプル
o (広い視野で) 双⽅向の情報を⾒れる
2020.10.31
IRReading2020秋 5
RNN (LSTM も RNN の⼀種)
encode: x1 à x2 à x3 à
decode: y1 à y2 à y3
transformer
全 Ei
同時に計算
BERT
Slide 6
Slide 6 text
(補⾜スライド) BERT の学習
• ⼤規模⾔語表現
o BERT, XLNet, RoBERTa etc.
• Pre-training (事前学習)
o たくさん本を読んで⼀般教養 (素養) を⾝につける
o (陽に問題は解かない)
• Fine-tuning (再学習 ≒ 転移学習)
o 試験科⽬の問題集 (解答例のあるもの) を解き対策する
• Inference
o 試験を受ける
IRReading2020秋 6
2020.10.31
(補⾜スライド) BERT の発展
• Dynamic mask
• NSP の改善
• 学習データ追加
• カタログスペック
で⼀番強い?
IRReading2020秋
BERT
RoBERTa XLNet
ALBERT
レベルアップ
上位職に
クラスチェンジ
別系統の職に
クラスチェンジ
• MLM 廃⽌
o マスクは⼈⼯ノイズ
• ただし双⽅向情報は⾒たい
o Permutation language model
• TransformerXL + PLM
• ALBERT (A Little BERT)
• BERT はパラメータ数多い
o 語彙 V (30,000) × 隠れ層の次元 H (768)
• V を低次元 E (128) に埋め込み
• 精度落とさずにパラメータ数 95% 削減
Slide 9
Slide 9 text
BERT 以前の neural ranking model
• Representation-based Similarity
o Q と D 別々に埋め込み
o naïve な DNN を使⽤
• ⽂脈情報を有効に使えていない
o D の埋め込みはオフラインで
計算可能
• Query-Document Interaction
o Q と D 全単語ペアを考慮
o ⻑期依存や Q 内・D 内⽂脈情報
を⾒れていない
o 単語ペアの計算部分はオフラインで
計算可能
2020.10.31
IRReading2020秋 9
BoW モデルと遜⾊ない程度の
クエリ処理速度