では BERT とは (話が⾶びます) • BERT (Bi-directional Encoder Representations from Transformers) o 双⽅向 (bi-directional) transformer • Pros o 同時に複数時刻 (単語) の計算ができる o ⾮再帰・attention だけなので構造がシンプル o (広い視野で) 双⽅向の情報を⾒れる 2020.10.31 IRReading2020秋 5 RNN (LSTM も RNN の⼀種) encode: x1 à x2 à x3 à decode: y1 à y2 à y3 transformer 全 Ei 同時に計算 BERT
(補⾜スライド) BERT の学習 • ⼤規模⾔語表現 o BERT, XLNet, RoBERTa etc. • Pre-training (事前学習) o たくさん本を読んで⼀般教養 (素養) を⾝につける o (陽に問題は解かない) • Fine-tuning (再学習 ≒ 転移学習) o 試験科⽬の問題集 (解答例のあるもの) を解き対策する • Inference o 試験を受ける IRReading2020秋 6 2020.10.31
(補⾜スライド) BERT の発展 • Dynamic mask • NSP の改善 • 学習データ追加 • カタログスペック で⼀番強い? IRReading2020秋 BERT RoBERTa XLNet ALBERT レベルアップ 上位職に クラスチェンジ 別系統の職に クラスチェンジ • MLM 廃⽌ o マスクは⼈⼯ノイズ • ただし双⽅向情報は⾒たい o Permutation language model • TransformerXL + PLM • ALBERT (A Little BERT) • BERT はパラメータ数多い o 語彙 V (30,000) × 隠れ層の次元 H (768) • V を低次元 E (128) に埋め込み • 精度落とさずにパラメータ数 95% 削減
BERT 以前の neural ranking model • Representation-based Similarity o Q と D 別々に埋め込み o naïve な DNN を使⽤ • ⽂脈情報を有効に使えていない o D の埋め込みはオフラインで 計算可能 • Query-Document Interaction o Q と D 全単語ペアを考慮 o ⻑期依存や Q 内・D 内⽂脈情報 を⾒れていない o 単語ペアの計算部分はオフラインで 計算可能 2020.10.31 IRReading2020秋 9 BoW モデルと遜⾊ない程度の クエリ処理速度