Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A Cognitive Regularizer for Language Modeling (J Wei, C Meister, R Cotterell @ ACL-IJCNLP 2021)

6325a9b34da54d5cbddb814c3987a2fe?s=47 Naoaki Okazaki
September 09, 2021

A Cognitive Regularizer for Language Modeling (J Wei, C Meister, R Cotterell @ ACL-IJCNLP 2021)

Jason Wei, Clara Meister, Ryan Cotterell. 2021. A Cognitive Regularizer for Language Modeling. ACL-IJCNLP 2021, pages 5191-5202.
第13回最先端NLP勉強会(発表者:岡崎直観)
https://sites.google.com/view/snlp-jp/home/2021

6325a9b34da54d5cbddb814c3987a2fe?s=128

Naoaki Okazaki

September 09, 2021
Tweet

Transcript

  1. A Cognitive Regularizer for Language Modeling Jason Wei, Clara Meister,

    Ryan Cotterell. ACL-IJCNLP 2021, pages 5191-5202. 読み手: 岡崎 直観 東京工業大学 情報理工学院 okazaki at c.titech.ac.jp 「デザイン・レイアウトで伝わる!プレゼン資料」のデザイン・テンプレート(https://ppt.design4u.jp/template/)を使用して作成しています Uniform Information Density (UID)
  2. 一様情報密度(UID: Uniform Information Density)仮説 1 A Fenk and G Fenk.

    1980. Konstanz im kurzzeitgedächtnis-konstanz im sprachlichen informationsfluß. Zeitschrift für Experimentelle und Angewandte Psychologie, 27:400–414. T F Jaeger. 2010. Redundancy and reduction: Speakers manage syntactic information density. Cognitive Psychology, 61(1):23-62. 折田 奈甫. 2016. 話者の指示表現選択の確率モデルによる形式化. 人工知能, 31(1):91-99. 文法的規則の制約のもとで、話者は情報密度が一様になるように言語学 的シグナル(発音や単語、指示表現など)を分布させるという仮説 多くの話者は関係詞thatがある文(青点線)の 方を好む。thatがないと、confirmedに続いてwe が唐突に現れる(情報密度が高い)感じがする が、thatがあると情報密度が一様に近くなる。 この例では、関係詞thatはしばしば省略される (青点線)。thinksの後にIが続くのは唐突では ない(情報密度が一様に近い)ため、関係詞 thatがない文の方が好まれる。 Wei et al. (2021)
  3. 情報密度をシャノンの情報量で計測する例 2 R P Levy and T F Jaeger. 2007.

    Speakers optimize information density through syntactic reduction. In NIPS. 言語学的シグナル𝑥𝑥の情報量(surprisal)をシャノンの情報量で計測する − log 𝑝𝑝 𝑥𝑥 言語学的シグナル𝑥𝑥が長さ𝑛𝑛の単語列 𝑤𝑤1 … 𝑤𝑤𝑛𝑛 の場合、surprisalは、 − log 𝑝𝑝 𝑤𝑤1 … 𝑤𝑤𝑛𝑛 ここで、単語列𝑤𝑤1 … 𝑤𝑤𝑛𝑛 の同時確率は、 𝑝𝑝 𝑤𝑤1 … 𝑤𝑤𝑛𝑛 = 𝑝𝑝 𝑤𝑤1 𝑝𝑝 𝑤𝑤2 |𝑤𝑤1 … 𝑝𝑝 𝑤𝑤𝑛𝑛 |𝑤𝑤1 … 𝑤𝑤𝑛𝑛−1 = � 𝑖𝑖=1 𝑛𝑛 𝑝𝑝 𝑤𝑤𝑖𝑖 𝑤𝑤1 … 𝑤𝑤𝑖𝑖−1 ) ゆえに、単語列 𝑤𝑤1 … 𝑤𝑤𝑛𝑛 中の単語𝑤𝑤𝑡𝑡 (𝑡𝑡 ∈ {1, … , 𝑛𝑛})のsurprisalは、 − log 𝑝𝑝 𝑤𝑤1 … 𝑤𝑤𝑡𝑡 = − log � 𝑖𝑖=1 𝑡𝑡 𝑝𝑝 𝑤𝑤𝑖𝑖 𝑤𝑤1 … 𝑤𝑤𝑖𝑖−1 ) = − � 𝑖𝑖=1 𝑡𝑡 log 𝑝𝑝 𝑤𝑤𝑖𝑖 𝑤𝑤1 … 𝑤𝑤𝑖𝑖−1 ) Levy and Jaeger (2007) では𝑝𝑝 𝑤𝑤𝑖𝑖 𝑤𝑤1 … 𝑤𝑤𝑖𝑖−1 )の推定に3-gram言語モデルを採用
  4. 本研究で示したいこと 3 これまでの研究では、UID仮説に基づいて 言語現象を説明するため、言語モデルから 計算される情報量を利用した。 UID仮説は言語モデルの学習における inductive biasとなりうるか? 本研究の仮説

  5. 言語モデル(復習) 4 長さ𝑛𝑛の単語列 𝑤𝑤1 … 𝑤𝑤𝑛𝑛 の同時確率を言語モデル(パラメータ: 𝜃𝜃)で計算 𝑝𝑝𝜃𝜃 𝑤𝑤1

    … 𝑤𝑤𝑛𝑛 = 𝑝𝑝𝜃𝜃 𝑤𝑤1 𝑝𝑝𝜃𝜃 𝑤𝑤2 |𝑤𝑤1 … 𝑝𝑝𝜃𝜃 𝑤𝑤𝑛𝑛 |𝑤𝑤1 … 𝑤𝑤𝑛𝑛−1 = � 𝑡𝑡=1 𝑛𝑛 𝑝𝑝𝜃𝜃 𝑤𝑤𝑡𝑡 𝑤𝑤1 … 𝑤𝑤𝑡𝑡−1 ) ※ 本研究では言語モデルとして6層のTransformer decoderを採用 【学習】学習データ𝐷𝐷(文の集合)が与えられたとき、次式の目的関数(負の 対数尤度)を最小化することで、言語モデルのパラメータ𝜃𝜃を求める 𝐿𝐿𝐷𝐷 𝜃𝜃 = − � 𝑤𝑤1…𝑤𝑤𝑛𝑛∈𝐷𝐷 log 𝑝𝑝𝜃𝜃 𝑤𝑤1 … 𝑤𝑤𝑛𝑛 【評価】評価データ𝐷𝐷′(文の集合)上のパープレキシティを計測する PPL 𝑝𝑝𝜃𝜃 = exp − � 𝑤𝑤1…𝑤𝑤𝑛𝑛∈𝐷𝐷′ 1 𝑛𝑛 log 𝑝𝑝𝜃𝜃 𝑤𝑤1 … 𝑤𝑤𝑛𝑛
  6. 言語モデルをUIDで正則化して学習する 5 言語モデルの学習において目的関数にUID仮説に基づく正則化項を加える 𝐿𝐿′𝐷𝐷 𝜃𝜃 = 𝐿𝐿𝐷𝐷 𝜃𝜃 + 𝛽𝛽

    ⋅ 𝑅𝑅 𝜃𝜃 ※ 以降では𝑅𝑅 𝜃𝜃 は学習データ全体ではなく文毎の尺度(𝐿𝐿𝐿𝐷𝐷 𝜃𝜃 はSGDで学習するので) 【補足】言語モデルの目的関数𝐿𝐿𝐷𝐷 𝜃𝜃 は、単語の情報量(surprisal)を最小化す るものであるため、UID仮説を考慮しているように見えるが、単語列全体の情 報量を一様にするものではない(→𝑅𝑅 𝜃𝜃 の狙いは情報量を一様にすること) 𝐿𝐿𝐷𝐷 𝜃𝜃 = − � 𝑤𝑤1…𝑤𝑤𝑛𝑛∈𝐷𝐷 log 𝑝𝑝𝜃𝜃 𝑤𝑤1 … 𝑤𝑤𝑛𝑛 = � 𝑤𝑤1…𝑤𝑤𝑛𝑛∈𝐷𝐷 � 𝑡𝑡=1 𝑛𝑛 − log 𝑝𝑝𝜃𝜃 𝑤𝑤𝑡𝑡 𝑤𝑤1 … 𝑤𝑤𝑡𝑡−1 ) 元々(言語モデル) の目的関数 新しい目的関数 = 正則化の効果を 調整する係数 (𝛽𝛽 > 0) + ・ 正則化項 (後で定義) 単語の情報量
  7. 正則化項𝑅𝑅 𝜃𝜃 その1:情報量の分散による正則化 6 𝑅𝑅 𝜃𝜃 = 1 𝑛𝑛 �

    𝑡𝑡=1 𝑛𝑛 𝑢𝑢 𝑤𝑤𝑡𝑡 − 𝜇𝜇 2 , 𝜇𝜇 = 1 𝑛𝑛 � 𝑡𝑡=1 𝑛𝑛 𝑢𝑢 𝑤𝑤𝑡𝑡 , 𝑢𝑢 𝑤𝑤𝑡𝑡 = − log 𝑝𝑝𝜃𝜃 (𝑤𝑤𝑡𝑡 |𝑤𝑤1 … 𝑤𝑤𝑡𝑡−1 ) (𝑅𝑅 𝜃𝜃 は単語の情報量𝑢𝑢 𝑤𝑤𝑡𝑡 の標本分散: 上図の赤矢印の二乗和の平均) (𝜇𝜇は単語の情報量𝑢𝑢 𝑤𝑤𝑡𝑡 の平均) (単語の情報量𝑢𝑢 𝑤𝑤𝑡𝑡 は現在のパラメータ 𝜃𝜃の言語モデルで求める) 文中に含まれる単語の情報量を一様にするため、単語の情報量の分散 を求め、分散が小さくなるように正則化する (variance) My boss confirmed we are crazy that 𝜇𝜇 情報量 𝑡𝑡
  8. 正則化項𝑅𝑅 𝜃𝜃 その2:情報量の局所的一貫性による正則化 7 文中に含まれる単語の情報量を一様にするため、隣り合う単語の情報 量の二乗差の平均が小さくなるように正則化する (local coherence) My boss

    confirmed we are crazy that 情報量 𝑅𝑅 𝜃𝜃 = 1 𝑛𝑛 − 1 � 𝑡𝑡=1 𝑛𝑛−1 𝑢𝑢 𝑤𝑤𝑡𝑡+1 − 𝑢𝑢 𝑤𝑤𝑡𝑡 2 単語の情報量𝑢𝑢 𝑤𝑤𝑡𝑡 はパラメータ𝜃𝜃の言語モデルで求める(前スライドと同じ) 𝑢𝑢 𝑤𝑤𝑡𝑡 = − log 𝑝𝑝𝜃𝜃 (𝑤𝑤𝑡𝑡 |𝑤𝑤1 … 𝑤𝑤𝑡𝑡−1 ) 𝑡𝑡
  9. 実験結果のハイライト 8  10言語のデータ(EuroParl, Wiki-40B, Wikipedia)で言語モデルを UID正則化付きで学習したところ、パープレキシティが改善した  UIDは様々な言語の言語モデル学習のindictive biasとして有効である

     英語の学習データ量を変えながら言語モデルを学習したところ、 UID正則化は学習データ量が少ないほど効果を発揮した  学習データが少ないときでもラベル・スムージングはパープレキシティ を改善できないが、UIDは言語モデルの正則化に有効であった  UIDで正則化した言語モデルは「長めの文」「多様な語彙を用いた 文」を生成する傾向が見られる  正則化の重み𝛽𝛽は小さすぎても大きすぎても良くない  𝛽𝛽 = 0(UIDによる正則化無し)および𝛽𝛽 = 0.07で学習した言語モデルの パープレキシティは同程度であったが、情報量の分散に10%以上の開き があった(17.8と15.8)ため、UID仮説を一つの言語モデルだけで検証 するのは不十分かもしれない
  10. 実験に用いる言語データ 9 Wei et al. (2021)  チェコ語、英語、フランス語、ドイツ語、スペイン語(全てインド・ヨーロッパ語 族)の単言語コーパスをEuroParl v7

    (ACL 2014 SMT Workshop) [1]から取得  インド・ヨーロッパ語族以外に、フィンランド語、インドネシア語、トルコ語の単言 語コーパスをWiki-40Bから取得  言語資源が少ない設定として、スワヒリ語とタガログ語の単言語コーパスを取得  Wiki-40Bを除き、データを80:10:10の比率で学習:開発:評価データに分割 [1] EuroParl v7. http://statmt.org/wmt14/translation-task.html
  11. 正則化の重み𝛽𝛽は開発データ上で調整 10 Wei et al. (2021) データセット毎に、𝛽𝛽 ∈ {0.006, 0.008,

    0.01, 0.02, 0.03, 0.04, 0.05}の中から、開発データ上 でパープレキシティが最も良かった値を採用した
  12. UID仮説は言語モデル学習のindictive biasとして有効 11 Wei et al. (2021)  すべての言語において、UID正則化によりパープレキシティが向上 

    データ量の少ない言語(SwahiliとTagalog)の向上率が大きい
  13. UID正則化は学習データ量が少ないほど効果を発揮 12 Wei et al. (2021) EuroParlデータセット(英語)において、学習 データ量を変えた時のパープレキシティ。学習 データが少ない時、UID正則化の効果が大きい。 異なるデータ量の英語のコーパスとして、

    WMT’06とWT-103で言語モデルを学習したとき のパープレキシティ。学習データ量が少ない時、 UID正則化の効果が大きい。  下の表や右図の結果を参照  他の正則化手法としてラベル・スムー ジングを試したが、パープレキシティ が逆に悪化した  UIDは単に学習データが少ない時に、 過学習を単に防ぐのではなく、有効な indictive biasとして機能している可能 性がある
  14. UID正則化は「長めの文」「多様な語彙を用いた文」を生成 13 Wei et al. (2021)  英語のEuroParlコーパスで学習した言語モデルが生成する文の特徴を分析  EOSが予測されるまで、デコーダの各タイムステップの予測確率分布に基づき、

    トークンをサンプリングして10,000文を生成(ancestral sampling)  生成される文の特徴として、長さ、語彙の多様さ(ユニークなn-gramの割合)、言語 モデルのエントロピー𝐻𝐻 𝑝𝑝 を用いた 𝐻𝐻 𝑝𝑝 = − � 𝑦𝑦∈supp 𝑝𝑝 𝑝𝑝 𝑦𝑦 log2 𝑝𝑝 𝑦𝑦 = −𝔼𝔼𝑦𝑦∽𝑝𝑝 log2 𝑝𝑝 𝑦𝑦 ≈ − 1 𝐾𝐾 � 𝑘𝑘=1 𝐾𝐾 log2 𝑝𝑝 𝑦𝑦(𝑘𝑘)  UID正則化により言語モデルは長めの文を多様な語彙を用いて生成する(以下の表)  言語モデルのエントロピーは顕著に上昇した(→最大エントロピー原理[1] との関連) 論文中で定義されてい ない! (𝐾𝐾 = 10000?) 言語モデルが生成しうる 全ての文の集合 [1] データから分からない部分を表現するのに最適な確率分布は,そのエントロピーが最大のものであるという原理
  15. 正則化の重み𝛽𝛽に関する考察: 𝜃𝜃∗ = argmin𝜃𝜃 𝐿𝐿𝐷𝐷 𝜃𝜃 + 𝛽𝛽 ⋅ 𝑅𝑅

    𝜃𝜃 14 Wei et al. (2021)  英語のEuroParlデータで、β ∈ {−0.01, 0, 0.01, 0.03, 0.05, 0.07, 0.09}と変えながら、パー プレキシティと言語モデルが単語を予測するときの情報量(surprisal)の分散を計測  βを大きくすることで、情報量の分散は低下していく(← 期待通り)  0.01 ≤ β ≤ 0.05あたりでパープレキシティが最小(βは小さ過ぎも大き過ぎもダメ)  𝛽𝛽 = 0および𝛽𝛽 = 0.07のパープレキシティは同程度であったが、情報量の分散に10%以 上の開きがあるため、UID仮説を一つの言語モデルだけで検証するのは不十分か (UIDにペナルティ) (UIDを使わない) UID正則化を使わない言語モデル と、𝛽𝛽 = 0.07としてUID正則化を 適用した言語モデルのパープレキ シティが同程度だったが、情報量 の分散は10%以上異なる。ゆえに、 最尤推定で求めた言語モデル間で、 情報量の分散にばらつきがある可 能性があり、一つの言語モデルだ けでUID仮説を検証するのは不十 分だった可能性がある。
  16. まとめ  UID仮説を正則化項として言語モデルの学習に取り込むことを提案した  心理言語学の理論を最新の言語モデルに統合したことになる  全データセットでUID正則化は言語モデルのパープレキシティを改善した  言語モデルの最尤推定において、UIDは有効なinductive biasである

     UID仮説を支持する別の形のエビデンスを示したことになる  今後の課題は、その他の心理言語学の理論の統合や、機械翻訳などの条件付 き言語モデルへの適用、その他の言語タスクへの応用など  著者ポスターでは、surprisalを使った非常に関連の深い論文に言及あり  T Kuribayashi, Y Oseki, T Ito, R Yoshida, M Asahara, K Inui. 2021. Lower Perplexity is Not Always Human-Like. ACL-IJCNLP. [1]  日本語ではUID仮説が成り立たないらしい(文末のsurprisalが低くなる)  【感想】研究の仮説が明白で、実験結果の考察や分析も興味深い 15 [1] 第7会NLPコロキウム. Lower Perplexity is Not Always Human-Like. https://www.youtube.com/watch?v=Xd_KfgWVWsI