Slide 1

Slide 1 text

Word Acquisition in Neural Language Models Chang and Bergen, TACL 2022 Kaito Sugimoto Aizawa Lab. M2 2022/08/08 1/19

Slide 2

Slide 2 text

TACL 2022 紹介する論文 2/19

Slide 3

Slide 3 text

近年成果を上げているニューラル言語モデル(LSTM, BERT, GPT etc.) が、訓練中に各単語をどのように学習していくのかを、人間 (幼児)の言語習得と比較して考察 人間と比べて言語モデルの習得ペースは、単語の出現頻度にはるかに依 存している一方で、人間と同様に、長い文章に含まれる単語の習得がよ り遅くなることが確認された。また、モデルのアーキテクチャにかかわ らず、習得の傾向は似たものになることが分かった。 さらに、訓練期間においてモデルの予測の推移を見ると、まず最初には 訓練データの uni-gram の頻度分布に fit し、次に bi-gram の頻度分布 に fit してから、最終的に訓練データの正解ラベルに fit していくとい うステップを共通して踏むことが分かった。 概要 3/19

Slide 4

Slide 4 text

ニューラル言語モデルについて、心理言語学や認知科学の知見をもと に、人間の言語使用とどのように違うのかを調べる研究は多数ある しかし、そのような研究の多くは事前学習が完了済みの言語モデルにつ いて調べており、訓練中の言語モデルの知見はほとんど溜まっていない 一方で、人間の場合、幼児の言語習得に関しては多くの研究がある 背景 4/19

Slide 5

Slide 5 text

モデルの言語習得と人間の言語習得を比べることは双方の分野にとって 知見を与える NLP においては、なぜモデルが上手くいかないのか、どういう訓練をすれば より良いモデルになるのかを考える材料になる 言語学(言語教育学)においては、人間には distributional learning の能 力があるという証拠が見つかっている。言語モデルは distributional learning だけを使った人間とみなせるので、そういった仮想的な人間の言 語習得が実際の人間の言語習得と本当に一致しているのかを調べることは、 distributional learning の妥当性を評価する上で重要 背景 1 1: 五感などのグラウンディング情報を使わず、コーパスの統計的情報だけから言語学的知識を学ぶこと。 Richard Aslin and Elissa Newport. 2014. Distributional language learning: Mechanisms and models of category formation, Language Learning を参照 5/19

Slide 6

Slide 6 text

幼児の言語習得を調べる際には、マッカーサー乳幼児言語発達質問紙 (MacArthur-Bates Communicative Development Inventory; CDI) と いうアンケートが用いられる。 Frank et al., 2017 では、多くの親に CDI に協力してもらい、「いつ 自分の子どもがある単語 を発するようになったか」というデータを 大規模に収集 全体の 50% の子どもが単語 を発するようになった年齢を Age of Acquisition として定義 単語の頻度、長さ、品詞、抽象度が Age of Acquisition に影響を与え ることが分かった 前提: 幼児の単語習得 2 w w 2: Michael Frank, Mika Braginsky, Daniel Yurovsky, and Virginia Marchman. 2017. Wordbank: An open repository for developmental vocabulary data. Journal of Child Language, 44(3):677–694. 6/19

Slide 7

Slide 7 text

言語モデルが単語 をどの程度習得しているかは、その単語のサプラ イザルで評価する サプライザル: ある単語 の周囲の に対する予測確率の負の対数 のこと。 おおむね、人間が読みやすい(自然)と感じる文においてサプライザルが低 いとされている また、事前学習が完了した言語モデルのサプライザルから前述の Age of Acquisition を予測可能とする研究もある (つまり、モデルにとって予測が 難しい単語は人間も習得が遅い傾向が見られることが分かっている) 前提: モデルの単語習得 w w w ​ , ...w ​ 1 k − log ​ P (w∣w ​ , ..., w ​ ) 2 1 k 3 4 5 3: 「周囲の単語」とはモデル依存であり、BERT や Bi-LSTM のような双方向から単語予測するモデルでは左右両方 の context を指し、GPT-2 や通常のLSTMのような左から単語予測するモデルでは左の context のみを指す 4: 反論もある: Kuribayashi et al., Lower Perplexity is Not Always Human-Like (ACL 2021) 5: Eva Portelance, Judith Degen, andMichael Frank. 2020. Predicting age of acquisition in early word learning using recurrent neural networks. In Proceedings of CogSci 2020. 7/19

Slide 8

Slide 8 text

扱う言語モデル: LSTM, Bi-LSTM, BERT, GPT-2 (幼児のデータのある)CDI に含まれる 651 単語のうち、言語モデル が 1 トークン扱いする 611 単語を対象に比較を行う 各単語 に対して、 を含む文を最大 512 文それぞれ validation set から抽出し、そのサプライザルの平均を計算する作業を 200 step で行 う 人間の場合と同様に、モデルの Age of Acquisition をサプライザルの 中間値として考える。 すなわち、random chance で予測した場合のサプライザルと、一番モ デルがうまく予測し低い値になった場合のサプライザルの中間値に到達 した時の step を、モデルの Age of Acquisition とする。 実験: 人間と言語モデルの単語習得の比較 w w 6 6: 厳密には、sigmoid 曲線でグラフ全体を近似して中間値に対応する step をとる 8/19

Slide 9

Slide 9 text

実験: 人間と言語モデルの単語習得の比較 9/19

Slide 10

Slide 10 text

各単語 について、以下の5つの因子から の Age of Acquisition を 予測する回帰モデルを考える の(訓練データ中の)頻度 を含む文のトークン長(MLU; mean length of utterances) の文字数 の抽象度 の品詞 そして、それぞれの因子について、それを抜いて予測した場合と尤度比 検定を行い、その因子が予測に寄与しているかどうかを見積もる 実験: 人間と言語モデルの単語習得の比較 w w w w w w w 7 7: 厳密には、頻度の高い単語ほど文字数が少ない事象(Zipf則)などが見られるため、これらの因子が独立とは言 えないが、それを考慮して修正しても、以後示す実験結果に変化はなかったそうである 10/19

Slide 11

Slide 11 text

* は有意に予測に寄与していることを示す (+) は値が大きいほど Age of Acquisition が大きい(習得が遅い) 結果: 人間と言語モデルの単語習得の比較 11/19

Slide 12

Slide 12 text

頻度: モデルも人間も、頻度が高い単語の方が Age of Acquisition が小 さい(習得が速い) ただし、言語モデルは頻度が Age of Acquisition をほとんどうまく説明する (ほとんど頻度だけに依存している)のに対し、人間はそうではないという 違いがある 結果: 人間と言語モデルの単語習得の比較 12/19

Slide 13

Slide 13 text

その単語を含むトークン長(MLU): (LSTM を除き)モデルも人間 も、長い方が Age of Acquisition が大きい(習得が遅い)。長い文ほ ど文法的に難しい内容を含むので、モデルにとって予測が難しくなりそ うである(これは、人間についても同じ要因が言えるかもしれない) 文字数: モデルは長い単語ほど Age of Acquisition が小さい(習得が速 い)ことになり、人間と真逆の結果である。 単語の長さを情報として使わない言語モデルでこのような優位差が見ら れるのは不思議だが、筆者らは、短い単語の方が多義語であることが多 く、学習が難しくなるのではないかと分析している。 結果: 人間と言語モデルの単語習得の比較 13/19

Slide 14

Slide 14 text

抽象度: 人間は具体的な単語ほど早く学習するが、モデルにはそのよう な傾向はない。 品詞: 人間は、名詞をまず最初に習得し、形容詞や動詞を学び、最後に 接続詞や冠詞などの機能語を学ぶ。モデルについて見ると、Bi-LSTM と BERT には強い傾向はない。GPT-2 と LSTM について見ると、むし ろ形容詞と動詞を先に学び、その後名詞と機能語を学ぶ傾向がある。 ここまでの結論: MLU が Age of Acquisition に与える影響はモデルと 人間で合致しており、distribution learning が人間の言語習得を説明 できそうなポイントである。一方で、文字数や品詞などが Age of Acquisition に与える影響などは全く異なっており、distribution learning が人間の言語習得を説明できなさそうなポイントである。 結果: 人間と言語モデルの単語習得の比較 14/19

Slide 15

Slide 15 text

(最初に赤ちゃんがしゃべる単語が a や that だったら怖い) 結果: 人間と言語モデルの単語習得の比較 15/19

Slide 16

Slide 16 text

グラフが綺麗な曲線を描かずに、ある値に落ち着いている この値はその単語自体の頻度(= uni-gram の確率) に合致する 考察: モデルの学習曲線の観察 16/19

Slide 17

Slide 17 text

実験: モデルの予測分布と他の分布の比較 17/19

Slide 18

Slide 18 text

実験: モデルの予測分布と他の分布の比較 18/19

Slide 19

Slide 19 text

(単語を周りの単語から予測する問題を大量に解く)ニューラル言語モ デルといえども、学習の初期段階では、周りの単語関係なく、統計的情 報に頼っていることが明らかになった これは、モデルが簡単な clue から学習してしまうという shortcut learning の問題に似ているような気がして面白かった 人間にも distribution learning の能力があるとされるとはいえ、五感 のグラウンディング情報を使って言語を学べるのは今のモデルにはな い、人間の言語獲得の特徴である。これをうまく Vision-and- language モデルや強化学習モデルが模倣できるようになることが、次 世代の言語モデルの鍵になるのではないか。 人間と同じように、モデルが baby や daddy のような単語から学ぶ世界は ありうるのか まとめと感想 19/19