【論文紹介】Word Acquisition in Neural Language Models

Word Acquisition in Neural Language Models Chang and Bergen, TACL
2022 Kaito Sugimoto Aizawa Lab. M2 2022/08/08 1/19

TACL 2022 紹介する論文 2/19

近年成果を上げているニューラル言語モデル（LSTM, BERT, GPT etc.）が、訓練中に各単語をどのように学習していくのかを、人間（幼児）の言語習得と比較して考察人間と比べて言語モデルの習得ペースは、単語の出現頻度にはるかに依存している一方で、人間と同様に、長い文章に含まれる単語の習得がより遅くなることが確認された。また、モデルのアーキテクチャにかかわらず、習得の傾向は似たものになることが分かった。
さらに、訓練期間においてモデルの予測の推移を見ると、まず最初には訓練データの uni-gram の頻度分布に fit し、次に bi-gram の頻度分布に fit してから、最終的に訓練データの正解ラベルに fit していくというステップを共通して踏むことが分かった。概要 3/19

ニューラル言語モデルについて、心理言語学や認知科学の知見をもとに、人間の言語使用とどのように違うのかを調べる研究は多数あるしかし、そのような研究の多くは事前学習が完了済みの言語モデルについて調べており、訓練中の言語モデルの知見はほとんど溜まっていない一方で、人間の場合、幼児の言語習得に関しては多くの研究がある背景 4/19

モデルの言語習得と人間の言語習得を比べることは双方の分野にとって知見を与える NLP においては、なぜモデルが上手くいかないのか、どういう訓練をすればより良いモデルになるのかを考える材料になる言語学（言語教育学）においては、人間には distributional learning の能力があるという証拠が見つかっている。言語モデルは
distributional learning だけを使った人間とみなせるので、そういった仮想的な人間の言語習得が実際の人間の言語習得と本当に一致しているのかを調べることは、 distributional learning の妥当性を評価する上で重要背景 1 1: 五感などのグラウンディング情報を使わず、コーパスの統計的情報だけから言語学的知識を学ぶこと。 Richard Aslin and Elissa Newport. 2014. Distributional language learning: Mechanisms and models of category formation, Language Learning を参照 5/19

幼児の言語習得を調べる際には、マッカーサー乳幼児言語発達質問紙 (MacArthur-Bates Communicative Development Inventory; CDI) というアンケートが用いられる。 Frank et
al., 2017 では、多くの親に CDI に協力してもらい、「いつ自分の子どもがある単語を発するようになったか」というデータを大規模に収集全体の 50% の子どもが単語を発するようになった年齢を Age of Acquisition として定義単語の頻度、長さ、品詞、抽象度が Age of Acquisition に影響を与えることが分かった前提: 幼児の単語習得 2 w w 2: Michael Frank, Mika Braginsky, Daniel Yurovsky, and Virginia Marchman. 2017. Wordbank: An open repository for developmental vocabulary data. Journal of Child Language, 44(3):677–694. 6/19

言語モデルが単語をどの程度習得しているかは、その単語のサプライザルで評価するサプライザル: ある単語の周囲のに対する予測確率の負の対数のこと。おおむね、人間が読みやすい（自然）と感じる文においてサプライザルが低いとされている
また、事前学習が完了した言語モデルのサプライザルから前述の Age of Acquisition を予測可能とする研究もある（つまり、モデルにとって予測が難しい単語は人間も習得が遅い傾向が見られることが分かっている）前提: モデルの単語習得 w w w , ...w 1 k − log P (w∣w , ..., w ) 2 1 k 3 4 5 3: 「周囲の単語」とはモデル依存であり、BERT や Bi-LSTM のような双方向から単語予測するモデルでは左右両方の context を指し、GPT-2 や通常のLSTMのような左から単語予測するモデルでは左の context のみを指す 4: 反論もある: Kuribayashi et al., Lower Perplexity is Not Always Human-Like (ACL 2021) 5: Eva Portelance, Judith Degen, andMichael Frank. 2020. Predicting age of acquisition in early word learning using recurrent neural networks. In Proceedings of CogSci 2020. 7/19

扱う言語モデル: LSTM, Bi-LSTM, BERT, GPT-2 （幼児のデータのある）CDI に含まれる 651 単語のうち、言語モデルが
1 トークン扱いする 611 単語を対象に比較を行う各単語に対して、を含む文を最大 512 文それぞれ validation set から抽出し、そのサプライザルの平均を計算する作業を 200 step で行う人間の場合と同様に、モデルの Age of Acquisition をサプライザルの中間値として考える。すなわち、random chance で予測した場合のサプライザルと、一番モデルがうまく予測し低い値になった場合のサプライザルの中間値に到達した時の step を、モデルの Age of Acquisition とする。実験: 人間と言語モデルの単語習得の比較 w w 6 6: 厳密には、sigmoid 曲線でグラフ全体を近似して中間値に対応する step をとる 8/19

実験: 人間と言語モデルの単語習得の比較 9/19

各単語について、以下の5つの因子からの Age of Acquisition を予測する回帰モデルを考えるの（訓練データ中の）頻度を含む文のトークン長（MLU;
mean length of utterances）の文字数の抽象度の品詞そして、それぞれの因子について、それを抜いて予測した場合と尤度比検定を行い、その因子が予測に寄与しているかどうかを見積もる実験: 人間と言語モデルの単語習得の比較 w w w w w w w 7 7: 厳密には、頻度の高い単語ほど文字数が少ない事象（Zipf則）などが見られるため、これらの因子が独立とは言えないが、それを考慮して修正しても、以後示す実験結果に変化はなかったそうである 10/19

* は有意に予測に寄与していることを示す (+) は値が大きいほど Age of Acquisition が大きい（習得が遅い）結果: 人間と言語モデルの単語習得の比較
11/19

頻度: モデルも人間も、頻度が高い単語の方が Age of Acquisition が小さい（習得が速い）ただし、言語モデルは頻度が Age of
Acquisition をほとんどうまく説明する（ほとんど頻度だけに依存している）のに対し、人間はそうではないという違いがある結果: 人間と言語モデルの単語習得の比較 12/19

その単語を含むトークン長（MLU）: （LSTM を除き）モデルも人間も、長い方が Age of Acquisition が大きい（習得が遅い）。長い文ほど文法的に難しい内容を含むので、モデルにとって予測が難しくなりそうである（これは、人間についても同じ要因が言えるかもしれない）
文字数: モデルは長い単語ほど Age of Acquisition が小さい（習得が速い）ことになり、人間と真逆の結果である。単語の長さを情報として使わない言語モデルでこのような優位差が見られるのは不思議だが、筆者らは、短い単語の方が多義語であることが多く、学習が難しくなるのではないかと分析している。結果: 人間と言語モデルの単語習得の比較 13/19

抽象度: 人間は具体的な単語ほど早く学習するが、モデルにはそのような傾向はない。品詞: 人間は、名詞をまず最初に習得し、形容詞や動詞を学び、最後に接続詞や冠詞などの機能語を学ぶ。モデルについて見ると、Bi-LSTM と BERT には強い傾向はない。GPT-2 と
LSTM について見ると、むしろ形容詞と動詞を先に学び、その後名詞と機能語を学ぶ傾向がある。ここまでの結論: MLU が Age of Acquisition に与える影響はモデルと人間で合致しており、distribution learning が人間の言語習得を説明できそうなポイントである。一方で、文字数や品詞などが Age of Acquisition に与える影響などは全く異なっており、distribution learning が人間の言語習得を説明できなさそうなポイントである。結果: 人間と言語モデルの単語習得の比較 14/19

（最初に赤ちゃんがしゃべる単語が a や that だったら怖い）結果: 人間と言語モデルの単語習得の比較 15/19

グラフが綺麗な曲線を描かずに、ある値に落ち着いているこの値はその単語自体の頻度（= uni-gram の確率）に合致する考察: モデルの学習曲線の観察 16/19

実験: モデルの予測分布と他の分布の比較 17/19

実験: モデルの予測分布と他の分布の比較 18/19

（単語を周りの単語から予測する問題を大量に解く）ニューラル言語モデルといえども、学習の初期段階では、周りの単語関係なく、統計的情報に頼っていることが明らかになったこれは、モデルが簡単な clue から学習してしまうという shortcut learning の問題に似ているような気がして面白かった人間にも
distribution learning の能力があるとされるとはいえ、五感のグラウンディング情報を使って言語を学べるのは今のモデルにはない、人間の言語獲得の特徴である。これをうまく Vision-and- language モデルや強化学習モデルが模倣できるようになることが、次世代の言語モデルの鍵になるのではないか。人間と同じように、モデルが baby や daddy のような単語から学ぶ世界はありうるのかまとめと感想 19/19

【論文紹介】Word Acquisition in Neural Language Models

【論文紹介】Word Acquisition in Neural Language Models

Kaito Sugimoto

More Decks by Kaito Sugimoto

Other Decks in Research

Featured

Transcript

Word Acquisition in Neural Language Models Chang and Bergen, TACL

TACL 2022 紹介する論文 2/19

幼児の言語習得を調べる際には、マッカーサー乳幼児言語発達質問紙 (MacArthur-Bates Communicative Development Inventory; CDI) というアンケートが用いられる。 Frank et

扱う言語モデル: LSTM, Bi-LSTM, BERT, GPT-2 （幼児のデータのある）CDI に含まれる 651 単語のうち、言語モデルが

実験: 人間と言語モデルの単語習得の比較 9/19

各単語について、以下の5つの因子からの Age of Acquisition を予測する回帰モデルを考えるの（訓練データ中の）頻度を含む文のトークン長（MLU;

* は有意に予測に寄与していることを示す (+) は値が大きいほど Age of Acquisition が大きい（習得が遅い）結果: 人間と言語モデルの単語習得の比較

頻度: モデルも人間も、頻度が高い単語の方が Age of Acquisition が小さい（習得が速い）ただし、言語モデルは頻度が Age of

（最初に赤ちゃんがしゃべる単語が a や that だったら怖い）結果: 人間と言語モデルの単語習得の比較 15/19

グラフが綺麗な曲線を描かずに、ある値に落ち着いているこの値はその単語自体の頻度（= uni-gram の確率）に合致する考察: モデルの学習曲線の観察 16/19

実験: モデルの予測分布と他の分布の比較 17/19

実験: モデルの予測分布と他の分布の比較 18/19