distributional learning だけを使った人間とみなせるので、そういった仮想的な人間の言 語習得が実際の人間の言語習得と本当に一致しているのかを調べることは、 distributional learning の妥当性を評価する上で重要 背景 1 1: 五感などのグラウンディング情報を使わず、コーパスの統計的情報だけから言語学的知識を学ぶこと。 Richard Aslin and Elissa Newport. 2014. Distributional language learning: Mechanisms and models of category formation, Language Learning を参照 5/19
al., 2017 では、多くの親に CDI に協力してもらい、「いつ 自分の子どもがある単語 を発するようになったか」というデータを 大規模に収集 全体の 50% の子どもが単語 を発するようになった年齢を Age of Acquisition として定義 単語の頻度、長さ、品詞、抽象度が Age of Acquisition に影響を与え ることが分かった 前提: 幼児の単語習得 2 w w 2: Michael Frank, Mika Braginsky, Daniel Yurovsky, and Virginia Marchman. 2017. Wordbank: An open repository for developmental vocabulary data. Journal of Child Language, 44(3):677–694. 6/19
また、事前学習が完了した言語モデルのサプライザルから前述の Age of Acquisition を予測可能とする研究もある (つまり、モデルにとって予測が 難しい単語は人間も習得が遅い傾向が見られることが分かっている) 前提: モデルの単語習得 w w w , ...w 1 k − log P (w∣w , ..., w ) 2 1 k 3 4 5 3: 「周囲の単語」とはモデル依存であり、BERT や Bi-LSTM のような双方向から単語予測するモデルでは左右両方 の context を指し、GPT-2 や通常のLSTMのような左から単語予測するモデルでは左の context のみを指す 4: 反論もある: Kuribayashi et al., Lower Perplexity is Not Always Human-Like (ACL 2021) 5: Eva Portelance, Judith Degen, andMichael Frank. 2020. Predicting age of acquisition in early word learning using recurrent neural networks. In Proceedings of CogSci 2020. 7/19
mean length of utterances) の文字数 の抽象度 の品詞 そして、それぞれの因子について、それを抜いて予測した場合と尤度比 検定を行い、その因子が予測に寄与しているかどうかを見積もる 実験: 人間と言語モデルの単語習得の比較 w w w w w w w 7 7: 厳密には、頻度の高い単語ほど文字数が少ない事象(Zipf則)などが見られるため、これらの因子が独立とは言 えないが、それを考慮して修正しても、以後示す実験結果に変化はなかったそうである 10/19