Slide 1

Slide 1 text

Living Machines: A study of atypical animacy Mariona Coll Ardanuy, Federico Nanni, Kaspar Beelen, Kasra Hosseini, Ruth Ahnert, Jon Lawrence, Katherine McDonough, Giorgia Tolfo, Daniel CS Wilson, Barbara McGillivray COLING2020 論文紹介

Slide 2

Slide 2 text

導入 - 単語の有生性(animacy)を検出する研究 - 単語に生物としての性質があるかどうか - 例:猫がいる - 動詞「いる」の対象「猫」は有生性を持つ - 例:石がいる→石がある - 有生性を持たない「石」に動詞「いる」は使えない - この論文における貢献 - 新たに英語のデータセットを作成 - BERT を用いた教師なしの検出手法を提案 2

Slide 3

Slide 3 text

現状のデータセット - The Stories animacy dataset (Jahan2018) - 英語に翻訳された物語に animacy の有無を付与 - 18,708 文 3

Slide 4

Slide 4 text

新たなデータセットの作成 - The 19thC Machines animacy dataset - The Stories animacy dataset は典型的な例が多い - 非典型的な有生性を検出するために、機械系の単語につ いて animacy, humanness をアノテーション - 19世紀の本(19thC BL Books)からデータを抽出 - 対象の単語は1850年以降のデータで訓練した word2vec で ‘machine’ と ‘machines’ にベクトルの近いものから選 択 - 600文について、animacy, humanness を付与 - 生物の特徴を持つ / 感情や魂を持つ:animacy - 人間の感情を捉えられる:humanness 4

Slide 5

Slide 5 text

新たなデータセットの作成 - The 19thC Machines animacy dataset - The Stories animacy dataset は典型的な例が多い - 非典型的な優生性を検出するために、機械系の単語につ いて animacy, humanness をアノテーション - 19世紀の本(19thC BL Books)からデータを抽出 - 対象の単語は上の 1850年以降のデータで訓練した word2vec で ‘machine’ と ‘machines’ にベクトルの近いも のを選択 - 600文 5

Slide 6

Slide 6 text

提案手法:有生性の検出 - BERT で mask された単語を予測する - They were told that the [MASK] stopped working. - animacy の判別 - 予測した単語の上位概念が生き物であるかどうか - WordNet で予測した単語の上位概念を確認 - 上位概念が living_things :animacy - それ以外:inanimacy 6

Slide 7

Slide 7 text

実験:有生性の検出 - ターゲット単語の animacy/inanimacy を予測で きるか - ベースライン - 分類:分類器の訓練のデータは ターゲットのみ, ターゲット 及びその周辺, ターゲットを mask したもの及びその周辺 の3通り - SVM + tfidf - SVM + word embeddings - BERT classifier - LSTM 7

Slide 8

Slide 8 text

実験:有生性の検出 - 単語の animacy を予測できるか - データ - 評価 - precision, recall, F-score 8

Slide 9

Slide 9 text

結果:有生性の検出 9 BERT Classifier と LSTM が良い。 全体的に数値が高いため、 簡単な問題?

Slide 10

Slide 10 text

結果:有生性の検出 10 提案手法が良い。 19世紀を2つに分けて fine-tuning しても、大 差はない。

Slide 11

Slide 11 text

議論:人間性の有無 - 人間性(humanness)が無い場合のみ savage, slaves が出現 - 昔のデータにあるバイアス? 11

Slide 12

Slide 12 text

議論:技術革新の与える影響 - 言語は変化し、技術や社会変化の影響を受ける - 機織:人間の仕事→機械化 12

Slide 13

Slide 13 text

結論 - 単語の有生性を検出するため、 - 新たなデータを作成した - BERT による新たな検出方法を提案した - 19世紀の文書で機械系の単語について分析 - humanness, 通時的な解析などは future work 13

Slide 14

Slide 14 text

参考文献 [1] Labiba Jahan, Geeticka Chauhan, Mark Finlayson. A New Approach to Animacy Detection, COLING2018. [link] 14

Slide 15

Slide 15 text

言語モデルの話 15