Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Living Machines: A study of atypical animacy

9e650916f36300d64c9c61eeb4ab697e?s=47 Taichi Aida
January 05, 2021

文献紹介:Living Machines: A study of atypical animacy

title: Living Machines: A study of atypical animacy
authors: Mariona Coll Ardanuy, Federico Nanni, Kaspar Beelen, Kasra Hosseini, Ruth Ahnert, Jon Lawrence, Katherine McDonough, Giorgia Tolfo, Daniel CS Wilson, Barbara McGillivray
conference: COLING2020

9e650916f36300d64c9c61eeb4ab697e?s=128

Taichi Aida

January 05, 2021
Tweet

Transcript

  1. Living Machines: A study of atypical animacy Mariona Coll Ardanuy,

    Federico Nanni, Kaspar Beelen, Kasra Hosseini, Ruth Ahnert, Jon Lawrence, Katherine McDonough, Giorgia Tolfo, Daniel CS Wilson, Barbara McGillivray COLING2020 論文紹介
  2. 導入 - 単語の有生性(animacy)を検出する研究 - 単語に生物としての性質があるかどうか - 例:猫がいる - 動詞「いる」の対象「猫」は有生性を持つ -

    例:石がいる→石がある - 有生性を持たない「石」に動詞「いる」は使えない - この論文における貢献 - 新たに英語のデータセットを作成 - BERT を用いた教師なしの検出手法を提案 2
  3. 現状のデータセット - The Stories animacy dataset (Jahan2018) - 英語に翻訳された物語に animacy

    の有無を付与 - 18,708 文 3
  4. 新たなデータセットの作成 - The 19thC Machines animacy dataset - The Stories

    animacy dataset は典型的な例が多い - 非典型的な有生性を検出するために、機械系の単語につ いて animacy, humanness をアノテーション - 19世紀の本(19thC BL Books)からデータを抽出 - 対象の単語は1850年以降のデータで訓練した word2vec で ‘machine’ と ‘machines’ にベクトルの近いものから選 択 - 600文について、animacy, humanness を付与 - 生物の特徴を持つ / 感情や魂を持つ:animacy - 人間の感情を捉えられる:humanness 4
  5. 新たなデータセットの作成 - The 19thC Machines animacy dataset - The Stories

    animacy dataset は典型的な例が多い - 非典型的な優生性を検出するために、機械系の単語につ いて animacy, humanness をアノテーション - 19世紀の本(19thC BL Books)からデータを抽出 - 対象の単語は上の 1850年以降のデータで訓練した word2vec で ‘machine’ と ‘machines’ にベクトルの近いも のを選択 - 600文 5
  6. 提案手法:有生性の検出 - BERT で mask された単語を予測する - They were told

    that the [MASK] stopped working. - animacy の判別 - 予測した単語の上位概念が生き物であるかどうか - WordNet で予測した単語の上位概念を確認 - 上位概念が living_things :animacy - それ以外:inanimacy 6
  7. 実験:有生性の検出 - ターゲット単語の animacy/inanimacy を予測で きるか - ベースライン - 分類:分類器の訓練のデータは

    ターゲットのみ, ターゲット 及びその周辺, ターゲットを mask したもの及びその周辺 の3通り - SVM + tfidf - SVM + word embeddings - BERT classifier - LSTM 7
  8. 実験:有生性の検出 - 単語の animacy を予測できるか - データ - 評価 -

    precision, recall, F-score 8
  9. 結果:有生性の検出 9 BERT Classifier と LSTM が良い。 全体的に数値が高いため、 簡単な問題?

  10. 結果:有生性の検出 10 提案手法が良い。 19世紀を2つに分けて fine-tuning しても、大 差はない。

  11. 議論:人間性の有無 - 人間性(humanness)が無い場合のみ savage, slaves が出現 - 昔のデータにあるバイアス? 11

  12. 議論:技術革新の与える影響 - 言語は変化し、技術や社会変化の影響を受ける - 機織:人間の仕事→機械化 12

  13. 結論 - 単語の有生性を検出するため、 - 新たなデータを作成した - BERT による新たな検出方法を提案した - 19世紀の文書で機械系の単語について分析

    - humanness, 通時的な解析などは future work 13
  14. 参考文献 [1] Labiba Jahan, Geeticka Chauhan, Mark Finlayson. A New

    Approach to Animacy Detection, COLING2018. [link] 14
  15. 言語モデルの話 15