EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP

The Myth of Double-Blind Review Revisited: ACL vs. EMNLP Cornelia
Caragea, Ana Sabina Uban, and Liviu P. Dinu EMNLP 2019 紹介者: 平尾礼央（TMU, B4, 小町研究室） 20 January, 2020 @EMNLP読み会

Abstract • Is the double-blind review process really double-blind? ◦
ACLとEMNLPに投稿された論文を使って調査 • 分析 ◦ 訓練したCNNを分析し、論文のどこが推定に貢献しているか調査 ◦ e.g. content, style features, and references • 結果 ◦ 多くの論文を投稿している 100人の著者についてAccuracyで、ACLで87%、EMNLPで78%

Introduction • 査読は科学論文のクオリティを保つために必要不可欠である． ◦ バイアスが問題となっている (Tomkins et al. 2017) ◦
有名な著者、大学、企業は single-blindとdouble-blindで1.5〜2倍程度採択率が変わる • Double-blindはカンファレンスや論文誌に使用される ◦ 以前の研究や名声に関係なく審査し、公平性を確保 ◦ しかし、double-blindにおける匿名性は依然疑問視されている ◦ 引用論文の類似度から論文の著者を推定する研究 (Hill and Provost 2003) ▪ top 10%の著者について、60%の精度で当てられる ▪ 自分の論文を引用していると予測精度が高まる • Double-blindを採用しているACLとEMNLPの論文を使用 ◦ ACLで87%、EMNLPで78%の精度

Datasets • 2014年以前に投稿されたACL、EMNLPの論文 ◦ 全体 ▪ ACL: 4,412 articles, 6,565
unique authors ▪ EMNLP: 1,027 articles, 1,861 unique authors ◦ 3件以上投稿している著者の論文だけを使用 ▪ ACL: 922 authors ▪ EMNLP: 262 authors • 論文中で引用された著者の分布

Datasets • ACL、EMNLPデータセットにおけるtop 15の著者の採択数、被引用数

Datasets • 名前の正規化について ◦ 名のイニシャル+姓で正規化 ▪ 引用箇所では既に正規化されていることも多い ▪ 論文の著者名と被引用論文の著者名を一致させる必要あり ▪
ミドルネームの有無・名前のスペル違いにも対応できる (Dan/Daniel) ◦ 右図：正規化された名前の衝突件数 ◦ top100人についてACLで13件、EMNLPで3件 ▪ 衝突数は少ない

Proposed Model • Features ◦ Content level ▪ word sequences
▪ 100-word sequences in the article’s title abstract, and body ◦ Style level ▪ stopwords bag-of-words, POS sequeces ◦ Citation level ▪ bag-of-words of cited author

Proposed Model • Content level ◦ 単語系列はword2vecを使って300次元にする ▪ googleのpre-trained word2vec
(skip-gram) を使用 ▪ embeddingは変更せず、ネットワークでタスクとドメインに適用する ◦ CNNの設定 ▪ 300 filters, kernel size 9 • Style level ◦ 単語を品詞 (POS tag) の系列にする ▪ 品詞系列をone-hot形式でCNNへ ◦ CNNの設定 ▪ 50 filters, kernel size 3 ◦ Stopwordsのbag-of-wordsも使用 ▪ StopwordsはNLTKのものを使用

Proposed Model • Citation level ◦ 被引用論文の著者の出現頻度を使用 (bag-of-cited-authors) ◦ cited-authorsは非常に多く、ACLデータセットで22,000人
◦ one-hotにすると高次元になってしまうので、全結合層で低次元にする • Final layers ◦ それぞれのサブコンポーネントの出力を全結合層へ ◦ Softmaxで各ラベルの予測確率を生成

Preprocessing and Feature Extraction • 論文のPDFからGrobidを使って文章を抽出 ◦ 引用箇所、Referenceを削除し、contentとcitation featureを独立にする ◦
正規化、トークン化 ◦ ACLデータセットにおける vocabは全論文で頻出の50,000語 (Hitschler et al., 2017) ◦ EMNLPデータセットでは、最小の頻度を 5回とした約23,000語 • 符号化 ◦ vocab外の単語は”unk”トークンにする ◦ 系列長が短い場合、ゼロパディング ◦ 引用箇所の周辺の文字系列 (100 words) を使用し、引用に関する単語を素性とする • 品詞タグ付け ◦ Stanford POS tagger https://github.com/kermitt2/grobid

Experimental Setup and Results • Split the dataset (Hold-out Validation)
◦ train, validation, testにそれぞれ1回は同一の著者が出現するように分割 ◦ 訓練データでは、各クラスの分布を均一にするために重み付きサンプリング ◦ 同じ論文を複製し、複数の著者を一人ずつその論文の著者とする ◦ これにより、重み付きサンプリングが可能になり、最終層が単純なソフトマックスになる ◦ 評価の時は、予測確率を使う

Metrics • マルチクラス分類とランキング推定の評価指標を使用 • Accuracy@k (k=10) (Spink and Jansen, 2004で使用された)
◦ 予測された上位kクラスのうち少なくとも 1つ真 • Mean Average Precision (MAP) • Mean Average Recall (MAR) • Mean Reciprocal Rank (MRR) ◦ 真のクラスが予測上位に来るほど高くなる

Experiment Settings 1. 採択頻度上位100, 200の著者のデータだけを使う ◦ 採択数が今回の最低数 (3) の場合は訓練データに 1件しか入らないため
◦ 予測対象が絞られるのでスコアが高くなることが予想される 2. 素性の重要度を分析するため、特定の素性以外を除外する ◦ content level, style level, citation levelの3つで実験 3. 著者推定において重要な部分の分析 ◦ 本文 ◦ タイトルとアブスト ◦ 論文の引用コンテキスト重要な部分の分析にはtop100のdatasetを使用

Results

Results 著者の予測においてReferencesの情報は重要 • 被引用論文の著者の情報だけを利用した Baselineでも54.86%, 57.80% • Referencesのみを使用したNNモデルでも高いスコア

Results 全てのfeatureを使ったNNモデルはAccuracy@10において ACL: 87.88%, EMNLP: 78.49% (top 100 class)

Results 素性の重要度の順位は、Reference > Content > Style Content等は順位的には低いが、それでもランダムに予測するよりはるかに優れている (ランダムだと10%程度)

Results テキストの重要な部分では、Contentn > Ref. contexts > title + abstr. 参照のコンテキストはタイトルやアブストよりも重要

Results • クラス数（出現頻度が低い著者）が増えるに連れて精度は低下する ◦ ACL: 87.88% => 47.59% ◦ EMNLP:
78.59% => 57.86%

Error Analysis • ACL test setの各著者の誤分類率を計算 ◦ 誤分類率 = 正確に予測した数
/ 全論文数 • 論文数で昇順にランク付けした時、著者のランクと誤分類率の相関が0.35であり、採択数が多いほど正確に分類される傾向がある • 引用論文が似ている、キーワードが同じ場合間違えやすい

Conclusions and Discussion • 論文の文章情報から高い精度で著者を予測できることを示した ◦ 特に引用論文は著者を予測するのに役に立つ ◦ 採択数が少ない著者の予想は難しいので、採択数が少なければ double-blindは有効
• この論文の実験では、論文が全ての著者によって書かれたように扱ったが、これは正確ではない ◦ 著者情報を使ってテキストをセグメント化できれば精度が上がるかもしれない

EMNLP論文紹介 The Myth of Double-Blind Review Revis...

EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP

Reo

More Decks by Reo

Other Decks in Technology

Featured

Transcript

The Myth of Double-Blind Review Revisited: ACL vs. EMNLP Cornelia

Abstract • Is the double-blind review process really double-blind? ◦

Introduction • 査読は科学論文のクオリティを保つために必要不可欠である． ◦ バイアスが問題となっている (Tomkins et al. 2017) ◦

Datasets • 2014年以前に投稿されたACL、EMNLPの論文 ◦ 全体 ▪ ACL: 4,412 articles, 6,565

Datasets • ACL、EMNLPデータセットにおけるtop 15の著者の採択数、被引用数

Datasets • 名前の正規化について ◦ 名のイニシャル+姓で正規化 ▪ 引用箇所では既に正規化されていることも多い ▪ 論文の著者名と被引用論文の著者名を一致させる必要あり ▪

Proposed Model • Features ◦ Content level ▪ word sequences

Proposed Model • Content level ◦ 単語系列はword2vecを使って300次元にする ▪ googleのpre-trained word2vec

Proposed Model • Citation level ◦ 被引用論文の著者の出現頻度を使用 (bag-of-cited-authors) ◦ cited-authorsは非常に多く、ACLデータセットで22,000人

Preprocessing and Feature Extraction • 論文のPDFからGrobidを使って文章を抽出 ◦ 引用箇所、Referenceを削除し、contentとcitation featureを独立にする ◦

Experimental Setup and Results • Split the dataset (Hold-out Validation)

Metrics • マルチクラス分類とランキング推定の評価指標を使用 • Accuracy@k (k=10) (Spink and Jansen, 2004で使用された)

Experiment Settings 1. 採択頻度上位100, 200の著者のデータだけを使う ◦ 採択数が今回の最低数 (3) の場合は訓練データに 1件しか入らないため

Results

Results 著者の予測においてReferencesの情報は重要 • 被引用論文の著者の情報だけを利用した Baselineでも54.86%, 57.80% • Referencesのみを使用したNNモデルでも高いスコア

Results 全てのfeatureを使ったNNモデルはAccuracy@10において ACL: 87.88%, EMNLP: 78.49% (top 100 class)

Results 素性の重要度の順位は、Reference > Content > Style Content等は順位的には低いが、それでもランダムに予測するよりはるかに優れている (ランダムだと10%程度)

Results テキストの重要な部分では、Contentn > Ref. contexts > title + abstr. 参照のコンテキストはタイトルやアブストよりも重要

Results • クラス数（出現頻度が低い著者）が増えるに連れて精度は低下する ◦ ACL: 87.88% => 47.59% ◦ EMNLP:

Error Analysis • ACL test setの各著者の誤分類率を計算 ◦ 誤分類率 = 正確に予測した数

Conclusions and Discussion • 論文の文章情報から高い精度で著者を予測できることを示した ◦ 特に引用論文は著者を予測するのに役に立つ ◦ 採択数が少ない著者の予想は難しいので、採択数が少なければ double-blindは有効