Upgrade to Pro — share decks privately, control downloads, hide ads and more …

タスクとデータセット紹介 GLUE, SuperGLUE

タスクとデータセット紹介 GLUE, SuperGLUE

研究室でのチュートリアル資料です。

ryoma yoshimura

July 10, 2019
Tweet

More Decks by ryoma yoshimura

Other Decks in Research

Transcript

  1. GLUE Benchmark GLUE (General Language Understanding Evaluation) Benchmark • 汎用的な言語理解のための評価指標

    • NLPの学習、評価、分析のためのデータセットを集めたもの • 9つの文または文のペアの言語理解タスク • 様々なサイズ、ジャンル、難易度をカバーするように選ばれている CoLA, SST-2, MRPC, STS, QQP, MNLI, QNLI, RTE, WNLI
  2. CoLA (The Corpus of Linguistic Acceptability) • 文の許容性を評価するタスク • 23の言語学出版物からの

    10,657 文 ◦ 著者が許容性(文法性)をアノテーション ◦ 0 = unacceptable, 1 = acceptable の2値 • 評価指標はマシューズ相関係数 例文 0 Books were sent to each other by the students. 1 The gardener planted roses in the garden. 0 many evidence was provided.
  3. SST-2 (The Stanford Sentiment Treebank) • 文の極性を評価するタスク • 映画のレビューから抽出した文 •

    フレーズ(句)単位でポジネガがアノテーションされている • 文単位で2値 (1: positive, 0: negative)になるように変換されている • train: 67,350, dev: 873, test 1,822 • 評価指標は Accuracy 例文 a good one 1 i hate it . 0 handsome but unfulfilling suspense drama 0
  4. MRPC (Microsoft Research Paraphrase Corpus) • 2文が言い換えかどうかを判断するタスク • 1 =

    言い換え, 0 = 言い換えでないの2値 • Webのニュース記事から抽出 • train: 4,077 pairs, test: 1,726 pairs • 評価指標は Accuracy 例文 1 The songs are on offer for 99 cents each , or $ 9.99 for an album . The company will offer songs for 99 cents and albums for $ 9.95 . 0 The loonie , meanwhile , continued to slip in early trading Friday . The loonie , meanwhile , was on the rise again early Thursday .
  5. STS (Semantic Textual Similarity) • 2文の意味の類似性を評価するタスク • 画像のキャプション、ニュースの見出し、ユーザーフォーラムから抽出 • 2012~17の

    SentEval で使用されたデータセット • 0から5の連続値でアノテーションされている • 評価指標はピアソン/スピアマン train dev test total news 3,299 500 500 4299 caption 2,000 625 625 3,250 forum 450 375 254 1079 total 5,749 1,500 1,379 8,628 例文 4.2 a small bird sitting on a branch in winter. a small bird perched on an icy branch. 1.6 The man is playing the piano. The man is playing the guitar.
  6. QQP (Quora Question Pairs) • 2文の意味の等価性を評価するタスク • Quora(質問サイト)から抽出した質問文ペア ◦ 1

    = 等価, 0 = 等価でないの2値 • 404,302 pairs • 評価指標は Accuracy, F1 例文 1 How can I be a good geologist? What should I do to be a great geologist? 0 What is a least natural number? How many calories does a Dominos pizza have?
  7. MNLI (Multi-Genre NLI Matched / Mismatched) • NLI (Natural Language

    Inference) : 自然言語推論 ◦ 前提と仮説の2つのテキストの関係を評価するタスク ◦ entailment: 正しい, contradiction: 矛盾, neutral: 中立 の3値 • 書き言葉と話し言葉のジャ ンルの範囲をカバーしてい る • 433,000 pairs • 評価指標は Accuracy
  8. QNLI (Question NLI) • パラグラフとその答えが entailment か not_entailmentかを評価するタスク • SQuAD

    を2値分類タスクにしたもの ◦ SQuAD: パラグラフ、質問、答えのデータセット ◦ entailment: (質問、正解文)not_entailment:(質問、パラグラフの答えじゃない文) • train: 104,744, dev: 5,464, test: 5.464 • 評価指標は Accuracy 例文 entailment What came into force after the new constitution was herald? As of that day, the new constitution heralding the Republic came into force not entailment What language did Tesla study while in school? Tesla was the fourth of five children.
  9. RTE (Recognizing Textual Entailment) • 2文間の関係を評価するタスク ◦ entailment, not entailmentの2値

    • train: 2,491, dec: 278, test: 3,000 • 評価指標は Accuracy 例文 entailment Money raised from the sale will go into a trust for Hepburn's family. Proceeds go to Hepburn's family. not entailment Oil prices fall back as Yukos oil threat lifted Oil prices rise.
  10. WNLI (Winograd NLI) • Winograd Schema Challenge (WSC) ◦ 照応解析タスク

    The city councilmen refused the demonstrators a permit because they [feared/advocated] violence. ◦ theyが councilmen なのか demonstrators なのかを推定する ▪ feared なら councilmen, advocated なら demonstrators • Winograd NLI ◦ WSCのデータセットから代名詞を置換して作った ◦ 2文の含意関係を評価する ▪ train: 636, dev:72, test: 147 ◦ データセットの構築に問題あり
  11. 例文 1 John promised Bill to leave, so an hour

    later he left. John left. 0 The fish ate the worm. It was hungry. The worm was hungry. • 評価指標は Accuracy
  12. CB (CommitmentBank) • NLIタスク • Text と Hypothesi が入力で Entailment

    (3値)を予測 • train: 250, dev: 56, test: 249 • 評価指標は Accuracy, F1
  13. COPA (Choice of Plausible Alternatives) • もっともらしい選択肢を選択するタスク • 例はすべて手作り •

    オンラインブログと写真関連の百科事典から作成 • dev: 500, test 500