Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BERT-based Document Ranking at the NTCIR-15 WWW-3

BERT-based Document Ranking at the NTCIR-15 WWW-3

Published on Mar 24, 2020

******
発展: https://speakerdeck.com/koheishinden/kasys-at-the-ntcir-15-www-3-task
******

2019年度 関東情報検索合同研究会
2020年3月24日(火)13:00-18:00

筑波大学 上保研,于研,加藤研のオンライン合同研究会.
B3の学生が取り組んだプロジェクト研究(昨年末からB3生が取り組んでいた,ゴールが明確なミニ研究)について発表.
(https://kasys.slis.tsukuba.ac.jp/2020/03/25/joint-workshop-2020-spring/)

IR Workshop in Kanto, FY2019
Mar. 24, 2020

On March 24, 2020, we had an online joint research workshop with Joho lab. and Yu lab. at University of Tsukuba, in which B3 students in our lab. presented their project research (a mini research exercise in which B3 students have been engaged since last year).
(https://kasys.slis.tsukuba.ac.jp/en/2020/03/25/joint-workshop-2020-spring/)

Kohei Shinden

March 24, 2020
Tweet

More Decks by Kohei Shinden

Other Decks in Research

Transcript

  1. • NTCIR WWW-3 Task ‒ Web ⽂書のアドホック検索タスク • BERT を利⽤した検索モデルの提案

    (Birch) ‒ Yilmaz et al: Cross-Domain Modeling of Sentence-level Evidence for Document Retrieval, EMNLP 2019 ‒ BERT: 広範囲の⾃然⾔語処理タスクで優れた性能を発揮する双⽅向⾔語モデル 背景 2 新宿 ペット ブタ ハロウィン 画像 検索システム ClueWeb12 Web⽂書 7.3 億件 ⼊⼒ 出⼒ 東京都で宿泊できる 格安ホテル... ペットとしてのポッ トベリーピッグ... ハロウィン画像コレ クション30選... 評価 nDCG 0.6 ⁝ 0.5 80トピック ⼊⼒ 順位付けされた⽂書
  2. • QA や Microblog 検索データセットで 学習されたテキスト間の適合性をアドホック検索に応⽤ ‒ クエリと⽂書中の⽂の適合性を推定 Birch とは?

    4 BERT モデル MB BERT ハロウィン Microblog データ トリックオア... 0.7 ⼦供がお菓⼦... 0.3 カボチャを使... 0.1 0.4 BERT + BM25 スコア 0.6 テキスト間適合性 判定モデル BM25 スコア BERT スコア ⽂ ⽂書
  3. クエリと⽂の適合性を利⽤ BERT 適⽤のポイント 5 BERT は⽂書レベルの テキストを扱えない アドホック検索において クエリと⽂の適合度 データが少ない

    他のタスクで学習した モデルを利⽤ 利⽤テストコレクション • MS MARCO:QA タスク • TREC CAR :A が複雑な QA タスク • TREC MB :ツイート検索タスク • ⼀般的なWeb⽂書は BERT の最⼤⼊⼒⻑である 512 トークンを超える
  4. • BM25 と⽂書中の最もBERTスコアが⾼い⽂のスコアの線形和 ‒ ⽂の適合性は⽂書内の「最良の」⽂または段落で決まるため[1] • BERTi : ⽂書中で i

    番⽬にBERTスコアの⾼い⽂のBERTスコア • wi : ハイパーパラメータ Birch のスコア計算 6 [1] Yilmaz et al: Cross-Domain Modeling of Sentence-level Evidence for Document Retrieval, EMNLP 2019 = 25 + , !"# $ .
  5. 実験結果 7 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

    0.4 0.45 0.5 BM25 MB CAR MS MARCO CAR → MB MS MARCO → MB nDCG@10 ベースライン 上位1⽂ 上位2⽂ 上位3⽂ • Birchで学習した結果のnDCG@10で評価 ‒ 上位k⽂:BERTスコアが最も⾼いk個をランキングに使⽤した場合
  6. 0.3098 0.3112 0.3103 0.3243 0.3263 0.3186 0.3112 0.3259 0.3273 0.3266

    0.3312 0.3318 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 BM25 MB CAR MS MARCO CAR → MB MS MARCO → MB nDCG@10 ベースライン 上位1⽂ 上位2⽂ 上位3⽂ 考察 8 • BERTによる検索モデルBirchをWWW-2タスクに適⽤して BM25ベースラインを超えるか? BM25 < Birch
  7. 0.3112 0.3103 0.3266 0.3312 0.3318 0 0.05 0.1 0.15 0.2

    0.25 0.3 0.35 0.4 0.45 0.5 BM25 MB CAR MS MARCO CAR → MB MS MARCO → MB nDCG@10 ベースライン 上位1⽂ 上位2⽂ 上位3⽂ 考察 9 MS MARCO → MBがベスト • どのタスクのデータで学習したBERTが最適か?
  8. • BERT による検索モデル Birch は BM25 ベースラインを超えた • MS MARCO

    → MB で学習した BERT が最適 ‒ CAR → MB で学習した BERT も同様の精度 まとめ 10