Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BERT-based Document Ranking at the NTCIR-15 WWW-3

BERT-based Document Ranking at the NTCIR-15 WWW-3

Published on Mar 24, 2020

******
発展: https://speakerdeck.com/koheishinden/kasys-at-the-ntcir-15-www-3-task
******

2019年度 関東情報検索合同研究会
2020年3月24日(火)13:00-18:00

筑波大学 上保研,于研,加藤研のオンライン合同研究会.
B3の学生が取り組んだプロジェクト研究(昨年末からB3生が取り組んでいた,ゴールが明確なミニ研究)について発表.
(https://kasys.slis.tsukuba.ac.jp/2020/03/25/joint-workshop-2020-spring/)

IR Workshop in Kanto, FY2019
Mar. 24, 2020

On March 24, 2020, we had an online joint research workshop with Joho lab. and Yu lab. at University of Tsukuba, in which B3 students in our lab. presented their project research (a mini research exercise in which B3 students have been engaged since last year).
(https://kasys.slis.tsukuba.ac.jp/en/2020/03/25/joint-workshop-2020-spring/)

Kohei Shinden

March 24, 2020
Tweet

More Decks by Kohei Shinden

Other Decks in Research

Transcript

  1. BERT-based Document Ranking
    at the NTCIR-15 WWW-3 Task
    筑波⼤学 加藤誠研究室
    新⽥ 洸平

    View Slide

  2. • NTCIR WWW-3 Task
    ‒ Web ⽂書のアドホック検索タスク
    • BERT を利⽤した検索モデルの提案 (Birch)
    ‒ Yilmaz et al: Cross-Domain Modeling of Sentence-level Evidence for
    Document Retrieval, EMNLP 2019
    ‒ BERT: 広範囲の⾃然⾔語処理タスクで優れた性能を発揮する双⽅向⾔語モデル
    背景 2
    新宿
    ペット ブタ
    ハロウィン 画像
    検索システム
    ClueWeb12
    Web⽂書
    7.3 億件
    ⼊⼒ 出⼒
    東京都で宿泊できる
    格安ホテル...
    ペットとしてのポッ
    トベリーピッグ...
    ハロウィン画像コレ
    クション30選...
    評価
    nDCG
    0.6

    0.5
    80トピック
    ⼊⼒
    順位付けされた⽂書

    View Slide

  3. 研究の⽬的 3
    BERTによる検索モデル
    BirchをWWW-2タスクに
    適⽤してBM25ベースラインを
    超えるか検証
    1
    複数のタスクのデータを⽤いて
    BERTの学習に最適なデータを
    検証
    • Yilmaz らは Birch の学習に QA や
    Microblog 検索などの異なるタスクの
    データセットを利⽤
    2

    View Slide

  4. • QA や Microblog 検索データセットで
    学習されたテキスト間の適合性をアドホック検索に応⽤
    ‒ クエリと⽂書中の⽂の適合性を推定
    Birch とは? 4
    BERT
    モデル
    MB
    BERT
    ハロウィン
    Microblog
    データ
    トリックオア...
    0.7
    ⼦供がお菓⼦...
    0.3
    カボチャを使...
    0.1
    0.4
    BERT + BM25 スコア
    0.6
    テキスト間適合性
    判定モデル
    BM25
    スコア
    BERT
    スコア
    ⽂ ⽂書

    View Slide

  5. クエリと⽂の適合性を利⽤
    BERT 適⽤のポイント 5
    BERT は⽂書レベルの
    テキストを扱えない
    アドホック検索において
    クエリと⽂の適合度
    データが少ない
    他のタスクで学習した
    モデルを利⽤
    利⽤テストコレクション
    • MS MARCO:QA タスク
    • TREC CAR :A が複雑な QA タスク
    • TREC MB :ツイート検索タスク
    • ⼀般的なWeb⽂書は
    BERT の最⼤⼊⼒⻑である
    512 トークンを超える

    View Slide

  6. • BM25 と⽂書中の最もBERTスコアが⾼い⽂のスコアの線形和
    ‒ ⽂の適合性は⽂書内の「最良の」⽂または段落で決まるため[1]
    • BERTi
    : ⽂書中で i 番⽬にBERTスコアの⾼い⽂のBERTスコア
    • wi
    : ハイパーパラメータ
    Birch のスコア計算 6
    [1] Yilmaz et al: Cross-Domain Modeling of Sentence-level
    Evidence for Document Retrieval, EMNLP 2019
    = 25 + ,
    !"#
    $

    .

    View Slide

  7. 実験結果 7
    0
    0.05
    0.1
    0.15
    0.2
    0.25
    0.3
    0.35
    0.4
    0.45
    0.5
    BM25 MB CAR MS MARCO CAR → MB MS MARCO → MB
    [email protected]
    ベースライン 上位1⽂ 上位2⽂ 上位3⽂
    • Birchで学習した結果の[email protected]で評価
    ‒ 上位k⽂:BERTスコアが最も⾼いk個をランキングに使⽤した場合

    View Slide

  8. 0.3098
    0.3112 0.3103 0.3243 0.3263
    0.3186 0.3112 0.3259 0.3273
    0.3266 0.3312
    0.3318
    0
    0.05
    0.1
    0.15
    0.2
    0.25
    0.3
    0.35
    0.4
    0.45
    0.5
    BM25 MB CAR MS MARCO CAR → MB MS MARCO → MB
    [email protected]
    ベースライン 上位1⽂ 上位2⽂ 上位3⽂
    考察 8
    • BERTによる検索モデルBirchをWWW-2タスクに適⽤して
    BM25ベースラインを超えるか?
    BM25 < Birch

    View Slide

  9. 0.3112 0.3103
    0.3266 0.3312 0.3318
    0
    0.05
    0.1
    0.15
    0.2
    0.25
    0.3
    0.35
    0.4
    0.45
    0.5
    BM25 MB CAR MS MARCO CAR → MB MS MARCO → MB
    [email protected]
    ベースライン 上位1⽂ 上位2⽂ 上位3⽂
    考察 9
    MS MARCO → MBがベスト
    • どのタスクのデータで学習したBERTが最適か?

    View Slide

  10. • BERT による検索モデル Birch は BM25 ベースラインを超えた
    • MS MARCO → MB で学習した BERT が最適
    ‒ CAR → MB で学習した BERT も同様の精度
    まとめ 10

    View Slide