Slide 1

Slide 1 text

BERT-based Document Ranking at the NTCIR-15 WWW-3 Task 筑波⼤学 加藤誠研究室 新⽥ 洸平

Slide 2

Slide 2 text

• NTCIR WWW-3 Task ‒ Web ⽂書のアドホック検索タスク • BERT を利⽤した検索モデルの提案 (Birch) ‒ Yilmaz et al: Cross-Domain Modeling of Sentence-level Evidence for Document Retrieval, EMNLP 2019 ‒ BERT: 広範囲の⾃然⾔語処理タスクで優れた性能を発揮する双⽅向⾔語モデル 背景 2 新宿 ペット ブタ ハロウィン 画像 検索システム ClueWeb12 Web⽂書 7.3 億件 ⼊⼒ 出⼒ 東京都で宿泊できる 格安ホテル... ペットとしてのポッ トベリーピッグ... ハロウィン画像コレ クション30選... 評価 nDCG 0.6 ⁝ 0.5 80トピック ⼊⼒ 順位付けされた⽂書

Slide 3

Slide 3 text

研究の⽬的 3 BERTによる検索モデル BirchをWWW-2タスクに 適⽤してBM25ベースラインを 超えるか検証 1 複数のタスクのデータを⽤いて BERTの学習に最適なデータを 検証 • Yilmaz らは Birch の学習に QA や Microblog 検索などの異なるタスクの データセットを利⽤ 2

Slide 4

Slide 4 text

• QA や Microblog 検索データセットで 学習されたテキスト間の適合性をアドホック検索に応⽤ ‒ クエリと⽂書中の⽂の適合性を推定 Birch とは? 4 BERT モデル MB BERT ハロウィン Microblog データ トリックオア... 0.7 ⼦供がお菓⼦... 0.3 カボチャを使... 0.1 0.4 BERT + BM25 スコア 0.6 テキスト間適合性 判定モデル BM25 スコア BERT スコア ⽂ ⽂書

Slide 5

Slide 5 text

クエリと⽂の適合性を利⽤ BERT 適⽤のポイント 5 BERT は⽂書レベルの テキストを扱えない アドホック検索において クエリと⽂の適合度 データが少ない 他のタスクで学習した モデルを利⽤ 利⽤テストコレクション • MS MARCO:QA タスク • TREC CAR :A が複雑な QA タスク • TREC MB :ツイート検索タスク • ⼀般的なWeb⽂書は BERT の最⼤⼊⼒⻑である 512 トークンを超える

Slide 6

Slide 6 text

• BM25 と⽂書中の最もBERTスコアが⾼い⽂のスコアの線形和 ‒ ⽂の適合性は⽂書内の「最良の」⽂または段落で決まるため[1] • BERTi : ⽂書中で i 番⽬にBERTスコアの⾼い⽂のBERTスコア • wi : ハイパーパラメータ Birch のスコア計算 6 [1] Yilmaz et al: Cross-Domain Modeling of Sentence-level Evidence for Document Retrieval, EMNLP 2019 = 25 + , !"# $ .

Slide 7

Slide 7 text

実験結果 7 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 BM25 MB CAR MS MARCO CAR → MB MS MARCO → MB nDCG@10 ベースライン 上位1⽂ 上位2⽂ 上位3⽂ • Birchで学習した結果のnDCG@10で評価 ‒ 上位k⽂:BERTスコアが最も⾼いk個をランキングに使⽤した場合

Slide 8

Slide 8 text

0.3098 0.3112 0.3103 0.3243 0.3263 0.3186 0.3112 0.3259 0.3273 0.3266 0.3312 0.3318 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 BM25 MB CAR MS MARCO CAR → MB MS MARCO → MB nDCG@10 ベースライン 上位1⽂ 上位2⽂ 上位3⽂ 考察 8 • BERTによる検索モデルBirchをWWW-2タスクに適⽤して BM25ベースラインを超えるか? BM25 < Birch

Slide 9

Slide 9 text

0.3112 0.3103 0.3266 0.3312 0.3318 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 BM25 MB CAR MS MARCO CAR → MB MS MARCO → MB nDCG@10 ベースライン 上位1⽂ 上位2⽂ 上位3⽂ 考察 9 MS MARCO → MBがベスト • どのタスクのデータで学習したBERTが最適か?

Slide 10

Slide 10 text

• BERT による検索モデル Birch は BM25 ベースラインを超えた • MS MARCO → MB で学習した BERT が最適 ‒ CAR → MB で学習した BERT も同様の精度 まとめ 10