Slide 1

Slide 1 text

欅 惇志 ⼀橋⼤学 ソーシャル・データサイエンス 教育研究推進センター (SDS) [email protected] Webformer: Pre-training with Web Pages for Information Retrieval (SIGIR2022) *33FBEJOHळ ※ 図表は論⽂中・Web からの引⽤

Slide 2

Slide 2 text

概要 • 貢献 o Web ページのテキストと構造情報の両⽅を 使った事前学習⽅法 (Webformer) を提案 • 既存の事前学習の課題 o Web ⽂書をプレーンテキストとして扱う • 構造情報を使っていない • Web 検索では構造も⼤事な情報 (後で補⾜) o 512 トークンまでしか⼊⼒できない • ⼤規模⾔語モデルの仕様 • 512 トークンより⻑い⽂書は切り捨て/パッセージ 分割 2022.11.12 IRReading2022秋 2 ※ トークン:頻出パターン (語やその⼀部分)

Slide 3

Slide 3 text

概要 • 貢献 o Web ページのテキストと構造情報の両⽅を 使った事前学習⽅法 (Webformer) を提案 • 既存の事前学習の課題 o Web ⽂書をプレーンテキストとして扱う • 構造情報を使っていない • Web 検索では構造も⼤事な情報 (後で補⾜) o 512 トークンまでしか⼊⼒できない • ⼤規模⾔語モデルの仕様 • 512 トークンより⻑い⽂書は切り捨て/パッセージ 分割 2022.11.12 IRReading2022秋 3 ※ トークン:頻出パターン (語やその⼀部分) 3つのパートに分かれる 各パートの構造同じ

Slide 4

Slide 4 text

補⾜1: MLM • Masked language model (MLM): ⽳埋め問題 o ⼊⼒の⼀部のトークンをマスクする • 元トークンを [MASK] というトークンで置き換える o 元トークンを予測する 2022.11.12 IRReading2022秋 4 https://www.sbert.net/examples/unsu pervised_learning/MLM/README.html

Slide 5

Slide 5 text

補⾜2: 構造化⽂書検索 • 構造化⽂書 o タグで構造化:HTML,XML etc. o 章⽴てで構造化:論⽂,書籍 etc. • 構造化⽂書検索のモチベーション例 o タイトル中にクエリ語が出てくるのは重要 o Ruby と Ruby の価値は違う • 代表的な構造化⽂書検索⼿法:BM25F o F は field (タグのこと) を表す o BM25 の語の重み wterm にタグの重要度 wfield を乗算 2022.11.12 IRReading2022秋 5

Slide 6

Slide 6 text

補⾜3: DOM • Document Object Model (DOM) o 構造化⽂書を⽊構造に変換したもの o 要素 (内部) ノード:タグ o テキスト (葉ノード) ノード:テキスト 2022.11.12 6 https://www.tutorialstonight.com/js/js-dom-introduction 親 ⼦ 兄弟 ⼦ 先祖 ⼦孫

Slide 7

Slide 7 text

Webformer の構造:テキストエンコーダー 2022.11.12 IRReading2022秋 7 いわゆる普通のエンコーダー テキストノードのテキストを⼊⼒

Slide 8

Slide 8 text

Webformer の構造:ノードコーダー 2022.11.12 IRReading2022秋 8 要素ノード⽤エンコーダー [cls] とタグ (⾃⼰ + ⼦ノード) の埋め込みを⼊⼒

Slide 9

Slide 9 text

Webformer の構造:ノードコーダー 2022.11.12 IRReading2022秋 9 要素ノード⽤エンコーダー [cls] とタグ (⾃⼰ + ⼦ノード) の埋め込みを⼊⼒

Slide 10

Slide 10 text

ノードエンコーダーの事前学習 • Masked Node Prediction o MLM のタグ版 o タグの⼀部をマスク • その他の事前学習 o 親⼦関係を予測 o 兄弟関係を予測 o 順序関係を予測 IRReading2022秋

Slide 11

Slide 11 text

実験結果 • ⽐較⼿法 o 古典モデル,初期深層学習モデル,事前学習モデル o 最先端の検索特化型トランスフォーマーモデルなし • 結果 o 性能改善 o 定性分析もたくさん

Slide 12

Slide 12 text

まとめ • 既存の事前学習の課題 o 構造情報を使っていない o 512 トークンより⻑い⽂書は切り捨て/ パッセージ分割 • 評価実験 o 既存の事前学習モデルよりも性能向上 • 所感 o 計算コスト⾼そう (事前学習なので許容?) 2022.11.12 IRReading2022秋 12 ◎ Webformer では構造情報利⽤ ○ Webformer ではかなり改善 (512 トークン以上含むタグには⾮対応と読める)