Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: "Webformer: Pre-training with Web Pages for Information Retrieval (SIGIR2022)"

keyakkie
November 12, 2022

論文紹介: "Webformer: Pre-training with Web Pages for Information Retrieval (SIGIR2022)"

IR Reading 2022 秋にて紹介した "Webformer: Pre-training with Web Pages for Information Retrieval(SIGIR2022)" の概要スライドです.Web ページのテキストと構造情報の両方を使った事前学習方法を提案した研究です.不適切な記述などがあればご指摘頂ければ幸いです .

keyakkie

November 12, 2022
Tweet

More Decks by keyakkie

Other Decks in Science

Transcript

  1. 欅 惇志
    ⼀橋⼤学
    ソーシャル・データサイエンス
    教育研究推進センター (SDS)
    [email protected]
    Webformer: Pre-training with Web
    Pages for Information Retrieval
    (SIGIR2022)
    *33FBEJOHळ
    ※ 図表は論⽂中・Web からの引⽤

    View Slide

  2. 概要
    • 貢献
    o Web ページのテキストと構造情報の両⽅を
    使った事前学習⽅法 (Webformer) を提案
    • 既存の事前学習の課題
    o Web ⽂書をプレーンテキストとして扱う
    • 構造情報を使っていない
    • Web 検索では構造も⼤事な情報 (後で補⾜)
    o 512 トークンまでしか⼊⼒できない
    • ⼤規模⾔語モデルの仕様
    • 512 トークンより⻑い⽂書は切り捨て/パッセージ
    分割
    2022.11.12
    IRReading2022秋 2
    ※ トークン:頻出パターン (語やその⼀部分)

    View Slide

  3. 概要
    • 貢献
    o Web ページのテキストと構造情報の両⽅を
    使った事前学習⽅法 (Webformer) を提案
    • 既存の事前学習の課題
    o Web ⽂書をプレーンテキストとして扱う
    • 構造情報を使っていない
    • Web 検索では構造も⼤事な情報 (後で補⾜)
    o 512 トークンまでしか⼊⼒できない
    • ⼤規模⾔語モデルの仕様
    • 512 トークンより⻑い⽂書は切り捨て/パッセージ
    分割
    2022.11.12
    IRReading2022秋 3
    ※ トークン:頻出パターン (語やその⼀部分)
    3つのパートに分かれる
    各パートの構造同じ

    View Slide

  4. 補⾜1: MLM
    • Masked language model (MLM): ⽳埋め問題
    o ⼊⼒の⼀部のトークンをマスクする
    • 元トークンを [MASK] というトークンで置き換える
    o 元トークンを予測する
    2022.11.12
    IRReading2022秋 4
    https://www.sbert.net/examples/unsu
    pervised_learning/MLM/README.html

    View Slide

  5. 補⾜2: 構造化⽂書検索
    • 構造化⽂書
    o タグで構造化:HTML,XML etc.
    o 章⽴てで構造化:論⽂,書籍 etc.
    • 構造化⽂書検索のモチベーション例
    o タイトル中にクエリ語が出てくるのは重要
    o Ruby と Ruby の価値は違う
    • 代表的な構造化⽂書検索⼿法:BM25F
    o F は field (タグのこと) を表す
    o BM25 の語の重み wterm
    にタグの重要度 wfield
    を乗算
    2022.11.12
    IRReading2022秋 5

    View Slide

  6. 補⾜3: DOM
    • Document Object Model (DOM)
    o 構造化⽂書を⽊構造に変換したもの
    o 要素 (内部) ノード:タグ
    o テキスト (葉ノード) ノード:テキスト
    2022.11.12 6
    https://www.tutorialstonight.com/js/js-dom-introduction


    兄弟

    先祖
    ⼦孫

    View Slide

  7. Webformer の構造:テキストエンコーダー
    2022.11.12
    IRReading2022秋 7
    いわゆる普通のエンコーダー
    テキストノードのテキストを⼊⼒

    View Slide

  8. Webformer の構造:ノードコーダー
    2022.11.12
    IRReading2022秋 8
    要素ノード⽤エンコーダー
    [cls] とタグ (⾃⼰ + ⼦ノード)
    の埋め込みを⼊⼒

    View Slide

  9. Webformer の構造:ノードコーダー
    2022.11.12
    IRReading2022秋 9
    要素ノード⽤エンコーダー
    [cls] とタグ (⾃⼰ + ⼦ノード)
    の埋め込みを⼊⼒

    View Slide

  10. ノードエンコーダーの事前学習
    • Masked Node Prediction
    o MLM のタグ版
    o タグの⼀部をマスク
    • その他の事前学習
    o 親⼦関係を予測
    o 兄弟関係を予測
    o 順序関係を予測
    IRReading2022秋

    View Slide

  11. 実験結果
    • ⽐較⼿法
    o 古典モデル,初期深層学習モデル,事前学習モデル
    o 最先端の検索特化型トランスフォーマーモデルなし
    • 結果
    o 性能改善
    o 定性分析もたくさん

    View Slide

  12. まとめ
    • 既存の事前学習の課題
    o 構造情報を使っていない
    o 512 トークンより⻑い⽂書は切り捨て/
    パッセージ分割
    • 評価実験
    o 既存の事前学習モデルよりも性能向上
    • 所感
    o 計算コスト⾼そう (事前学習なので許容?)
    2022.11.12
    IRReading2022秋 12
    ◎ Webformer では構造情報利⽤
    ○ Webformer ではかなり改善
    (512 トークン以上含むタグには⾮対応と読める)

    View Slide