Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Web Conference 2022 国際会議報告 / SIGMOD-J_79

k-ush
July 24, 2022
41

The Web Conference 2022 国際会議報告 / SIGMOD-J_79

The Web Conference 2022 国際会議報告にて以下の論文を紹介しました.

Ziyi Ye, Xiaohui Xie, Yiqun Liu, Zhihong Wang, Xuesong Chen, Min Zhang,and Shaoping Ma. Towards a Better Understanding of Human Reading Comprehension with Brain Signals. Proceedings of the ACM Web Conference 2022 (WWW 2022). 2022, https://doi.org/10.1145/3485447.3511966.

Jurek Leonhardt, Koustav Rudra, Megha Khosla, Abhijit Anand, and Avishek Anand. Efficient Neural Ranking using Forward Indexes. Proceedings of the ACM Web Conference 2022 (WWW 2022). 2022, https://doi.org/10.1145/3485447.3511955.

k-ush

July 24, 2022
Tweet

Transcript

  1. Towards a Better Understanding of Human Reading Comprehension with Brain

    Signals の紹介 【著者】Ziyi Ye, Xiaohui Xie, Yiqun Liu, Zhihong Wang, Xuesong Chen, Min Zhang,and Shaoping Ma 【発表者】筑波⼤学 加藤研究室 薄⽻ 皐太 【第42回先端的データベースとWeb技術動向講演会】
  2. 研究⽬的 2 • 情報検索 ‒ ユーザの情報要求にマッチする⽂書を探し、⽂書をランク付けする 情報ニーズにマッチする⽂を読んだ時の⼈の脳活動を調べる ⼈間失格の著者って 誰だっけ... ⼈間失格

    ‒ Wikipedia ⼈間失格は作家・太宰治に.. ⼈間失格の中古/未使⽤品 ⼈間失格の古本をお得に... ⼈間失格 検索 これだ! うーん... 情報要求 ユーザは検索結果が⾃分の情報要求にマッチしているか判定
  3. 概要 3 • 質問と⽂が提⽰し、⽂を読解中の⼈の脳波を調べる ‒ 質問に対する答えが⽂章に含まれるかを答える ‒ 複数の関連度の⽂が⽤意され、それぞれでの脳波の違いを調査 世界で⼀番⼤きな哺乳類は? シロナガスクジラは、成体で33メー

    トルに達する世界最⼤の動物です。 読解中の脳波を計測 質問 ⽂ ⽂は質問に答えていますか? はい 被験者 研究者 ‒ 集めた脳波のデータを使って、深層学習でも同じような問題を解く
  4. 調査⽅法 4 図は論⽂Figure 1 より引⽤ ‒ ⽂は単語ごとに表⽰され、単語ごとの脳波を調べる ‒ ⽂を提⽰後、2種類のテストのち⼀つが⾏われる 質問

    ⽂の提⽰ テスト ⽂は質問に 答えているか 世界最⼤の動物は シロナガスクジラ である The blue whale is ... meters 世界最⼤の 哺乳類は?
  5. 単語の関連度ごとで脳波に違いはあるか 5 図は論⽂Figure 2 より引⽤ 単語の関連度ごとに有意に違いが観測できた 世界最⼤の哺乳動物は? シロナガスクジラは... 質問 答え

    世界で最も⼤きいア... ⼈体には100億もの... 関連する 無関係 RQ: 単語の関連度ごとで脳波に違いはあるか ‒ テストでの正答率は約98% ~ 90% ‒ 被験者の事前知識との相関は⾒られなかった 脳波 これらに 違いはあるか
  6. 実験 6 • 集めた脳波のデータを使って、深層学習モデルでタスクを⾏う • 脳波データから、深層学習を⽤いて答えを含む⽂を判定する 脳波データ 深層学習モデル 計測 出⼒

    ⼈間失格の著者は? 太宰治は⽇本の作家です。 代表作に⼈間失格や... 質問 ⽂ ⽂は質問に答えている ⽂は質問に答えていない OR ⼊⼒
  7. 実験結果 7 • 集めた脳波のデータを使って同様なタスクを⾏う • 新たに深層学習モデルを提案 • ベースラインの他に、未訓練モデルとの⽐較も⾏う 脳波を利⽤して⽂の分類ができる 0

    0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 AUC MAP ベースライン 提案モデル • 提案モデルがベースラインを 上回る • 有意に未訓練モデルを上回る 未訓練モデルからの性能の上昇
  8. まとめ 8 背景 • 情報検索 • 情報要求にマッチした⽂を読んでいる時の脳波を調べる やったこと • 3種類の関連度の⽂を読んだ時のそれぞれの脳波を調査

    • 脳波データを使って深層学習モデルを訓練する ⼿法 • 質問を提⽰した後に⽂を提⽰する • ⽂は単語ごとに提⽰し、単語ごとに脳波を調べる • 脳波データのための深層学習モデルを提案する 結果 • 単語の関連度に応じて異なる脳波を観測 • 脳波データを⽤いた深層学習モデルによる⽂の分類
  9. Efficient Neural Ranking using Forward Indexes の紹介 【第42回先端的データベースとWeb技術動向講演会】 【著者】Jurek Leonhardt,

    Koustav Rudra, Megha Khosla, Abhijit Anand, and Avishek Anand 【発表者】筑波⼤学 加藤研究室 薄⽻ 皐太
  10. 背景:最近の情報検索フレームワーク 11 ⾼速な 検索⼿法 哺乳類 世界最⼤ 初期 ⽂書リスト クエリ 検索

    リランキング 並び替える 検索結果 1位 2位 3位 • Retrieval and re-ranking ‒ 最初に⾼速な検索⼿法(BM25等)で⽂書を検索 ‒ 次に、⾼性能な⼿法でリランキング 今回の論⽂では、リランキング部分の⼯夫を提案する sparse-index
  11. • Dense index ‒ ⽂書を密なベクトルで表現する深層学習ベースの検索⼿法 ‒ 事前に⽂書のベクトル化することで、深層学習ベースの中では⾼速な検索 背景:リランキングの⼿法 12 メール

    締め 深層学習 モデル ベクトル インデックス 深層学習 モデル ⽂書ベクトル クエリベクトル 0.74 スコア 取り出す 保存 事前に⾏う リランキング時 ルックアップ ⽂書 クエリ 内積 ⽂書が⻑い場合は⽂章ごとにベクトルにする
  12. インデックスが⼤きくなることにより、効率が低下する 問題 13 • Dense indexの課題 ‒ ⻑い⽂書の場合、再現率の低下が⼤きい ‒ インデックスサイズが⼤きい

    • リランキングの上で、計算コストの⼤部分が内積の計算 インデックスサイズ が⼤きくなる インデックス エンコーダ ベクトル ⽂書 1つの⽂書につき、⾼次元のベクトルが複数 ... ...
  13. • 同じトピックについてのベクトルをまとめる ‒ topical localityを利⽤した、インデックスするベクトルの圧縮 • topical locality: あるトピックについての⽂章はまとまって存在している •

    連続していて、類似したベクトルは平均をとってまとめる Sequential coalescing 14 深層学習 モデル 平均を取る 圧縮された埋め込み ベクトル ⽂書 平均を取る 約3%の性能の低下でインデックスサイズを約60%削減
  14. まとめ 16 背景 • Dense Indexによるリランキング • InterpolationによるSparse Indexと組み合わせたスコア 問題

    Dense Indexについて • ⻑い⽂書では再現率が⼤きい • インデックスサイズが⼤きい ⼿法 • topical localityを利⽤した⽂書埋め込みの圧縮 結果 • インデックスサイズと性能の効率的なトレードオフ
  15. まとめ 18 背景 • Dense Indexによるリランキング • InterpolationによるSparse Indexと組み合わせたスコア 問題

    Dense Indexについて • ⻑い⽂書では再現率が⼤きい • インデックスサイズが⼤きい ⼿法 • topical localityを利⽤した⽂書埋め込みの圧縮 • 仮想的なスコア上限によるリランキングの早期切り上げ 結果 • インデックスサイズと性能の効率的なトレードオフ • cut-offが⼩さい場合に効率的なリランキングが可能に
  16. • 初期⽂書リストが⼤きい場合に効率的にリランキングしたい ‒ 結果として上位k件の⽂書を出⼒するが、k個以上の⽂書をリランキング • 並び替える⽂書が増えれば、性能の向上が⾒込める • しかし、時間も同時に増えるため、Denseスコアの計算回数をなるべく抑えたい Early stopping:

    背景 19 ⼈間失格 著者 クエリ Sparse BM25 Dense 最終的な スコア 18.5 リランクでのスコア計算 20.0 • Interpolation ‒ 初期の⽂書リスト検索でのスコア(Sparseスコア)と リランキングでのスコア(Denseスコア)を両⽅使って最終的なスコアを計算 10.0 Dense Indexes 10.0 8.5 初期⽂書検索 8.5 8.5 11.5 Sparse
  17. • その⽂書スコアの上限を考えて、不要な適合度計算を防ぐ ‒ Sparseスコア + これまで得られた最⼤Denseスコアを上限として考える • Denseスコアが過去最⼤でもk件⽬のスコアを越えられない時、適合度計算を終える Early stopping:

    ⼿法 20 ⽂書 0.4 8.25 5.5 10.0 + 5.0 = 15.0 8.25 + 5.6 = 12.85 ... 5.5 + 2.5 = 8.0 BM25 ... Dense Indexes k k 4.0 + 5.6 = 9.6 ... 2.2 + 5.6 = 7.8 0.5 ... ここまでは普通にDenseスコアを計算する > 最⼩スコア 以降のリランキングを ストップ 最⾼のDenseスコア 5.6 最⼩スコア 8.0 < 最⼩スコア Denseスコアを計算する 4.0 2.2 1 2 ⽂書数が増えても性能を落とさずに クエリ処理時間を約半分に