The Web Conference 2022 国際会議報告 / SIGMOD-J_79

Slide 1

Slide 1 text

Towards a Better Understanding of Human Reading Comprehension with Brain Signals の紹介【著者】Ziyi Ye, Xiaohui Xie, Yiqun Liu, Zhihong Wang, Xuesong Chen, Min Zhang,and Shaoping Ma 【発表者】筑波⼤学加藤研究室薄⽻皐太【第42回先端的データベースとWeb技術動向講演会】

Slide 2

Slide 2 text

研究⽬的 2 • 情報検索 ‒ ユーザの情報要求にマッチする⽂書を探し、⽂書をランク付けする情報ニーズにマッチする⽂を読んだ時の⼈の脳活動を調べる⼈間失格の著者って誰だっけ... ⼈間失格 ‒ Wikipedia ⼈間失格は作家・太宰治に.. ⼈間失格の中古/未使⽤品⼈間失格の古本をお得に... ⼈間失格検索これだ！うーん... 情報要求ユーザは検索結果が⾃分の情報要求にマッチしているか判定

Slide 3

Slide 3 text

概要 3 • 質問と⽂が提⽰し、⽂を読解中の⼈の脳波を調べる ‒ 質問に対する答えが⽂章に含まれるかを答える ‒ 複数の関連度の⽂が⽤意され、それぞれでの脳波の違いを調査世界で⼀番⼤きな哺乳類は？シロナガスクジラは、成体で33メートルに達する世界最⼤の動物です。読解中の脳波を計測質問⽂⽂は質問に答えていますか？はい被験者研究者 ‒ 集めた脳波のデータを使って、深層学習でも同じような問題を解く

Slide 4

Slide 4 text

調査⽅法 4 図は論⽂Figure 1 より引⽤ ‒ ⽂は単語ごとに表⽰され、単語ごとの脳波を調べる ‒ ⽂を提⽰後、２種類のテストのち⼀つが⾏われる質問⽂の提⽰テスト⽂は質問に答えているか世界最⼤の動物はシロナガスクジラである The blue whale is ... meters 世界最⼤の哺乳類は？

Slide 5

Slide 5 text

単語の関連度ごとで脳波に違いはあるか 5 図は論⽂Figure 2 より引⽤単語の関連度ごとに有意に違いが観測できた世界最⼤の哺乳動物は？シロナガスクジラは... 質問答え世界で最も⼤きいア... ⼈体には100億もの... 関連する無関係 RQ: 単語の関連度ごとで脳波に違いはあるか ‒ テストでの正答率は約98% ~ 90% ‒ 被験者の事前知識との相関は⾒られなかった脳波これらに違いはあるか

Slide 6

Slide 6 text

実験 6 • 集めた脳波のデータを使って、深層学習モデルでタスクを⾏う • 脳波データから、深層学習を⽤いて答えを含む⽂を判定する脳波データ深層学習モデル計測出⼒⼈間失格の著者は？太宰治は⽇本の作家です。代表作に⼈間失格や... 質問⽂⽂は質問に答えている⽂は質問に答えていない OR ⼊⼒

Slide 7

Slide 7 text

実験結果 7 • 集めた脳波のデータを使って同様なタスクを⾏う • 新たに深層学習モデルを提案 • ベースラインの他に、未訓練モデルとの⽐較も⾏う脳波を利⽤して⽂の分類ができる 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 AUC MAP ベースライン提案モデル • 提案モデルがベースラインを上回る • 有意に未訓練モデルを上回る未訓練モデルからの性能の上昇

Slide 8

Slide 8 text

まとめ 8 背景 • 情報検索 • 情報要求にマッチした⽂を読んでいる時の脳波を調べるやったこと • ３種類の関連度の⽂を読んだ時のそれぞれの脳波を調査 • 脳波データを使って深層学習モデルを訓練する⼿法 • 質問を提⽰した後に⽂を提⽰する • ⽂は単語ごとに提⽰し、単語ごとに脳波を調べる • 脳波データのための深層学習モデルを提案する結果 • 単語の関連度に応じて異なる脳波を観測 • 脳波データを⽤いた深層学習モデルによる⽂の分類

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

Efficient Neural Ranking using Forward Indexes の紹介【第42回先端的データベースとWeb技術動向講演会】【著者】Jurek Leonhardt, Koustav Rudra, Megha Khosla, Abhijit Anand, and Avishek Anand 【発表者】筑波⼤学加藤研究室薄⽻皐太

Slide 11

Slide 11 text

背景：最近の情報検索フレームワーク 11 ⾼速な検索⼿法哺乳類世界最⼤初期⽂書リストクエリ検索リランキング並び替える検索結果 1位 2位 3位 • Retrieval and re-ranking ‒ 最初に⾼速な検索⼿法（BM25等）で⽂書を検索 ‒ 次に、⾼性能な⼿法でリランキング今回の論⽂では、リランキング部分の⼯夫を提案する sparse-index

Slide 12

Slide 12 text

• Dense index ‒ ⽂書を密なベクトルで表現する深層学習ベースの検索⼿法 ‒ 事前に⽂書のベクトル化することで、深層学習ベースの中では⾼速な検索背景：リランキングの⼿法 12 メール締め深層学習モデルベクトルインデックス深層学習モデル⽂書ベクトルクエリベクトル 0.74 スコア取り出す保存事前に⾏うリランキング時ルックアップ⽂書クエリ内積⽂書が⻑い場合は⽂章ごとにベクトルにする

Slide 13

Slide 13 text

インデックスが⼤きくなることにより、効率が低下する問題 13 • Dense indexの課題 ‒ ⻑い⽂書の場合、再現率の低下が⼤きい ‒ インデックスサイズが⼤きい • リランキングの上で、計算コストの⼤部分が内積の計算インデックスサイズが⼤きくなるインデックスエンコーダベクトル⽂書１つの⽂書につき、⾼次元のベクトルが複数 ... ...

Slide 14

Slide 14 text

• 同じトピックについてのベクトルをまとめる ‒ topical localityを利⽤した、インデックスするベクトルの圧縮 • topical locality: あるトピックについての⽂章はまとまって存在している • 連続していて、類似したベクトルは平均をとってまとめる Sequential coalescing 14 深層学習モデル平均を取る圧縮された埋め込みベクトル⽂書平均を取る約3%の性能の低下でインデックスサイズを約60%削減

Slide 15

Slide 15 text

• ベクトル間の類似度が閾値を超えていれば、ベクトルをまとめる ‒ 閾値が⼤きければ、より多くのベクトルをまとめる ‒ 削減できるストレージサイズと性能のトレードオフ性能とストレージサイズのトレードオフ 15 検索の性能を⽰す評価指標 MAP nDCG ストレージの削減% 閾値効率的なストレージサイズの削減と性能のトレードオフを実現

Slide 16

Slide 16 text

まとめ 16 背景 • Dense Indexによるリランキング • InterpolationによるSparse Indexと組み合わせたスコア問題 Dense Indexについて • ⻑い⽂書では再現率が⼤きい • インデックスサイズが⼤きい⼿法 • topical localityを利⽤した⽂書埋め込みの圧縮結果 • インデックスサイズと性能の効率的なトレードオフ

Slide 17

Slide 17 text

No content

Slide 18

Slide 18 text

まとめ 18 背景 • Dense Indexによるリランキング • InterpolationによるSparse Indexと組み合わせたスコア問題 Dense Indexについて • ⻑い⽂書では再現率が⼤きい • インデックスサイズが⼤きい⼿法 • topical localityを利⽤した⽂書埋め込みの圧縮 • 仮想的なスコア上限によるリランキングの早期切り上げ結果 • インデックスサイズと性能の効率的なトレードオフ • cut-offが⼩さい場合に効率的なリランキングが可能に

Slide 19

Slide 19 text

• 初期⽂書リストが⼤きい場合に効率的にリランキングしたい ‒ 結果として上位k件の⽂書を出⼒するが、k個以上の⽂書をリランキング • 並び替える⽂書が増えれば、性能の向上が⾒込める • しかし、時間も同時に増えるため、Denseスコアの計算回数をなるべく抑えたい Early stopping：背景 19 ⼈間失格著者クエリ Sparse BM25 Dense 最終的なスコア 18.5 リランクでのスコア計算 20.0 • Interpolation ‒ 初期の⽂書リスト検索でのスコア（Sparseスコア）とリランキングでのスコア（Denseスコア）を両⽅使って最終的なスコアを計算 10.0 Dense Indexes 10.0 8.5 初期⽂書検索 8.5 8.5 11.5 Sparse

Slide 20

Slide 20 text

• その⽂書スコアの上限を考えて、不要な適合度計算を防ぐ ‒ Sparseスコア + これまで得られた最⼤Denseスコアを上限として考える • Denseスコアが過去最⼤でもk件⽬のスコアを越えられない時、適合度計算を終える Early stopping：⼿法 20 ⽂書 0.4 8.25 5.5 10.0 + 5.0 = 15.0 8.25 + 5.6 = 12.85 ... 5.5 + 2.5 = 8.0 BM25 ... Dense Indexes k k 4.0 + 5.6 = 9.6 ... 2.2 + 5.6 = 7.8 0.5 ... ここまでは普通にDenseスコアを計算する > 最⼩スコア以降のリランキングをストップ最⾼のDenseスコア 5.6 最⼩スコア 8.0 < 最⼩スコア Denseスコアを計算する 4.0 2.2 1 2 ⽂書数が増えても性能を落とさずにクエリ処理時間を約半分に