Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Towards a Better Understanding of Human Reading Comprehension with Brain Signals の紹介 【著者】Ziyi Ye, Xiaohui Xie, Yiqun Liu, Zhihong Wang, Xuesong Chen, Min Zhang,and Shaoping Ma 【発表者】筑波⼤学 加藤研究室 薄⽻ 皐太 【第42回先端的データベースとWeb技術動向講演会】
Slide 2
Slide 2 text
研究⽬的 2 • 情報検索 ‒ ユーザの情報要求にマッチする⽂書を探し、⽂書をランク付けする 情報ニーズにマッチする⽂を読んだ時の⼈の脳活動を調べる ⼈間失格の著者って 誰だっけ... ⼈間失格 ‒ Wikipedia ⼈間失格は作家・太宰治に.. ⼈間失格の中古/未使⽤品 ⼈間失格の古本をお得に... ⼈間失格 検索 これだ! うーん... 情報要求 ユーザは検索結果が⾃分の情報要求にマッチしているか判定
Slide 3
Slide 3 text
概要 3 • 質問と⽂が提⽰し、⽂を読解中の⼈の脳波を調べる ‒ 質問に対する答えが⽂章に含まれるかを答える ‒ 複数の関連度の⽂が⽤意され、それぞれでの脳波の違いを調査 世界で⼀番⼤きな哺乳類は? シロナガスクジラは、成体で33メー トルに達する世界最⼤の動物です。 読解中の脳波を計測 質問 ⽂ ⽂は質問に答えていますか? はい 被験者 研究者 ‒ 集めた脳波のデータを使って、深層学習でも同じような問題を解く
Slide 4
Slide 4 text
調査⽅法 4 図は論⽂Figure 1 より引⽤ ‒ ⽂は単語ごとに表⽰され、単語ごとの脳波を調べる ‒ ⽂を提⽰後、2種類のテストのち⼀つが⾏われる 質問 ⽂の提⽰ テスト ⽂は質問に 答えているか 世界最⼤の動物は シロナガスクジラ である The blue whale is ... meters 世界最⼤の 哺乳類は?
Slide 5
Slide 5 text
単語の関連度ごとで脳波に違いはあるか 5 図は論⽂Figure 2 より引⽤ 単語の関連度ごとに有意に違いが観測できた 世界最⼤の哺乳動物は? シロナガスクジラは... 質問 答え 世界で最も⼤きいア... ⼈体には100億もの... 関連する 無関係 RQ: 単語の関連度ごとで脳波に違いはあるか ‒ テストでの正答率は約98% ~ 90% ‒ 被験者の事前知識との相関は⾒られなかった 脳波 これらに 違いはあるか
Slide 6
Slide 6 text
実験 6 • 集めた脳波のデータを使って、深層学習モデルでタスクを⾏う • 脳波データから、深層学習を⽤いて答えを含む⽂を判定する 脳波データ 深層学習モデル 計測 出⼒ ⼈間失格の著者は? 太宰治は⽇本の作家です。 代表作に⼈間失格や... 質問 ⽂ ⽂は質問に答えている ⽂は質問に答えていない OR ⼊⼒
Slide 7
Slide 7 text
実験結果 7 • 集めた脳波のデータを使って同様なタスクを⾏う • 新たに深層学習モデルを提案 • ベースラインの他に、未訓練モデルとの⽐較も⾏う 脳波を利⽤して⽂の分類ができる 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 AUC MAP ベースライン 提案モデル • 提案モデルがベースラインを 上回る • 有意に未訓練モデルを上回る 未訓練モデルからの性能の上昇
Slide 8
Slide 8 text
まとめ 8 背景 • 情報検索 • 情報要求にマッチした⽂を読んでいる時の脳波を調べる やったこと • 3種類の関連度の⽂を読んだ時のそれぞれの脳波を調査 • 脳波データを使って深層学習モデルを訓練する ⼿法 • 質問を提⽰した後に⽂を提⽰する • ⽂は単語ごとに提⽰し、単語ごとに脳波を調べる • 脳波データのための深層学習モデルを提案する 結果 • 単語の関連度に応じて異なる脳波を観測 • 脳波データを⽤いた深層学習モデルによる⽂の分類
Slide 9
Slide 9 text
No content
Slide 10
Slide 10 text
Efficient Neural Ranking using Forward Indexes の紹介 【第42回先端的データベースとWeb技術動向講演会】 【著者】Jurek Leonhardt, Koustav Rudra, Megha Khosla, Abhijit Anand, and Avishek Anand 【発表者】筑波⼤学 加藤研究室 薄⽻ 皐太
Slide 11
Slide 11 text
背景:最近の情報検索フレームワーク 11 ⾼速な 検索⼿法 哺乳類 世界最⼤ 初期 ⽂書リスト クエリ 検索 リランキング 並び替える 検索結果 1位 2位 3位 • Retrieval and re-ranking ‒ 最初に⾼速な検索⼿法(BM25等)で⽂書を検索 ‒ 次に、⾼性能な⼿法でリランキング 今回の論⽂では、リランキング部分の⼯夫を提案する sparse-index
Slide 12
Slide 12 text
• Dense index ‒ ⽂書を密なベクトルで表現する深層学習ベースの検索⼿法 ‒ 事前に⽂書のベクトル化することで、深層学習ベースの中では⾼速な検索 背景:リランキングの⼿法 12 メール 締め 深層学習 モデル ベクトル インデックス 深層学習 モデル ⽂書ベクトル クエリベクトル 0.74 スコア 取り出す 保存 事前に⾏う リランキング時 ルックアップ ⽂書 クエリ 内積 ⽂書が⻑い場合は⽂章ごとにベクトルにする
Slide 13
Slide 13 text
インデックスが⼤きくなることにより、効率が低下する 問題 13 • Dense indexの課題 ‒ ⻑い⽂書の場合、再現率の低下が⼤きい ‒ インデックスサイズが⼤きい • リランキングの上で、計算コストの⼤部分が内積の計算 インデックスサイズ が⼤きくなる インデックス エンコーダ ベクトル ⽂書 1つの⽂書につき、⾼次元のベクトルが複数 ... ...
Slide 14
Slide 14 text
• 同じトピックについてのベクトルをまとめる ‒ topical localityを利⽤した、インデックスするベクトルの圧縮 • topical locality: あるトピックについての⽂章はまとまって存在している • 連続していて、類似したベクトルは平均をとってまとめる Sequential coalescing 14 深層学習 モデル 平均を取る 圧縮された埋め込み ベクトル ⽂書 平均を取る 約3%の性能の低下でインデックスサイズを約60%削減
Slide 15
Slide 15 text
• ベクトル間の類似度が閾値を超えていれば、ベクトルをまとめる ‒ 閾値が⼤きければ、より多くのベクトルをまとめる ‒ 削減できるストレージサイズと性能のトレードオフ 性能とストレージサイズのトレードオフ 15 検索の性能を⽰す 評価指標 MAP nDCG ストレージ の削減% 閾値 効率的なストレージサイズの削減と性能のトレードオフを実現
Slide 16
Slide 16 text
まとめ 16 背景 • Dense Indexによるリランキング • InterpolationによるSparse Indexと組み合わせたスコア 問題 Dense Indexについて • ⻑い⽂書では再現率が⼤きい • インデックスサイズが⼤きい ⼿法 • topical localityを利⽤した⽂書埋め込みの圧縮 結果 • インデックスサイズと性能の効率的なトレードオフ
Slide 17
Slide 17 text
No content
Slide 18
Slide 18 text
まとめ 18 背景 • Dense Indexによるリランキング • InterpolationによるSparse Indexと組み合わせたスコア 問題 Dense Indexについて • ⻑い⽂書では再現率が⼤きい • インデックスサイズが⼤きい ⼿法 • topical localityを利⽤した⽂書埋め込みの圧縮 • 仮想的なスコア上限によるリランキングの早期切り上げ 結果 • インデックスサイズと性能の効率的なトレードオフ • cut-offが⼩さい場合に効率的なリランキングが可能に
Slide 19
Slide 19 text
• 初期⽂書リストが⼤きい場合に効率的にリランキングしたい ‒ 結果として上位k件の⽂書を出⼒するが、k個以上の⽂書をリランキング • 並び替える⽂書が増えれば、性能の向上が⾒込める • しかし、時間も同時に増えるため、Denseスコアの計算回数をなるべく抑えたい Early stopping: 背景 19 ⼈間失格 著者 クエリ Sparse BM25 Dense 最終的な スコア 18.5 リランクでのスコア計算 20.0 • Interpolation ‒ 初期の⽂書リスト検索でのスコア(Sparseスコア)と リランキングでのスコア(Denseスコア)を両⽅使って最終的なスコアを計算 10.0 Dense Indexes 10.0 8.5 初期⽂書検索 8.5 8.5 11.5 Sparse
Slide 20
Slide 20 text
• その⽂書スコアの上限を考えて、不要な適合度計算を防ぐ ‒ Sparseスコア + これまで得られた最⼤Denseスコアを上限として考える • Denseスコアが過去最⼤でもk件⽬のスコアを越えられない時、適合度計算を終える Early stopping: ⼿法 20 ⽂書 0.4 8.25 5.5 10.0 + 5.0 = 15.0 8.25 + 5.6 = 12.85 ... 5.5 + 2.5 = 8.0 BM25 ... Dense Indexes k k 4.0 + 5.6 = 9.6 ... 2.2 + 5.6 = 7.8 0.5 ... ここまでは普通にDenseスコアを計算する > 最⼩スコア 以降のリランキングを ストップ 最⾼のDenseスコア 5.6 最⼩スコア 8.0 < 最⼩スコア Denseスコアを計算する 4.0 2.2 1 2 ⽂書数が増えても性能を落とさずに クエリ処理時間を約半分に