Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【IR Reading 2025春】Investigating the Performance...

Avatar for Haruki Fujimaki Haruki Fujimaki
May 24, 2025
80

【IR Reading 2025春】Investigating the Performance of Dense Retrievers for Queries with Numerical Conditions (ECIR 2025)

IR Reading 2025春で紹介する「Investigating the Performance of Dense Retrievers for Queries with Numerical Conditions (ECIR 2025)」の発表資料です

この論文は私が筆頭著者のもので、ECIR2025のショートペーパーになります。

オープンアクセス: https://mpk-publication-list.s3-ap-northeast-1.amazonaws.com/files/ECIR2025-HF.pdf
Springer: https://link.springer.com/chapter/10.1007/978-3-031-88714-7_19

Avatar for Haruki Fujimaki

Haruki Fujimaki

May 24, 2025
Tweet

Transcript

  1. Investigating the Performance of Dense Retrievers for Queries with Numerical

    Conditions (ECIR 2025) 著者: Haruki Fujimaki and Makoto P. Kato 発表者 筑波大学 M1 藤巻晴葵
  2. ECIR 2025 に参加してきました 2 論 文 は こ ち ら

    か ら ECIR2025の参加記は近いうちに 公開したいと考えています! X: @makiart13
  3. 背景:密検索モデルの概要と利点 3 エンコーダー(言語モデル) 研究学園都市にある国立大学は? クエリ 密ベクトル 筑波大学は、茨城県にある・・・ 東京大学は、東京都にある・・・ 私はハンバーグが好きです。 類似度

    29.8 14.3 8.6 意味的なマッチングに強い 文書検索 商品検索 に幅広く使われている 密検索モデルの利点 パッセージベクトル ベクトル同士の 類似度を計算
  4. 言語モデルは数値に弱い[1][2][3] 背景:密検索モデルの課題 4 [1] Chen et al. 2019. Numeracy-600K: Learning

    Numeracy for Detecting Exaggerated Information in Market Comments. ACL 2019, pp. 6307-6313. [2] Dheeru et al. 2019. DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs. NAACL 2019, pp. 2368-2378. [3] Yang et al. 2024. Number Cookbook: Number Understanding of Language Models and How to Improve It, https://arxiv.org/abs/2411.03766 数値演算 や 数の大きさの理解 など、数値に関するタスクにおいて 言語モデルは高い性能を出していない。 一般的な密検索モデルには、言語モデルを使用しており、 言語モデルの数値に対する低い性能が引き継がれると考えられる。 密検索モデルは数値に弱いことが推察される
  5. 数値条件を含んだクエリに対する 密検索モデルの性能を複数の観点から分析する 研究の目的 6 数値条件 N 以上 More than N

    以下 Less than Nと等しい Equal N ~ N’の範囲 Between 大体Nぐらい Around 脳の前頭葉の腫瘍が10~15mmのカルテ 5%以上の金利について言及している文書 数値条件 クエリ例 𝑣𝑑 = 𝑣𝑞 𝑣𝑑 ≧ 𝑣𝑞 𝑣𝑑 ≦ 𝑣𝑞 𝑣𝑞 ≧ 𝑣𝑑 ≧ 𝑣𝑞′ 0.85 × 𝑣𝑞 ≦ 𝑣𝑑 ≦ 1.15 × 𝑣𝑞
  6. 実験:RQ ① 密検索モデルは数値条件を含むクエリに対して有効に働くか? 9 実データにおける各検索モデルでの異なるクエリでの検索性能 数値条件を多少理解している しかし、改善の余地は大きい 数値条件 なし 数値条件

    あり 理想の 検索性能 検索結果から数値フィルタリング クエリから数値条件を取り除く 密検索モデル DPRのMovie Rev.を除き、優位差あり(Tukey’s HSD) 大きな乖離
  7. 多様な側面から数値条件クエリを分析 実験:RQ ② どのような数値条件を含むクエリに対して有効に働くか? 10 ① 密検索モデルは数値条件を含むクエリに対して有効に働くか? ② どのような数値条件を含むクエリに対して有効に働くか? 1.

    数値条件 2. 数値表現 ③ 学習時に獲得された数値に関する知識による影響はあるのか? 数値表現:(1,000 dollars, 1k USD) の違いによって検索性能に違いがあるのか?
  8. 多様な側面から数値条件クエリを分析 実験:RQ ③ 学習時に獲得された数値に関する知識による影響はあるのか? 12 ① 密検索モデルは数値条件を含むクエリに対して有効に働くか? ② どのような数値条件を含むクエリに対して有効に働くか? ③

    学習時に獲得された数値に関する知識による影響はあるのか? 1. 一般常識 は検索結果に影響があるのか? (例: 医者は高収入) 2. 固有名詞の知識 は検索結果に影響があるのか? (例: アバターは世界一の興行収入) 3. 数値に特化したLLM を基盤とするモデルはNumQに有効に働くのか?
  9. 13 実験:RQ ③ 学習時に獲得された数値に関する知識による影響はあるのか? 一般常識・固有名詞の知識は検索結果に影響があるのか? 2つのデータセットによる 検索性能を比較し分析する 数値部分のみを入れ替える オリジナル シャッフル

    外科医を務める人の年収は 新卒総合職に就職した人の年収は Webエンジニアに就職した人の年収は 300万円 1200万円 700万円 700万円 300万円 1200万円 風立ちぬの興行収入は アバターの興行収入は インセプションの興行収入は $ 2.9B $ 80M $ 870M $ 870M $ 2.9B $ 80M 一 般 常 識 固 有 名 詞 2つのデータセットでは数値条件のみを含むクエリであるため、適合文書の数に変化はない。 数値条件クエリに対して、数値部分のみを考慮していれば、 性能に差が出ないことが期待される
  10. 一般常識が数値条件クエリに影響を及ぼしている 実際の数値だけでなく、一般常識も含めて数値条件クエリを処理している可能性がある 実験:RQ ③ 学習時に獲得された数値に関する知識による影響はあるのか? 14 一般常識(ex: 医者の収入は高い)は検索結果に影響があるのか? オリジナル シャッフル※

    数値部分のみを考慮していれば オリジナルとシャッフルで 性能に差が出ないことが期待される ※ 収入の数値をシャッフルした コーパス 求人収入データ(Job Post)における オリジナルとシャッフルされたデータでのモデル別の性能差 *は優位差有り(t検定Holm補正) 数 値 の 分 布 は 同 じ
  11. 固有名詞の知識が数値条件クエリに大きく影響を及ぼしている 実際の数値だけでなく、固有名詞の知識を利用して数値条件クエリを処理してしまっている可能性がある 実験:RQ ③ 学習時に獲得された数値に関する知識による影響はあるのか? 15 固有名詞の知識(ex: アバターは世界一の興行収入)は検索結果に影響があるのか? 映画の興行収入データ(Movie Revenue)における

    オリジナルとシャッフルされたデータでのモデル別の性能差 *は優位差有り(t検定Holm補正) オリジナル シャッフル※ ※ 興行収入の数値をシャッフル したコーパス 数 値 の 分 布 は 同 じ 数値部分のみを考慮していれば オリジナルとシャッフルで 性能に差が出ないことが期待される
  12. 多様な側面から数値条件クエリを分析 実験:まとめ 17 ① 密検索モデルは数値条件を含むクエリに対して有効に働くか? • 密検索モデルは、数値条件をある程度考慮した検索を行える • 理想的な性能とは大きな乖離があり、改善の余地が大きい ②

    どのような数値条件を含むクエリに対して有効に働くか? • 数値条件の種類、数値の単位、数値表現の違いによって検索性能は異なる • 数値の類似性を多少理解できるが、数値の大小関係を理解する能力は不十分 ③ 学習時に獲得された数値に関する知識による影響はあるのか? • 固有名詞や一般常識などの言語モデルが持つの知識が検索結果に影響を与える • 基盤モデルの変更で検索性能に変化する、しかし大きな改善はできない
  13.  目的 • 数値条件を含むクエリに対して、密検索モデルがどの程度有効か評価  手法 • 実データと合成データからコーパス、クエリのデータセットを作成 • 複数の密検索モデルで検索性能を比較

     結果 • どの検索モデルも数値条件クエリに対して大きく改善の余地がある • 固有名詞や一般常識などが数値条件検索の順位に影響を与える可能性がある • 数値条件クエリに対しての検索性能を向上させるには抜本的な改善が必要 まとめ 18