Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【IR Reading 2025春】mFollowIR: a Multilingual Ben...

【IR Reading 2025春】mFollowIR: a Multilingual Benchmark for Instruction Following in Information Retrieval (ECIR 2025)

IR Reading 2025春で紹介する「mFollowIR: a Multilingual Benchmark for Instruction Following in Information Retrieval (ECIR 2025) 」の発表資料です

表などはmFollowIR: a Multilingual Benchmark for Instruction Following in Information Retrieval の論文より
Arxiv: https://arxiv.org/abs/2501.19264
Springer: https://link.springer.com/chapter/10.1007/978-3-031-88711-6_19

Avatar for Haruki Fujimaki

Haruki Fujimaki

May 24, 2025
Tweet

More Decks by Haruki Fujimaki

Other Decks in Research

Transcript

  1. mFollowIR: a Multilingual Benchmark for Instruction Following in Information Retrieval

    (ECIR 2025) 著者: Orion Weller, Benjamin Chang, Eugene Yang, Mahsa Yarmohammadi, Sam Barham, Sean MacAvaney, Arman Cohan, Luca Soldaini, Benjamin Van Durme and Dawn LawrieOrion Weller, Benjamin Chang, Eugene Yang, Mahsa Yarmohammadi, Sam Barham, Sean MacAvaney, Arman Cohan, Luca Soldaini, Benjamin Van Durme and Dawn Lawrie 発表者 筑波大学 M1 藤巻晴葵
  2. 背景 2 従来 これから キーワード中心のクエリ つくば 観光 おすすめ つくばで絶対おさえたい観光名 所10選

    つくばで絶対おさえたい観光名 所10選 つくばで絶対おさえたい 観光名所10選 つくばで絶対おさえたい観光名 所10選 つくばで絶対おさえたい観光名 所10選 何回いっても子供が飽きない つくばの科学博物館 長く複雑な指示クエリ 家族連れ向けに、つくば市内で自然体験 が楽しめる観光地を紹介してください。特に、 子どもが楽しめる場所(動物、科学、アスレチ ックなど)を重視します。屋内外は問いません が、雨天でも楽しめる場所が含まれていると望 ましいです。 LLMの普及に伴い
  3. 背景 3 これからの 検索クエリ つくばで絶対おさえたい観光 名所10選 つくばで絶対おさえたい観光 名所10選 何回いっても子供が飽きない つくばの科学博物館

    長く複雑な指示クエリ 家族連れ向けに、つくば市内で自然体験 が楽しめる観光地を紹介してください。特に、 子どもが楽しめる場所(動物、科学、アスレチ ックなど)を重視します。屋内外は問いません が、雨天でも楽しめる場所が含まれていると望 ましいです。 既存のベンチマーク(MS MARCOなど)のクエリは キーワード中心&1クエリあたりの単語数が少ない 長く複雑な指示の対応能力を測定するのは難しい
  4. • 英語指示付き検索ベンチマークの提案 • 実験方法 – TREC Robust 2004 / Core

    2017 / News 2021からデータセットを作成 • Narrativeの一部を改変し、検索結果の変化を観察 – 新たなペアワイズ評価指標 p-MRR を提案し、指示追従性を評価 • 実験結果 – 既存の検索モデルのほとんどが指示を無視している – FollowIR-7B(Mistral-7B-Instruct を LoRA 微調整)で性能を改善 関連研究: FollowIR (2024) 4 英語のみの 評価に限られる 多言語 (ロシア語・中国語・ペルシア語) における 検索の指示追従性を評価 今回紹介する mFollowIR
  5. • データセット • 3 言語:ロシア語・中国語・ペルシア語 • 計 123 トピック(NeuCLIR 2022/2023から)

    • 評価方法 • p-MRR (pairwise MRR) • 標準指標は nDCG@20(リランキング Top-1000) • 検索モデル • Bi-encoder 11 種 / Cross-encoder 5 種(最大 7 B パラメータ) • 設定 • Cross-lingual En → XX(指示は英語) • Multilingual XX → XX(指示も各言語) 実験概要 5
  6. データセットの作成方法 6 137トピック TREC NeuCLIR 2022/2023 中国語・ペルシア語・ロシア語のニュース記事 英語話者2人がNarrativeを編集 元の 適合文書

    の 半数 が 不適合 になるように Narrativeの一文の条件を狭めたり、否定を追加する形で編集 ペルシア語 40件、 中国語 43件、 ロシア語 40件 計123件 再アノテーションの対象は元の適合文書のみで、 作業量を 1/10 に削減 中国語・ペルシア語はネイティブ、ロシア語は流暢な第二言語話者が 英語の意味を保持したまま翻訳 平均関連文書: 10 → 5 (査読者向け関連性ガイドライン)
  7. p-MRRの役割 7 • p-MRR (pairwise MRR) – 指示改変で“適合”→“不適合”になった文書のランキング変化を評価 Qrels 改変前

    改変後 文書 A 文書 B 文書 C 改変前 改変後 改変前 改変後 改変前 改変後 Ranking +1 > p-MRR > 0 p-MRR = 0 0 > p-MRR > -1 文書 A 文書 B 文書 C 文書 C 文書 B 文書 A 文書 A 文書 B 文書 C 文書 A 文書 C 文書 B 文書 C 文書 B 文書 A 文書 A 文書 C 文書 B 評価対象 指示に従っている 変化なし 指示に従っていない
  8. 実験結果: Cross-lingual (EN → XX) 8 nDCGでは高い性能 p-MRRでは低い結果 軽量 Bi-encoder

    指示に従えていない 指示文章での学習がされている 7B モデルでは 指示追従できている 高い指示追従性能 p-MRRは100倍されている
  9. 実験結果: Multi-lingual (XX → XX) 9 nDCGでは高い性能 p-MRRでは低い結果 軽量 Bi-encoder

    指示に従えていない Cross-lingualの ベストスコアの1/2 高い指示追従性能 p-MRRは100倍されている
  10. 1. どのようなアプローチが有効か? – 指示学習済みモデルが優位 • 指示データセットで学習されたPromptriever-Llama 3.1 や FollowIR-7Bが好成績 –

    7 B 以上 & クロスエンコーダ構造 – 言語間の転移は概ね良い • 英語中心に訓練したモデルでも 3 言語間で性能差は小さい • 指示を英語に翻訳して利用するという考え方もできる 2. 結果からわかった課題 – Cross-lingual と Multilingual • XX→XXはEn→XXは平均して約5 p-MRR低い – nDCG と p-MRR の乖離 • キーワード重視モデルではnDCG が高くても p-MRR が負値になる例が多い • 検索精度と指示追従は独立 – モデル規模 • 1B未満のモデルはほとんど指示追従性がない → 軽量モデルにおける解決手法必要 考察 10
  11.  研究の目的 – 多言語環境における情報検索モデルの指示追従性を評価する  手法 – 3言語(ロシア語・中国語・ペルシア語)で構成されるベンチマークの提案 – NeuCLIR

    の Narrative を活用し、関連文書の半数を非関連に変える編集 処理によって少ないコストでデータセットを構築  結果 – 7B & 指示学習済みのクロスエンコーダで高い追従性能。 – 英語指示入力と比べ、他言語指示入力は性能が低下する。 – 検索精度(nDCG)と指示追従性(p-MRR)は必ずしも一致せず、両者 の評価が必要  今後の展望 – より多言語での指示追従性能の調査と指示データセットの拡充 – 小規模モデルでの高性能化、低リソース言語への対応などの研究 まとめ 11