Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介] Retrieve, Annotate, Evaluate, Repeat: Le...

[論文紹介] Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product Retrieval Evaluation

IR Reading 2025 Spring

Avatar for t-motegi

t-motegi

May 24, 2025

More Decks by t-motegi

Other Decks in Research

Transcript

  1. Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product

    Retrieval Evaluation 紹介者 筑波大学 加藤研究室 茂手木 太一 Kasra Hosseini, Thomas Kober, Josip Krapac, Roland Vollgraf, Weiwei Cheng, Ana Peleteiro Ramallo Zalando SE, Berlin, Germany ECIR 2025
  2. クエリに対して検索された商品が妥当かどうかを判定 背景:eコマースにおける適合性判定とは 2 クエリID 商品ID 適合度 1 A 高適合 1

    B 代替可能 1 C 不適合 1 D 高適合 適合性判定データ 検索結果 適合性判定 … 評価者 ウッドテーブル サイドテーブル アルミ ウッドチェア … クエリ • eコマースでは検索システムの品質がユーザ体験・売上に直結 →検索品質向上のために適合性判定データが大量に欲しい 木製 テーブル
  3. • 人手による適合性判定はコストがかかる ◦ 紹介論文の著者らは20,000件の適合性判定に約500万円を出費 →大規模言語モデル(LLM)を適合性判定に活用する研究が進展[1,2] 背景:大規模言語モデルを用いた適合性判定 3 [1] Faggioli et

    al. Perspectives on large language models for relevance judgment. ICTIR (2023) [2] Thomas et al. Large Language Models can Accurately Predict Searcher Preferences. SIGIR (2024) クエリID 商品ID 適合度 1 A 高適合 1 B 代替可能 1 C 不適合 1 D 高適合 適合性判定データ 検索結果 適合性判定 … LLM ウッドテーブル サイドテーブル アルミ ウッドチェア … クエリ 木製 テーブル
  4. • Zalandoの1年間分のトラフィックデータから層化サンプリング ◦ 検索エンジン,性別フィルターの使用有無,クエリ頻度,クエリ長 ◦ 英語・ドイツ語で各500クエリを取得 • 各クエリに対して20商品を既存の検索エンジンから取得 ◦ 上位の検索結果から15件

    ◦ 500位以降からランダムに5件 • クラウドソーシングによる適合性判定 ◦ 各商品ペアを2人で適合性判定 ◦ 評価が分かれた場合は第3者による判定を実施 評価用データセットの構築 11
  5. • (M)LLM ◦ GPT-4o,GPT-4-turbo,GPT-3.5-turbo • 比較手法 ◦ LLM-text:商品説明+クエリ要件+アノテーションガイダンス ◦ MLLM-text:LLM-text

    + 商品画像から生成した説明文 ◦ MLLM-multi:LLM-text + 商品画像 • 評価方法 ◦ 人手による判定との一致度を評価 実験設定 12
  6. • 人とLLMの判定が高適合と不適合で割れたケースを抽出 • 該当ケースの20%を分析 ◦ 50%:人のミス • acceptable substituteが望ましい ケースにおいてhighly

    relevantと判定 • ブランド,商品,カテゴリを 間違えるケースも多い ◦ 31%:LLMのミス • acceptable substituteが望ましい ケースにおいてirrelevantと判定 • クエリの誤解によるミスも多い ◦ 19%:両方のミス 適合性判定時のミスの分析 14
  7. LLMでガイダンスを作成しLLMで適合性判定 関連研究:ChatGPT Goes Shopping[3] 17 クエリ 木製 テーブル ガイダンス LLM

    クエリID 商品ID 適合度 1 A 高適合 1 B 代替可能 1 C 不適合 1 D 高適合 適合性判定データ 商品文書 適合性判定 データセット 生成 LLM 商品文書 クエリ 適合度 サイド テーブル 高適合 座椅子 不適合 few-shot example 適合性判定済みのクエリと文書のペアを 200件与えることでガイドラインを生成 [3] Soviero et al. ChatGPT Goes Shopping: LLMs Can Predict Relevance in eCommerce Search. ECIR (2024)