[論文紹介] Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product Retrieval Evaluation

Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product
Retrieval Evaluation 紹介者筑波大学加藤研究室茂手木太一 Kasra Hosseini, Thomas Kober, Josip Krapac, Roland Vollgraf, Weiwei Cheng, Ana Peleteiro Ramallo Zalando SE, Berlin, Germany ECIR 2025

クエリに対して検索された商品が妥当かどうかを判定背景：eコマースにおける適合性判定とは 2 クエリID 商品ID 適合度 1 A 高適合 1
B 代替可能 1 C 不適合 1 D 高適合適合性判定データ検索結果適合性判定 … 評価者ウッドテーブルサイドテーブルアルミウッドチェア … クエリ • eコマースでは検索システムの品質がユーザ体験・売上に直結 →検索品質向上のために適合性判定データが大量に欲しい木製テーブル

• 人手による適合性判定はコストがかかる ◦ 紹介論文の著者らは20,000件の適合性判定に約500万円を出費 →大規模言語モデル(LLM)を適合性判定に活用する研究が進展[1,2] 背景：大規模言語モデルを用いた適合性判定 3 [1] Faggioli et
al. Perspectives on large language models for relevance judgment. ICTIR (2023) [2] Thomas et al. Large Language Models can Accurately Predict Searcher Preferences. SIGIR (2024) クエリID 商品ID 適合度 1 A 高適合 1 B 代替可能 1 C 不適合 1 D 高適合適合性判定データ検索結果適合性判定 … LLM ウッドテーブルサイドテーブルアルミウッドチェア … クエリ木製テーブル

• 適合性判定にMultimodal LLMを用いるフレームワークを提案 • LLMを用いてクエリ固有のアノテーションガイダンスを作成提案 4

• クエリから適合商品に必要な要件を抽出 ◦ 各要件に重要度を割り当て • 抽出した要件に基づきアノテーションガイダンスを作成クエリごとにアノテーションガイダンスを作成 5

Query: women’s long sleeve t-shirt with green stripes 抽出されたクエリ要件と生成されたガイドラインの一例 6

• 検索エンジンで適合性判定に必要な商品情報を取得 ◦ クエリ・商品ペアを作成 ◦ 商品説明，商品画像を取得し適合性判定に利用商品情報の取得 7

• MLLMを用いて商品画像から説明文を生成 • クエリ要件，ガイドライン，説明文を参照し適合性判定 ◦ highly relevant，acceptable substitute，irrelevantで判定適合性判定(MLLM-textの場合) 8

Query: women’s long sleeve t-shirt with green stripes 適合性判定結果の一例 9

• クエリ要件，アノテーションガイダンス，商品説明，適合度スコアをDBに保存 • DBに保存されている情報は再利用データの保存と再利用 10

• Zalandoの1年間分のトラフィックデータから層化サンプリング ◦ 検索エンジン，性別フィルターの使用有無，クエリ頻度，クエリ長 ◦ 英語・ドイツ語で各500クエリを取得 • 各クエリに対して20商品を既存の検索エンジンから取得 ◦ 上位の検索結果から15件
◦ 500位以降からランダムに5件 • クラウドソーシングによる適合性判定 ◦ 各商品ペアを2人で適合性判定 ◦ 評価が分かれた場合は第3者による判定を実施評価用データセットの構築 11

• (M)LLM ◦ GPT-4o，GPT-4-turbo，GPT-3.5-turbo • 比較手法 ◦ LLM-text：商品説明+クエリ要件＋アノテーションガイダンス ◦ MLLM-text：LLM-text
+ 商品画像から生成した説明文 ◦ MLLM-multi：LLM-text + 商品画像 • 評価方法 ◦ 人手による判定との一致度を評価実験設定 12

実験結果：GPT-4o・ GPT-4-turbo 13 • 人同士の一致度と同程度の精度を達成 • クエリ固有のガイダンスにより精度が向上 • LLMによる適合性判定は人手と比べ低コスト

• 人とLLMの判定が高適合と不適合で割れたケースを抽出 • 該当ケースの20%を分析 ◦ 50%：人のミス • acceptable substituteが望ましいケースにおいてhighly
relevantと判定 • ブランド，商品，カテゴリを間違えるケースも多い ◦ 31%：LLMのミス • acceptable substituteが望ましいケースにおいてirrelevantと判定 • クエリの誤解によるミスも多い ◦ 19%：両方のミス適合性判定時のミスの分析 14

適合性判定にMultimodal LLMを用いるフレームワークを提案まとめ 15 • 感想 ◦ 適合性判定にMLLMを扱っているのは珍しくワクワクした ◦ 人との一致度以外の評価も気になる

補足資料

LLMでガイダンスを作成しLLMで適合性判定関連研究：ChatGPT Goes Shopping[3] 17 クエリ木製テーブルガイダンス LLM
クエリID 商品ID 適合度 1 A 高適合 1 B 代替可能 1 C 不適合 1 D 高適合適合性判定データ商品文書適合性判定データセット生成 LLM 商品文書クエリ適合度サイドテーブル高適合座椅子不適合 few-shot example 適合性判定済みのクエリと文書のペアを 200件与えることでガイドラインを生成 [3] Soviero et al. ChatGPT Goes Shopping: LLMs Can Predict Relevance in eCommerce Search. ECIR (2024)

実験結果： GPT-4o・ GPT-4-turbo 18

• MLLM-textはGPT-4oを併用 • GPT-4oと比較し精度は低下 ◦ 所要時間とコストは最も抑えられている実験結果：GPT-3.5-turbo 19

[論文紹介] Retrieve, Annotate, Evaluate, Repeat: Le...

[論文紹介] Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product Retrieval Evaluation

t-motegi

More Decks by t-motegi

Other Decks in Research

Featured

Transcript

Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product

クエリに対して検索された商品が妥当かどうかを判定背景：eコマースにおける適合性判定とは 2 クエリID 商品ID 適合度 1 A 高適合 1