論文紹介: A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025)

A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated
Search Queries (CIKM 2025) URL: https://dl.acm.org/doi/10.1145/3746252.3761382 Oleg Zendel, Sara Fahad Dawood Al Lawati, Lida Rashidi, Falk Scholer, Mark Sanderson (RMIT University) 紹介する人: 中野優 https://sites.google.com/view/yu-nakano A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 1

概要と背景人間が作成した検索クエリと LLM が作成した検索クエリを、言語的観点と検索結果から比較した論文背景: 情報検索の評価では人間は不可欠だが、人間からクエリや適合性判定を集めるのは高コストそこで近年は実際の人間の代わりに LLM
を活用する研究が出現例: Query variants の作成、適合性判定、テストコレクションの作成、ユーザシミュレーションただ，LLM が作成したクエリが人間が作成したクエリとどう違うのかは未解明な部分が多い → 実際に LLM でクエリを作成し、人間のクエリと比較してみたよという論文 A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 2

比較対象人間クエリ: 以下に共通する 12 の topic に対して作成されたクエリを利用 UQV100 CW: TREC
Web Track の情報要求に対してクラウドワーカーが作成 Mturk CW: UQV100 の後続研究で 2021 年に収集 LLM 生成クエリ: 以下の 7 つの LLM に対して、次ページの手法でクエリを作成 Open-weight: Mixtral (Large, 7B, 8x7B), Llama (3.2 11B, 3.3 70B) Proprietary: GPT-4o mini, Claude 3.5 Haiku A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 3

クエリ生成方法 Query-based CW PV: 1 topic ずつ入力し，4 種類のプロンプトでクエリ数の指定を変える（100 件，期待値
100 件，19-101 件，ランダム件数） CW 500: 1 topic につき 500 件のクエリを一気に生成 Context-based VC: 以下の組み合わせ計 24 種類に対して、2-5 件のクエリを生成検索スキル 4 種: 専門家、中級者、初心者、未習熟者トピックに関する知識レベル 3 種: 高、中、低クエリスタイル 2 種: 自然言語、キーワード A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 4

結果 1: ユニーク性右表の結果から人間と LLM のクエリ多様性は以下の点で異なる人間: BoW でユニーク率が大き
く下がる →人間クエリの多様性は活用型や語順などが大きめ LLM: BoW でも下がりにくいものが多い → LLM クエリは語彙が多様 A Comparative Analysis of Linguistic and Retrieval ここでの BoW とは、ストップワード除去 + ステミング + 語順無視をした処理結果のこと “ “ 5

結果 2: クエリ長人間クエリ: 短め中央値: 4 語 2 つのデータセットで同
様の傾向 LLM クエリ: 全体的に長め多くの手法で中央値 5 語以上 VC は最も長く分散も大きい（→自然言語スタイルがある影響か） A Comparative Analysis of Linguistic and Retrieval 6

結果 3: 品詞パターン LLM / 人間クエリで最も頻出する POS タグの系列とその頻度とサンプル人間クエリは短いキーワード列になりやすい（頻度も高め） LLM
クエリは形容詞や前置詞が最頻値として現れる場合もあり、より自然文に近い傾向（頻度は低め） A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 7

品詞のパターンだけでも人間と LLM を見分けられる POS タグとその位置を特徴量としてクエリの出所を分類モデル: CatBoost 結果
全体の F1 は 0.41 Human の F1 が最も高く 0.53 3, 4 番目の POS タグの重要度が高い精度は高くないものの、LLM と人間で品詞の並びに系統的な差がある A Comparative Analysis of Linguistic and Retrieval Diversity in LLM- 8

結果 4: 検索結果の広がり各手法からサンプリングした 15 クエリに対して、ClueWeb12-B を BM25 で検索した結果の
top-10 のユニーク文書数を比較 → 人間クエリの検索結果は特定の文書集合に集中するが、LLM クエリはより広い文書集合を検索しがち A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 9

結果 5: 検索精度各手法の検索結果に対して GPT-4o で適合性判定を実施し RBP で評価 CW PV
/ CW 500 は RBP が低め BM25 にとって難しいクエリになりやすい VC は LLM 手法の中では人間クエリに近い LLM 判定と人手判定の一致度は中程度（cf. 既存研究では高一致度） ClueWeb12-B は文書が長くかつ Web 文書でノイズも多いため従来と異なる傾向になった A Comparative Analysis of Linguistic and Retrieval Diversity 10

まとめ「LLM は多様なクエリを生成できる」は正しいが、その多様さは人間の多様さとは異なる傾向にある人間語形や語順が多様で、スタイルは短いキーワード列が多い検索結果の文書集合が特定の文書に集中しがち LLM 語彙が多様で、スタイルは少し長めの自然文が多い検索結果が広く散らばりやすい
ただし、ClueWeb12-B に対して 12 topic と少なく、かつ検索手法も BM25 のみなど限定的な調査に対する結果であることに注意 A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 11

感想学習データのために LLM でクエリ生成の際には注意が必要そうとは思った人間の入力したクエリと LLM 生成クエリの傾向が異なる可能性がこの論文では示唆されたと思っているなので、人間の検索に対する精度を上げたい場合、なんらかログデータと整合性が取れるような調整が必要なはず？
Discussion にもあるが、現代だと ChatGPT などで自然文で検索することも多いので、利用しているデータセットはキーワード列が多いというのは時代遅れという感じがしないでもない A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 12

論文紹介: A Comparative Analysis of Linguistic and ...

論文紹介: A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025)

Yu Nakano / 中野優

More Decks by Yu Nakano / 中野優

Other Decks in Science

Featured

Transcript

A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated

比較対象人間クエリ: 以下に共通する 12 の topic に対して作成されたクエリを利用 UQV100 CW: TREC

クエリ生成方法 Query-based CW PV: 1 topic ずつ入力し，4 種類のプロンプトでクエリ数の指定を変える（100 件，期待値

結果 1: ユニーク性右表の結果から人間と LLM のクエリ多様性は以下の点で異なる人間: BoW でユニーク率が大き

結果 2: クエリ長人間クエリ: 短め中央値: 4 語 2 つのデータセットで同

結果 3: 品詞パターン LLM / 人間クエリで最も頻出する POS タグの系列とその頻度とサンプル人間クエリは短いキーワード列になりやすい（頻度も高め） LLM

品詞のパターンだけでも人間と LLM を見分けられる POS タグとその位置を特徴量としてクエリの出所を分類モデル: CatBoost 結果

結果 4: 検索結果の広がり各手法からサンプリングした 15 クエリに対して、ClueWeb12-B を BM25 で検索した結果の

結果 5: 検索精度各手法の検索結果に対して GPT-4o で適合性判定を実施し RBP で評価 CW PV