Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: A Comparative Analysis of Linguistic and ...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

論文紹介: A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025)

IR Reading 2026 春 での論文紹介に使用したスライドです.
https://sigirtokyo.github.io/post/2026-05-30-irreading_2026spring/

紹介した論文
A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025)

Avatar for Yu Nakano / 中野優

Yu Nakano / 中野優

May 29, 2026

More Decks by Yu Nakano / 中野優

Other Decks in Science

Transcript

  1. A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated

    Search Queries (CIKM 2025) URL: https://dl.acm.org/doi/10.1145/3746252.3761382 Oleg Zendel, Sara Fahad Dawood Al Lawati, Lida Rashidi, Falk Scholer, Mark Sanderson (RMIT University) 紹介する人: 中野 優 https://sites.google.com/view/yu-nakano A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 1
  2. 概要と背景 人間が作成した検索クエリと LLM が作成した検索クエリを、言語的観点と検索結 果から比較した論文 背景: 情報検索の評価では人間は不可欠だが、人間からクエリや適合性判定を集 めるのは高コスト そこで近年は実際の人間の代わりに LLM

    を活用する研究が出現 例: Query variants の作成、適合性判定、テストコレクションの作成、ユーザ シミュレーション ただ,LLM が作成したクエリが人間が作成したクエリとどう違うのかは未解明な 部分が多い → 実際に LLM でクエリを作成し、人間のクエリと比較してみたよという論文 A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 2
  3. 比較対象 人間クエリ: 以下に共通する 12 の topic に対して作成されたクエリを利用 UQV100 CW: TREC

    Web Track の情報要求に対してクラウドワーカーが作成 Mturk CW: UQV100 の後続研究で 2021 年に収集 LLM 生成クエリ: 以下の 7 つの LLM に対して、次ページの手法でクエリを作成 Open-weight: Mixtral (Large, 7B, 8x7B), Llama (3.2 11B, 3.3 70B) Proprietary: GPT-4o mini, Claude 3.5 Haiku A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 3
  4. クエリ生成方法 Query-based CW PV: 1 topic ずつ入力し,4 種類のプロンプトでクエリ数の指定を変える (100 件,期待値

    100 件,19-101 件,ランダム件数) CW 500: 1 topic につき 500 件のクエリを一気に生成 Context-based VC: 以下の組み合わせ計 24 種類に対して、2-5 件のクエリを生成 検索スキル 4 種: 専門家、中級者、初心者、未習熟者 トピックに関する知識レベル 3 種: 高、中、低 クエリスタイル 2 種: 自然言語、キーワード A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 4
  5. 結果 1: ユニーク性 右表の結果から人間と LLM のク エリ多様性は以下の点で異なる 人間: BoW でユニーク率が大き

    く下がる →人間クエリの多様性は活 用型や語順などが大きめ LLM: BoW でも下がりにくいも のが多い → LLM クエリは語彙が多様 A Comparative Analysis of Linguistic and Retrieval ここでの BoW とは、ストップワード除去 + ステミ ング + 語順無視をした処理結果のこと “ “ 5
  6. 結果 2: クエリ長 人間クエリ: 短め 中央値: 4 語 2 つのデータセットで同

    様の傾向 LLM クエリ: 全体的に長め 多くの手法で中央値 5 語 以上 VC は最も長く分散も大 きい(→自然言語スタイ ルがある影響か) A Comparative Analysis of Linguistic and Retrieval 6
  7. 結果 3: 品詞パターン LLM / 人間クエリで最も頻出する POS タグの系列とその頻度とサンプル 人間クエリは短いキーワード列になりやすい(頻度も高め) LLM

    クエリは形容詞や前置詞が最頻値として現れる場合もあり、より自然文に 近い傾向(頻度は低め) A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 7
  8. 品詞のパターンだけでも人間 と LLM を見分けられる POS タグとその位置を特徴量としてクエリ の出所を分類 モデル: CatBoost 結果

    全体の F1 は 0.41 Human の F1 が最も高く 0.53 3, 4 番目の POS タグの重要度が高い 精度は高くないものの、LLM と人間で品詞 の並びに系統的な差がある A Comparative Analysis of Linguistic and Retrieval Diversity in LLM- 8
  9. 結果 4: 検索結果の広がり 各手法からサンプリングした 15 クエリに対して、ClueWeb12-B を BM25 で検索した 結果の

    top-10 のユニーク文書数を比較 → 人間クエリの検索結果は特定の文書集合に集中するが、LLM クエリはより広い文書 集合を検索しがち A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 9
  10. 結果 5: 検索精度 各手法の検索結果に対して GPT-4o で適合性判定を実施し RBP で評価 CW PV

    / CW 500 は RBP が低め BM25 にとって難しいクエリに なりやすい VC は LLM 手法の中では人間クエリ に近い LLM 判定と人手判定の一致度は中程 度(cf. 既存研究では高一致度) ClueWeb12-B は文書が長くかつ Web 文書でノイズも多いため従 来と異なる傾向になった A Comparative Analysis of Linguistic and Retrieval Diversity 10
  11. 感想 学習データのために LLM でクエリ生成の際には注意が必要そうとは思った 人間の入力したクエリと LLM 生成クエリの傾向が異なる可能性がこの論文で は示唆されたと思っている なので、人間の検索に対する精度を上げたい場合、なんらかログデータと整合 性が取れるような調整が必要なはず?

    Discussion にもあるが、現代だと ChatGPT などで自然文で検索することも多い ので、利用しているデータセットはキーワード列が多いというのは時代遅れとい う感じがしないでもない A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 12