Search Queries (CIKM 2025) URL: https://dl.acm.org/doi/10.1145/3746252.3761382 Oleg Zendel, Sara Fahad Dawood Al Lawati, Lida Rashidi, Falk Scholer, Mark Sanderson (RMIT University) 紹介する人: 中野 優 https://sites.google.com/view/yu-nakano A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 1
クエリは形容詞や前置詞が最頻値として現れる場合もあり、より自然文に 近い傾向(頻度は低め) A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 7
全体の F1 は 0.41 Human の F1 が最も高く 0.53 3, 4 番目の POS タグの重要度が高い 精度は高くないものの、LLM と人間で品詞 の並びに系統的な差がある A Comparative Analysis of Linguistic and Retrieval Diversity in LLM- 8
top-10 のユニーク文書数を比較 → 人間クエリの検索結果は特定の文書集合に集中するが、LLM クエリはより広い文書 集合を検索しがち A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 9
ただし、ClueWeb12-B に対して 12 topic と少なく、かつ検索手法も BM25 のみ など限定的な調査に対する結果であることに注意 A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 11
Discussion にもあるが、現代だと ChatGPT などで自然文で検索することも多い ので、利用しているデータセットはキーワード列が多いというのは時代遅れとい う感じがしないでもない A Comparative Analysis of Linguistic and Retrieval Diversity in LLM-Generated Search Queries (CIKM 2025) 12