[論文紹介] Query–Document Dense Vectors for LLM Relevance Judgment Bias Analysis

Query–Document Dense Vectors for LLM Relevance Judgment Bias Analysis (ECIR2026)
Samaneh Mohtadi and Gianluca Demartini The University of Queensland 論文紹介者  株式会社マイベスト開発部 Database Mission   茂手木太一

背景：LLMによる適合性判定 2 クエリ東京サウナクエリID 1 1 1 1
文書ID A B C D 適合度 2 2 0 1 LLM 候補文書サウナ東京渋谷SAUNAS ウェルビー栄 A C B アノテーションコストが低くスケーラビリティも高い

課題：バイアスが存在する 3 クエリ東京サウナ LLM 出力 Score: 2 文書
ウェルビー栄サウナ，サウナ，サウナ... どのようなクエリの時に誤判定するのか  十分に検証されていない

人との一致度が低いクエリを特定するためのアプローチ 4 クエリ文書ペアを埋め込む埋め込みをクラスタリングクラスタリングごとに  一致度を算出クラスタによって一致度に  差があるクエリを分析

アプローチ：クエリ文書ペアの埋め込み 5 タスク指示によって埋め込み表現が変わるINSTUCTORを採用クエリ東京サウナ文書 } タスク指示 Judge
the document’s relevance to   the query for ad-hoc retrieval INSTRUCTOR-XL 埋め込みサウナ東京

アプローチ：生成した埋め込みをクラスタリング 6 クラスタリングにHDBSCANを適用 q1,d1,j1,1 意味的に似た Q–D ペア同士が  クラスタリングされる q2,d1,j2,1 q3,d1,j3,1
同じクエリでも文書によって  クラスタが異なる場合もある q1,d2,j1,2 どのクラスタにも分類されない  場合もある

アプローチ：クラスタリングごとに一致度を測定 7 Gwet's AC1で一致度を算出 Kappaはラベル分布が不均衡の場合に偶然の一致が高くなりやすい → 一致度が高いケースでも低いスコア   になる
AC1はラベル不均衡の場合でも  安定したスコアを算出できる[1] クラスタリングごとの一致度 [1]Wongpakaran, N.et al., A comparison of cohen’s kappa and gwet’s AC1 when calculating inter-rater reliability coefficients: A study conducted with personality disorder samples. BMC Medical Research Methodology, 2013.

アプローチ：クラスタによって一致度に差があるクエリを分析 8 クラスタによって判定が安定しないクエリを明らかにする ΔAC1j(q) = maxc AC1j(q,c) - minc AC1j(q,c)
{AC1j(q,c)}：クラスタc内でクエリqに限定して算出したAC1の集合

分析結果1：TREC DLにおけるGPT-4oの判定結果を分析 9 人同士の一致度を基準にLLM判定がどの程度ズレるかを分析クエリごとのBland-Altman Plot Non-Noise クラスタで人との不一致が発生しやすい

分析結果2：バイアスが起きやすいクエリを特定 10 A：ΔAC1 ≧ 0.5 →クラスタ間で一致度が大きく違う R：ΔAC1 > median(Δ) +
1.5IQR(Δ) →全体分布の中でも一致度の差が  　大きい D：maxc AC1j(q,c) > 0.8 かつ　 minc AC1j(q,c) < 0.2 →あるクラスタでは一致度が高く  別クラスタでは非常に低い BSS：A,Dをもとに算出

分析結果3：どのようなクエリでバイアスが生じるのか 11 定義や説明を求めているクエリ ex) RSA definition key LLMは辞書的な説明をしている文書を適合と判定する傾向人手では適合とみなす文書でもLLMは不適合と判定文脈が曖昧なクエリ
ex) nonconformity in earth science nonconformityは地質学の不整合を表している LLMは社会的な反対や不服従という意味で解釈地質学に関する文書を誤判定

まとめ 12 どのようなクエリでLLMは誤判定するのかを分析アプローチ以下のクエリは誤判定しやすいクエリ文書ペアを埋め込む埋め込みをクラスタリングクラスタリングごとに  一致度を算出定義や説明を求めているクエリ
ex) RSA definition key 文脈が曖昧なクエリ ex) nonconformity in earth science クラスタによって一致度に  差があるクエリを分析

[論文紹介] Query–Document Dense Vectors for LLM Rel...

[論文紹介] Query–Document Dense Vectors for LLM Relevance Judgment Bias Analysis

t-motegi

More Decks by t-motegi

Featured

Transcript

Query–Document Dense Vectors for LLM Relevance Judgment Bias Analysis (ECIR2026)

背景：LLMによる適合性判定 2 クエリ東京サウナクエリID 1 1 1 1

課題：バイアスが存在する 3 クエリ東京サウナ LLM 出力 Score: 2 文書

人との一致度が低いクエリを特定するためのアプローチ 4 クエリ文書ペアを埋め込む埋め込みをクラスタリングクラスタリングごとに  一致度を算出クラスタによって一致度に  差があるクエリを分析

アプローチ：クエリ文書ペアの埋め込み 5 タスク指示によって埋め込み表現が変わるINSTUCTORを採用クエリ東京サウナ文書 } タスク指示 Judge

アプローチ：生成した埋め込みをクラスタリング 6 クラスタリングにHDBSCANを適用 q1,d1,j1,1 意味的に似た Q–D ペア同士が  クラスタリングされる q2,d1,j2,1 q3,d1,j3,1

アプローチ：クラスタリングごとに一致度を測定 7 Gwet's AC1で一致度を算出 Kappaはラベル分布が不均衡の場合に偶然の一致が高くなりやすい → 一致度が高いケースでも低いスコア   になる

アプローチ：クラスタによって一致度に差があるクエリを分析 8 クラスタによって判定が安定しないクエリを明らかにする ΔAC1j(q) = maxc AC1j(q,c) - minc AC1j(q,c)

分析結果1：TREC DLにおけるGPT-4oの判定結果を分析 9 人同士の一致度を基準にLLM判定がどの程度ズレるかを分析クエリごとのBland-Altman Plot Non-Noise クラスタで人との不一致が発生しやすい

分析結果2：バイアスが起きやすいクエリを特定 10 A：ΔAC1 ≧ 0.5 →クラスタ間で一致度が大きく違う R：ΔAC1 > median(Δ) +

まとめ 12 どのようなクエリでLLMは誤判定するのかを分析アプローチ以下のクエリは誤判定しやすいクエリ文書ペアを埋め込む埋め込みをクラスタリングクラスタリングごとに  一致度を算出定義や説明を求めているクエリ