Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介] Query–Document Dense Vectors for LLM Rel...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for t-motegi t-motegi
May 30, 2026
16

[論文紹介] Query–Document Dense Vectors for LLM Relevance Judgment Bias Analysis

Avatar for t-motegi

t-motegi

May 30, 2026

Transcript

  1. Query–Document Dense Vectors for LLM Relevance Judgment Bias Analysis (ECIR2026)

    Samaneh Mohtadi and Gianluca Demartini The University of Queensland 論文紹介者
 株式会社マイベスト 開発部 Database Mission 
 茂手木 太一
  2. 背景:LLMによる適合性判定 2 クエリ 東京 サウナ クエリID 1 1 1 1

    文書ID A B C D 適合度 2 2 0 1 LLM 候補文書 サウナ東京 渋谷SAUNAS ウェルビー栄 A C B アノテーションコストが低くスケーラビリティも高い
  3. 課題:バイアスが存在する 3 クエリ 東京 サウナ LLM 出力 Score: 2 文書

    ウェルビー栄 サウナ,サウ ナ,サウナ... どのようなクエリの時に誤判定するのか
 十分に検証されていない
  4. アプローチ:生成した埋め込みをクラスタリング 6 クラスタリングにHDBSCANを適用 q1,d1,j1,1 意味的に似た Q–D ペア同士が
 クラスタリングされる q2,d1,j2,1 q3,d1,j3,1

    同じクエリでも文書によって
 クラスタが異なる場合もある q1,d2,j1,2 どのクラスタにも分類されない
 場合もある
  5. アプローチ:クラスタリングごとに一致度を測定 7 Gwet's AC1で一致度を算出 Kappaはラベル分布が不均衡の場合 に偶然の一致が高くなりやすい → 一致度が高いケースでも低いスコア 
 になる

    AC1はラベル不均衡の場合でも
 安定したスコアを算出できる[1] クラスタリングごとの一致度 [1]Wongpakaran, N.et al., A comparison of cohen’s kappa and gwet’s AC1 when calculating inter-rater reliability coefficients: A study conducted with personality disorder samples. BMC Medical Research Methodology, 2013.
  6. 分析結果2:バイアスが起きやすいクエリを特定 10 A:ΔAC1 ≧ 0.5 →クラスタ間で一致度が大きく違う R:ΔAC1 > median(Δ) +

    1.5IQR(Δ) →全体分布の中でも一致度の差が
   大きい D:maxc AC1j(q,c) > 0.8 かつ   minc AC1j(q,c) < 0.2 →あるクラスタでは一致度が高く
 別クラスタでは非常に低い BSS:A,Dをもとに算出