Upgrade to Pro — share decks privately, control downloads, hide ads and more …

名古屋検索勉強会#18

tetsukitazawa
October 09, 2019

 名古屋検索勉強会#18

tetsukitazawa

October 09, 2019
Tweet

Other Decks in Science

Transcript

  1. k次元LSI表現を使うことでクエリベクトルは は低次空間に写像される。 18.21式 18.4 潜在意味インデックス • 潜在意味インデックス付け(LSI) ◦ 低階数表現した用語文書行列Cとクエリ文書の類似度スコア付け ◦ 数万に及ぶ用語文書行列に対し、数百オーダーのkで近似する。 ここでの はクエリであることにはどんな形でも依存していない。

    つまり、LSI表現されたコレクションにない文章も 上記式を用いてLSI表現に織り込むことが可能・・・???  ただし新しく追加された文書の共起は捉えられず、 新文書での新しい用語は無視されることに気をつけること。      にクエリが与えられた時 クエリを短い文書と考える。 もとの低階数近似の式から以下式           が得られる?
  2. 18.4 潜在意味インデックス 例18.4 以下の用語文書行列を2次元まで圧縮してみる。 = C U Σ V^T C2 U2

    Σ2 V2^T C2はCと比較すると密になっていることがわかる。また CとC2をみると  ・C・・・ boatで検索 → d2のみヒット  ・C2・・・ boatで検索 → d1,d2,d3ヒット これは C2の oceanの共起性から shipとboatの潜在的な意味のつながりが抽出出来たといえる。 次元圧縮により検索性があまり悪影響を受けないだけでなく、直感的に検索性の改善しうる可能性がある k=2で低階数近似! ※計算によってはU2、V2  の行・列で符号の反転  が起きることに注意 Σ2の0部分に合わせ縮退
  3. 18.4 潜在意味インデックス LSIを用いた実験での性能 • TREC文書コレクション(数万コレクション)にてLSIを実施。 ◦ 次元は350までに圧縮 ◦ 90年代でLSIの計算に一台の機械で一日分。 ◦ TREC参加者の中位と同等の適合率を達成。

    ◦ 標準のベクトル空間より平均的に少し良い結果。 これの考察 • SVDの計算コストは非常に高い。100万超えでは成功したものはない。 ◦ 対策:ランダムに選ばれた文書の部分集合上で LSIを行い、 18.21式で織り込むこと • kをへらすことで再現率は増える傾向がある。 • 特筆すべき点として200<k<300の小さな値では適合率も向上。 (同義語に対する改善) • LSIはクエリと文書がほとんど重なりがないアプリで最もよく働く。 • 伝統的なインデックス、得点計算ほどの効果は上げられない。 ◦ ベクトル空間検索での、否定と論理条件の成立する方法がない。
  4. まとめ 数万以上にも及ぶM×Nの用語文書行列Cに対し、潜在意味インデックス付け (LSI)を 行う動機づけは以下の2点。 • ベクトル空間表現で同義語に対し、その単語と利用形態の潜在的な繋がり (トピック) で捉えることで検索性をあげる。 • 低階数近似(次元圧縮)による計算コストの低減。

    特異値が小さなものを削ることで、文書を特徴づける重要な次元が生き残り 似た単語が多いが別々の文書ベクトルであっても、検索できる可能性があがる。 重要な次元:文書を特徴づけるもの、つまりトピック(話題)をみつけられ、 このトピックを用いて文書のクラスタリングも行える。