論文読み会 WWW2022 | Learning Probabilistic Box Embeddings for Effective and Efficient Ranking

Slide 1

Slide 1 text

Learning Probabilistic Box Embeddings for Effective and Efficient Ranking 著者: Lang Mei, Jiaxin Mao, Gang Guo, Ji-Rong Wen (Renmin Univ. of China) 学会: WWW2022 @cocomoff 1/21

Slide 2

Slide 2 text

目次（余計な話が多い）背景埋め込み・検索・推薦、ChatGeoPT KDD'22, ERNIE-GeoL 階層性 Box Embeddings関係の話 EACL2017, Learning to Predict Denotational Probabilities For Modeling Entailment ACL2018, Probabilistic Embedding of Knowledge Graphs with Box Lattice Measures ICLR2019, Smoothing the Geometry of Probabilistic Box Embeddings EMNLP2021, Box Embeddings: An open-source library for representation learning using geometric structures WWW'22の内容 (ランキング) 2/21

Slide 3

Slide 3 text

背景: 埋め込み・検索・推薦最近、埋め込みベクトルを利用した検索・推薦などに興味がある（NLP2023: 技術文書、2023年度業務: 地理空間情報 (経路・旅程)？）ここ数年、インタラクティブ最適化をやってきたのでChatGPTに乗っかりたい ChatGeoPTとかもある 3/21

Slide 4

Slide 4 text

背景: ERNIE-GeoL Baidu の ERNIE に対して地理情報を食べさせたやつ (ERNIE-GeoL, KDD'22) heterogeneous graphを使ってランダムウォークさせて埋め込みタスク: クエリの意図推定、クエリとPOIのマッチング、住所のパース、 geocoding (地名のマッチングみたいなもの)、next POI推薦他の基盤モデルそのまま使うよりも、Geo情報でtuneすると性能上がる技術文書（専門性が高い、階層性がある）や旅程推薦（地理的な制約）を思うと、タスクが対象としている情報の構造性があった方が、信頼できる出力が出てきそう会社の部署構造、引用関係のネットワーク、地名の階層構造… 4/21

Slide 5

Slide 5 text

背景: 階層性地理情報 (POIの列を単語の列とみなす) よりもNLPの世界の方が進んでる埋め込みを見てみると、いろいろある単語のベクトル埋め込み、ポアンカレ埋め込み、ガウス埋め込み、箱埋め込み、… 今日は「箱埋め込み」とランキングの論文（WWW'22）に注目箱埋め込み: パラメータを倍に増やして、箱の包含関係を使う 5/21

Slide 6

Slide 6 text

目次（余計な話が多い） Box Embeddings関係の話 EACL2017, Learning to Predict Denotational Probabilities For Modeling Entailment ACL2018, Probabilistic Embedding of Knowledge Graphs with Box Lattice Measures ICLR2019, Smoothing the Geometry of Probabilistic Box Embeddings EMNLP2021, Box Embeddings: An open-source library for representation learning using geometric structures WWW'22の内容 (ランキング) 背景埋め込み・検索・推薦、ChatGeoPT KDD'22, ERNIE-GeoL 階層性 6/21

Slide 7

Slide 7 text

埋め込み: EACL2017 具体的な学習方法・モデルは省略含意関係を判定するRTE (Recognizing Textual Entailment) タスクの論文背景知識 Word2vec的な技術でベクトル埋め込みできるという世界観（分布仮説）他の考え方: 文が説明できる画像の集合によっての表示的な意味を議論する (visual denotation): 結果がグラフになる (集合の階層関係) 表示的な意味関係 (集合の包含関係) を使って順序関係（順序埋め込み）を学習する過去の研究によれば、少なくとも分布仮説による表現と同じぐらい有効 7/21

Slide 8

Slide 8 text

埋め込み: ACL2018 説明かなり飛ばしてます順序埋め込みを束の上で議論すればいいのでは？という論文束; 順序によって構成される数学的なオブジェクト半順序集合 ( ) 束; 部分集合族で、join と meet が計算できるものメインのアイデア: 既存手法（半開区間）では議論してないけど、埋め込みベクトルの値域はに押し込めて、区間の積・max・minを使った束 (Box Lattice) 性能も良かった 8/21

Slide 9

Slide 9 text

埋め込み: ICLR2019 説明かなり飛ばしてます厳密な箱じゃなくて、重なり部分が計算できるなめらかな表現でいいのでは？厳密な箱だと重ならないペアで勾配が0で学習が難しいなめらかな箱にすると、パラメータも少なく学習が簡単特にスパース/inbalancedなデータの場合、なめらかな箱の方が性能が良い 9/21

Slide 10

Slide 10 text

埋め込み: EMNLP2021 (demo) ライブラリあるよ Demo paperなので論文にpythonのコードが書いてある基本的な機能 (箱の表現 BoxTensor、箱の問い合わせや重なり合い具合を評価するために使う体積の評価 Volume、データローダーと初期化など) Box Embeddingと階層構造の図 (左) 例: を埋め込み、となるように学習する (右) 論文のコードをGoogle Colabで動かしたら結果再現できた 10/21

Slide 11

Slide 11 text

目次（余計な話が多い） WWW'22の内容 (ランキング) 背景埋め込み・検索・推薦、ChatGeoPT KDD'22, ERNIE-GeoL 階層性 Box Embeddings関係の話 EACL2017, Learning to Predict Denotational Probabilities For Modeling Entailment ACL2018, Probabilistic Embedding of Knowledge Graphs with Box Lattice Measures ICLR2019, Smoothing the Geometry of Probabilistic Box Embeddings EMNLP2021, Box Embeddings: An open-source library for representation learning using geometric structures 11/21

Slide 12

Slide 12 text

ここから本編です: 12/21

Slide 13

Slide 13 text

WWW'22: 背景と結果ベクトル埋め込みベースの検索システム (近傍検索・ランキング・推薦など) は、深層学習時代では基本的な技術になっているが、微妙な点もある: (effectiveness): クエリーやアイテムの多様性・不確実性の表現能力ベクトル空間の1つの点に埋め込めるほど明確ではない (efficiency): 近傍探索が大変アイデア: 箱にすればいいのでは (box retrieval を提案)？ 13/21

Slide 14

Slide 14 text

WWW'22: ベクトル埋め込み・箱埋め込みベクトル埋め込みオブジェクトを -次元ベクトルに埋め込む距離や類似度を検索に使う箱埋め込みオブジェクトを -次元のaxis-aligned hyper-rectangleに埋め込む表記体積重なり区間の重なり: 2つの箱が疎: 重なった体積: . 定理: はカーネル関数 14/21

Slide 15

Slide 15 text

WWW'22: 箱埋め込みの学習; Parameterization 箱をそのまま最適化するのは disad. なのでガンベル分布の箱の縁を最適化する分布関数ガンベル分布のmax/minは、ガンベル分布(パラメータのmax/min)に従う箱でmin/maxを計算する場合 (平均のところがlog-sum-exp; LSE): 体積の期待値を求めるために: , ガンベル分布を仮定したときの期待体積 : Euler-Mascheroni constant たぶんどこかに式展開があるはず… (arXiv 2010.04831 or UAI21) 15/21

Slide 16

Slide 16 text

WWW'22: 問題設定・ロス関数前提クエリ、アイテム、クエリに適合したアイテムの集合に対して、で埋め込む。ガンベル分布による期待体積を用いてスコアを求める。ランキングロス LtRタスク: 正のアイテムは高いスコアを、負のアイテム (sampling戦略で取得) は低いスコアになるように学習する。 exp()の2項目が大きく、1項目が小さくなればロスが小さくなる検索タスクのために2つの制約をつける箱の体積の制約箱の重なりに関する制約 16/21

Slide 17

Slide 17 text

WWW'22: 制約 LtRの全体ロス: ランキングロス+制約×2 箱が大きすぎると曖昧な埋め込みになってダメそう（クエリ・アイテム両方）: 𝟙 𝟙 疎な箱同士（重なっていない軸がある）はフィルタリングに有効そう: 正例と負例の領域が重ならないようにペナルティを付与したい一番近いところにマージンぐらいの幅があるようにペナルティ 17/21

Slide 18

Slide 18 text

WWW'22: 学習したあとの箱はどうなってるのか？学習後、クエリとアイテムに箱埋め込みが計算できるの重なり合いはどうなるか箱の各次元でそれぞれ確率ぐらいで重なっていると仮定 (重なる = relevant) 各次元が独立だと仮定重なっている部分について著者の主張: 各次元ごとに関係のないアイテム (irrelevant items) をフィルタリングしていけば良いかぶっていない次元が1つでもあれば関係のないアイテムと判定高速に判定するために索引構造を作る 18/21

Slide 19

Slide 19 text

WWW'22: Indexing & Search 右のような軸があるかを高速に探したい書いてあること (抜粋) 箱埋め込みの両側 ( )について、対象データの各次元の情報をソートしておく: 各軸で二分探索する各軸レベルで探す bit演算でできるので高速に計算できる関連アイテムをランキングにする方法索引から関連アイテムを取得して、重なり体積を計算して出力する空間索引使わないの？ (R-Treeなど) 高次元 ( ) だと死ぬので使わない 19/21

Slide 20

Slide 20 text

WWW'22: 実験 (検索) TREC2019 Deep Learning (DL) Track 8,841,823 passages, 502,939 training queries, 6,980 test queries ベースラインの STAR と同じ負例サンプリング手法を用いた箱埋め込みしただけで既存のベースラインより良い。制約つけると箱の重なり具合がいい感じに調整されて、効率が上がっている。 20/21

Slide 21

Slide 21 text

WWW'22: 実験 (推薦) 推薦実装の統一的なフレームワーク Recbole を使って、MovieLens-1M と AmazonBooks を利用してベースライン (DSSM/GRU4REC/SASREC) と比較した 20インタラクションしたユーザのみ負例をランダムに100個と、全体使った場合で比較 21/21