レビューデータからの各次元が意味を持つ Disentangled な映画のベクトル表現の獲得

by YuroKanada

Slide 1

Slide 1 text

レビューデータからの各次元が意味を持つDisentangledな映画のベクトル表現の獲得金田悠路, 藤田澄男, 莊司慶行静岡大学, LINEヤフー株式会社 0 第17回データ工学と情報マネジメントに関するフォーラム 7E-01

Slide 2

Slide 2 text

従来のEmbedding手法の問題：分散表現の各次元が意味を持っていない 1 機械学習でEmbeddingは当たり前文書をベクトル空間にEmbedding 分散表現の各次元を利用できない doc2vec 文書の分散表現・文書分類・感情分析・類似度比較分散表現を利用して機械学習分散表現の各次元は意味を持っていない！具体例➀ 人間が解釈できない具体例➁ より意味的に踏み込んだ演算ができないどの次元が何を表現しているかわからない文書ベクトルー悲しい＋楽しいある観点に注目したベクトル演算ができない

Slide 3

Slide 3 text

提案手法：分散表現の各次元が意味を持つエンコーダ ID:388069 この映画は、終始感動的で特に最後の… 文書id 文書提案手法モデル文書ベクトルユーモアさ悲しさ文書のDisentangled Representationが観点ごとの比較を可能に文書のDisentangled Representation 2 各次元が文書の特徴を重複なく説明！もつれをほどいた

Slide 4

Slide 4 text

3 例：doc2vec（PV-DBOW）のDisentangled化文書ID（one-hot）文書内単語の事後確率アプローチ：軽量なエンコーダのDisentangled化入力出力本研究の立ち位置：word2vecやdoc2vecのような軽量なEmbedding手法を対象とする Disentangled化 Embedding結果 Embedding結果である文書IDの分散表現が持つ文書の「特徴のもつれ」をほどくこと Disentangled化の目的 Disentangled化によって分散表現の各次元が意味を持つように

Slide 5

Slide 5 text

メリット①：ベクトルの各次元の持つ意味がマイクロタグにユーモアヒーローアイアンマンの映画ベクトル 4 #ヒーロー #ユーモア相対的に高い値をとる次元の持つ意味がアイテムの特徴に評価実験タスクでは文書として映画のレビューデータを利用 →映画ベクトルの各次元の持つ意味が映画の特徴タグに順位映画タイトル 1位 Iron man 2位 Kingsman 3位 Iron man2 1000位 One day … 順位映画タイトル 1位 Kingsman 2位 Iron man 3位 Hang Over 1000位 One day … ユーモア次元の値でソートしたランキングヒーロー次元の値でソートしたランキング

Slide 6

Slide 6 text

メリット②：ある観点に注目したアイテムのちょい足し検索アイアンマンの映画ベクトルアイアンマンに似ているけどよりユーモアな映画は… ユーモア次元の値だけを上げる 5 0.86 ユーモア 0.56 ベースアイテムよりもより○○なアイテムが検索可能にアイテムベクトルの一つの次元の値を上げ下げユーモアキングスマンの映画ベクトル

Slide 7

Slide 7 text

最終的なゴール：文書ベクトルの要件 6 ①現実世界の距離関係を潜在空間内で反映 ②ベクトルの各次元が独立 ③ベクトルの各次元が意味を持つ

Slide 8

Slide 8 text

7 単語パターン予測従来のdoc2vec 従来のDoc2vecを拡張した提案手法単語パターン予測提案モデル工夫① 学習タスク工夫② ロス関数従来のdoc2vecを拡張、Disentangled化

Slide 9

Slide 9 text

観点ごとに比較できるようにするための二つの工夫観点ごとの比較が可能な文書のベクトル化研究の目的 ①どのような学習タスクを設定するか ②どんなロス関数を設定するか核となる二つの工夫ベクトルを解釈可能に解釈可能な文書のベクトル ①文書の特徴が反映されている ②各次元が持つ情報が独立 0.14 -0.07 5.04 0.09 2.12 3.19 … 条件を満たすには？ ①どんなタスクのネットワークかロス計算 ②中間表現の各次元の独立化度合をどう加味するか 8

Slide 10

Slide 10 text

本研究の核となる二つの工夫 9 ①どのような学習タスクを設定するか文書の特徴をより反映させた文書ベクトルの獲得 ②ロス関数をどう設計するか文書ベクトルの各次元の独立化

Slide 11

Slide 11 text

提案手法の概要 ①ベクトル化フレームワーク ②映画の特徴を反映しそうなガイドタスク ③Disentangled度合を考慮したロス関数 10

Slide 12

Slide 12 text

提案手法の概要 ①ベクトル化フレームワーク ②映画の特徴を反映しそうなガイドタスク ③Disentangled度合を考慮したロス関数 11

Slide 13

Slide 13 text

提案手法：①ベクトル化フレームワーク 12 映画IDと映画レビューをセットで Embedding ID:3069 この映画は、終始感動的で特に最後の… 入力・映画ID ・レビュー内の単語 word2vec・doc2vecのように中間層の重みをベクトルとして利用映画のレビューを用いた学習フェーズベクタライザ … 199937 937 Indexに変換重み行列からindexに対応したベクトルを抽出重み行列平均学習タスク単語パターン予測 Loss ID:3069 感動？重みを更新レビュー内の単語から映画の分散表現を学習

Slide 14

Slide 14 text

提案手法：①ベクトル化フレームワーク 13 映画IDと映画レビューをセットで Embedding ID:388069 この映画は、終始感動的で特に最後の… 映画ID レビューベクタライザ映画IDベクトル学習タスクベクタライザ：doc2vecの word2vec・doc2vecのように中間層の重みをベクトルとして利用 ID:388069 感動？レビュー内の単語パターン予測その映画ならではの単語パターンを学習映画のレビューを用いた推論フェーズレビュー内容をもとにした・PV-DM ・PV-DBOW を組み合わせた拡張埋め込み手法

Slide 15

Slide 15 text

提案手法の概要 ①ベクトル化フレームワーク ②映画の特徴を反映しそうなガイドタスク ③Disentangled度合を考慮したロス関数 14

Slide 16

Slide 16 text

15 モデルのガイドタスクとして映画のメタデータ予測を追加提案手法：②映画の特徴を反映しそうなガイドタスク核となる工夫① 映画の特徴を反映した映画IDベクトルベクタライザにガイドタスク追加単語予測によるベクタライザの出力映画IDベクトル仮定：メタデータは文書ベクトルの一部の次元に固まりやすく各次元の独立化を促しやすいターゲット単語（one-hot）映画ID（one-hot）周辺単語（multi-hot）出力ベクタライザ入力ガイドタスク追加ターゲット単語（one-hot）映画ID（one-hot）周辺単語（multi-hot）出力入力メタデータ（one-hot）

Slide 17

Slide 17 text

提案手法の概要 ①ベクトル化フレームワーク ②映画の特徴を反映しそうなガイドタスク ③Disentangled度合を考慮したロス関数 16

Slide 18

Slide 18 text

提案手法：③Disentangled度合を考慮したロス関数ロス関数で映画ベクトルの分布とMNSDとの距離を考慮映画のDisentangled Representation 映画の特徴を反映した映画IDベクトルベクトライザにガイドタスク追加さらにロスでMNSDとの近さを考慮 Kullback-Leibler divergence（KLD）：二つの確率分布の擬距離を測る尺度目的：ロス関数で映画IDベクトルの各次元の独立化を促したい MNSD（多変量標準正規分布）各変量が独立映画IDベクトル映画IDベクトルの分布損失関数内で KLD算出項を利用し各次元を独立化各次元を各変量と仮定 17 多変量標準正規分布核となる工夫➁

Slide 19

Slide 19 text

文書のトイ・データによってKLD算出項によるDisentangled化がベクトルの解釈可能性を向上させることを明らかに 18 トイ・データを用いたKLD算出項の効果検証比較対象・ランダムに初期化したベクトル・ベクタライザ（単語予測のみ）で学習したベクトル・ベクタライザ＋KLD算出で学習したベクトルデータセットトイ・データ：トピック付文書データを作成・文書数：10,000件・文書長：20単語・トピック数：20種類 KLD算出項を追加することで文書ベクトルの ➀各次元がそれぞれ特定のトピックについての情報を持つように ➁各次元の値の分散が大きくなり解釈可能性が向上 ③各次元の情報エントロピーが減少し情報量が制限トイ・データによって明らかになったこと

Slide 20

Slide 20 text

19 ロス関数入力今回の映画は瀧くんが… 単語パターン予測学習タスクベクタライザ Embedding ベクタライザと提案モデルの学習時におけるアーキテクチャの違い ID:388069 単語パターン予測提案モデル入力今回の映画は瀧くんが… ID:388069 文書のメタデータ予測 KLD算出項を含めたロス関数

Slide 21

Slide 21 text

二種類のデータを使用して手法を評価 20 ➀クエリ映画に対する類似映画検索の結果を主観評価 ➁ベクトルの各次元の独立度合について自動評価 ③ベクトルの各次元が意味を持っているか自動評価と被験者評価文書ベクトルの 3要件を満たすか KLD算出項を追加することでベクトルの性質にどんな変化が生まれるか KLD算出項の効果検証映画のレビューデータトイ・データを使用したベクトル評価実データを使用したベクトル評価

Slide 22

Slide 22 text

再掲：最終的なゴールである文書ベクトルが満たすべき三つの要件 21 ①現実世界の距離関係を潜在空間内で反映 ②ベクトルの各次元が独立 ③ベクトルの各次元が意味を持つ評価項目➀：クエリ映画に対する類似映画検索の結果を主観評価評価項目➁：ベクトルの各次元の独立度合について自動評価評価項目③：ベクトルの各次元が意味を持っているか自動評価と被験者評価

Slide 23

Slide 23 text

22 実データを使用した比較手法の実験設定・提案手法（ベクタライザ＋ガイドタスク＋KLD）・KLD無しモデル（ベクタライザ＋ガイドタスク）・ガイドタスク無しモデル（ベクタライザ＋KLD）・ベースライン（単語予測のみのベクタライザ）実データを使用した比較手法データセット Kaggleで公開されているIMDb Review Dataset ・投稿されたレビュー数が50件以上・IMDbにメタデータを持つ文書（映画）ID：1,000個文書（映画レビュー）数：50,000件総単語数：4,673,717語メタデータ（映画ジャンル）数：22種類映画1000本を使用ハイパーパラメータ値分散表現の次元数 50 バッチサイズ 800 Negative Sampling数 5 Epoch数 10 window_size 5 ・計算の高速化のためにNegative Sampling ・学習初期の学習崩壊を防ぐ Sigmoid Anealing Scheduler を実装各手法から得られるベクトルを対象に実験

Slide 24

Slide 24 text

23 実データによるベクトル評価：➀映画ベクトルの類似度比較評価基準：クエリ映画に類似した映画が上位に来ているかクエリ映画に似た映画ランキング順位映画タイトル類似度 1位アイアンマン2 9.23 2位アイアンマン3 9.11 3位スパイダーマン 8.96 4位アベンジャーズ 8.87 コサイン類似度で各映画ベクトルとの類似度算出 word2vecなどで学習されたベクトルの質の評価は類似度比較による上位単語の例を著者が主観評価金田がランキングを主観評価クエリ映画順位提案手法 KLD算出項無しガイドタスク無し単語予測のみ（ベースライン） 1位 Iron Man Three Iron Man Three Iron Man Three Iron Man Three 2位 Avengers: Age of Ultron Spider-Man: Homecoming Avengers: Age of Ultron Avengers: Age of Ultron 3位 Captain America: Civil War Captain Marvel Captain America: Civil War Captain America: The Winter Soldier 順位提案手法 KLD算出項無しガイドタスク無し単語予測のみ（ベースライン） 1位 Rocketman (Ⅰ) Rocketman (Ⅰ) Rocketman (Ⅰ) Rocketman (Ⅰ) 2位 Walk the Line Walk the Line Walk the Line Walk the Line 3位 The Greatest Showman The Pianist Yesterday(Ⅲ) First Man クエリ映画「Iron Man Ⅱ」クエリ映画「Bohemian Rhapsody」提案手法から得られるベクトルが現実空間の距離関係を潜在空間内で反映知見➀ どの手法でもマーベル系列のヒーロー映画が上位にどの手法でも実話ベースの音楽をテーマとした映画が上位に現実空間の距離関係を潜在空間内で反映しているか映画ベクトルの類似度比較から評価

Slide 25

Slide 25 text

24 実データによるベクトル評価：➁映画ベクトルの各次元が独立であるか前提：直交しているベクトルは独立した意味を持つ … 学習済み映画IDベクトル1000本一つの次元を “ベクトル”として抽出全次元の ”ベクトル” のコサイン類似度を総当たりで算出コサイン類似度が 0に近い次元の組み合わせがいくつあるかを評価 KLD算出項の追加により映画ベクトルの各次元がほぼ独立している提案手法から得られるベクトルの各次元が独立知見➁ 実験結果：提案手法 KLD算出項無しガイドタスク無しベースライン映画ベクトルの各次元を”ベクトル” としたときの総当たりコサイン類似度の分布ベクトルの各次元が独立しているかベクトルの直交している次元の組み合わせから評価評価基準：直交している次元がどれくらい多いか

Slide 26

Slide 26 text

25 ベクトルの一つの次元に注目し次元値が1000本の中で高い映画10本、最も低い映画を抽出 … 2位～10位の映画最下位の映画 1位の映画 2位～10位の映画ベクトルの平均と・1位の映画ベクトルとのコサイン類似度・最下位の映画ベクトルとのコサイン類似度を算出評価基準：映画ベクトルの各次元上位映画群と最下位映画の潜在空間内の距離関係の差がどれくらいあるか実験設定比較手法・提案手法・ベースライン手法名コサイン類似度の差の平均提案手法 0.63 ベースライン 0.45 提案手法のほうが各次元の値でソートしたときの上位映画の意味的なまとまりがある実データによるベクトル評価：③映画ベクトルの各次元が意味を持っているか自動評価 … 二つのコサイン類似度の差がどれくらいあるかを評価実験結果：2～10位の映画ベクトルの平均と1位、最下位それぞれとのコサイン類似度の差の平均平均ベクトル Cos類似度提案手法から得られるベクトルの各次元が意味を持つ知見③ 現実空間の距離関係を潜在空間内で反映していることが前提ベクトルの各次元が意味を持つか各次元上位映画群と最下位映画の距離関係から自動評価

Slide 27

Slide 27 text

26 ベクトルの一つの次元に注目し次元値が1000本の中で高い映画10本、最も低い映画を抽出 … 2位～10位の映画最下位の映画 1位の映画 2位～10位の映画に対して、 1位、最下位の映画がそれぞれどれくらい共通しているかを4段階で点数付け実験設定被験者数：2人比較手法・提案手法・ベースライン手法名次元数/50 提案手法 22 ベースライン 24 ・ベースラインから得られるベクトルのほうが多くの次元で意味的なまとまりを持つ可能性が示唆実データによるベクトル評価：④映画ベクトルの各次元が意味を持っているか被験者評価 … 被験者が最下位よりも一位に高い点数を付けた次元がどれくらい多いか評価実験結果：被験者の二人が最下位よりも一位に高い点数を付けた次元数共通点をもつ度合い 4 共通点を持つ度合い 1 提案手法から得られるベクトルの各次元が人間の解釈できない意味を持つ知見④ 評価基準：映画ベクトルの各次元上位映画群の共通点を人間が解釈できるか・自動評価と被験者評価の間で次元の持つ意味のまとまり度合の評価結果にずれベクトルの各次元が持つ意味を人間が解釈可能か各次元上位映画群の共通点から被験者評価

Slide 28

Slide 28 text

実験結果のまとめ 27 提案手法から得られる文書ベクトルが ➀現実空間の距離関係を反映し ➁各次元が独立していることを明らかに ③各次元が「人間に解釈できない」意味を持っている可能性が示唆

Slide 29

Slide 29 text

本発表のまとめ 28 文書の分散表現の各次元が意味を持っているエンコーダの提案手法全体の評価・トイ・データを使用したベクトル評価・実データを使用したベクトル評価実験結果のまとめ・提案手法が表現性能を落とさず各次元が独立したベクトルを学習可能・ベクトルの各次元が人間に解釈できない意味的なまとまりをもつ・doc2vecの拡張埋め込み手法をベース・工夫①：文書の特徴を反映しそうなガイドタスク・工夫②：分散表現のDisentangled度合を考慮したロス関数