Slide 1

Slide 1 text

レビューデータからの 各次元が意味を持つDisentangledな 映画のベクトル表現の獲得 金田 悠路, 藤田 澄男, 莊司 慶行 静岡大学, LINEヤフー株式会社 0 第17回データ工学と情報マネジメントに関するフォーラム 7E-01

Slide 2

Slide 2 text

従来のEmbedding手法の問題:分散表現の各次元が意味を持っていない 1 機械学習でEmbeddingは当たり前 文書をベクトル空間にEmbedding 分散表現の各次元を利用できない doc2vec 文書の分散表現 ・文書分類 ・感情分析 ・類似度比較 分散表現を利用して機械学習 分散表現の各次元は意味を持っていない! 具体例➀ 人間が解釈できない 具体例➁ より意味的に踏み込んだ演算ができない どの次元が何を表現しているかわからない 文書ベクトル ー 悲しい +楽しい ある観点に注目した ベクトル演算ができない

Slide 3

Slide 3 text

提案手法:分散表現の各次元が意味を持つエンコーダ ID:388069 この映画は、 終始感動的で 特に最後の… 文書id 文書 提案手法 モデル 文書ベクトル ユーモアさ 悲しさ 文書のDisentangled Representationが観点ごとの比較を可能に 文書のDisentangled Representation 2 各次元が文書の特徴を重複なく説明! もつれをほどいた

Slide 4

Slide 4 text

3 例:doc2vec(PV-DBOW)のDisentangled化 文書ID(one-hot) 文書内単語の事後確率 アプローチ:軽量なエンコーダのDisentangled化 入力 出力 本研究の立ち位置:word2vecやdoc2vecのような 軽量なEmbedding手法を対象とする Disentangled化 Embedding結果 Embedding結果である 文書IDの分散表現が持つ 文書の「特徴のもつれ」をほどくこと Disentangled化の目的 Disentangled化によって 分散表現の各次元が意味を持つように

Slide 5

Slide 5 text

メリット①:ベクトルの各次元の持つ意味がマイクロタグに ユーモア ヒーロー アイアンマンの映画ベクトル 4 #ヒーロー #ユーモア 相対的に高い値をとる次元の持つ意味がアイテムの特徴に 評価実験タスクでは文書として映画のレビューデータを利用 →映画ベクトルの各次元の持つ意味が映画の特徴タグに 順位 映画タイトル 1位 Iron man 2位 Kingsman 3位 Iron man2 1000位 One day … 順位 映画タイトル 1位 Kingsman 2位 Iron man 3位 Hang Over 1000位 One day … ユーモア次元の値で ソートしたランキング ヒーロー次元の値で ソートしたランキング

Slide 6

Slide 6 text

メリット②:ある観点に注目したアイテムのちょい足し検索 アイアンマンの映画ベクトル アイアンマンに似ているけど よりユーモアな映画は… ユーモア次元の 値だけを上げる 5 0.86 ユーモア 0.56 ベースアイテムよりも より○○なアイテム が検索可能に アイテムベクトルの 一つの次元の値を上げ下げ ユーモア キングスマンの映画ベクトル

Slide 7

Slide 7 text

最終的なゴール:文書ベクトルの要件 6 ①現実世界の距離関係を潜在空間内で反映 ②ベクトルの各次元が独立 ③ベクトルの各次元が意味を持つ

Slide 8

Slide 8 text

7 単語パターン予測 従来のdoc2vec 従来のDoc2vecを拡張した提案手法 単語パターン 予測 提案モデル 工夫① 学習タスク 工夫② ロス関数 従来のdoc2vecを拡張、Disentangled化

Slide 9

Slide 9 text

観点ごとに比較できるようにするための二つの工夫 観点ごとの比較が可能な 文書のベクトル化 研究の目的 ①どのような学習タスクを設定するか ②どんなロス関数を設定するか 核となる二つの工夫 ベクトルを解釈可能に 解釈可能な文書のベクトル ①文書の特徴が反映されている ②各次元が持つ情報が独立 0.14 -0.07 5.04 0.09 2.12 3.19 … 条件を満たすには ? ①どんなタスクの ネットワークか ロス計算 ②中間表現の各次元の 独立化度合をどう加味するか 8

Slide 10

Slide 10 text

本研究の核となる二つの工夫 9 ①どのような学習タスクを設定するか 文書の特徴をより反映させた文書ベクトルの獲得 ②ロス関数をどう設計するか 文書ベクトルの各次元の独立化

Slide 11

Slide 11 text

提案手法の概要 ①ベクトル化フレームワーク ②映画の特徴を反映しそうなガイドタスク ③Disentangled度合を考慮したロス関数 10

Slide 12

Slide 12 text

提案手法の概要 ①ベクトル化フレームワーク ②映画の特徴を反映しそうなガイドタスク ③Disentangled度合を考慮したロス関数 11

Slide 13

Slide 13 text

提案手法:①ベクトル化フレームワーク 12 映画IDと映画レビューをセットで Embedding ID:3069 この映画は、 終始感動的で 特に最後の… 入力 ・映画ID ・レビュー内の単語 word2vec・doc2vecのように中間層の重みをベクトルとして利用 映画のレビューを用いた学習フェーズ ベクタライザ … 199937 937 Indexに変換 重み行列からindexに 対応したベクトルを抽出 重み行列 平均 学習タスク 単語パターン予測 Loss ID:3069 感動 ? 重みを更新 レビュー内の単語から映画の分散表現を学習

Slide 14

Slide 14 text

提案手法:①ベクトル化フレームワーク 13 映画IDと映画レビューをセットで Embedding ID:388069 この映画は、 終始感動的で 特に最後の… 映画ID レビュー ベクタライザ 映画IDベクトル 学習タスク ベクタライザ:doc2vecの word2vec・doc2vecのように中間層の重みをベクトルとして利用 ID:388069 感動 ? レビュー内の単語パターン予測 その映画ならではの 単語パターンを学習 映画のレビューを用いた推論フェーズ レビュー内容をもとにした ・PV-DM ・PV-DBOW を組み合わせた拡張埋め込み手法

Slide 15

Slide 15 text

提案手法の概要 ①ベクトル化フレームワーク ②映画の特徴を反映しそうなガイドタスク ③Disentangled度合を考慮したロス関数 14

Slide 16

Slide 16 text

15 モデルのガイドタスクとして映画のメタデータ予測を追加 提案手法:②映画の特徴を反映しそうなガイドタスク 核となる工夫① 映画の特徴を反映した映画IDベクトル ベクタライザにガイドタスク追加 単語予測によるベクタライザの出力 映画IDベクトル 仮定:メタデータは文書ベクトルの一部の次元に固まりやすく各次元の独立化を促しやすい ターゲット単語(one-hot) 映画ID(one-hot) 周辺単語(multi-hot) 出力 ベクタライザ 入力 ガイドタスク追加 ターゲット単語(one-hot) 映画ID(one-hot) 周辺単語(multi-hot) 出力 入力 メタデータ (one-hot)

Slide 17

Slide 17 text

提案手法の概要 ①ベクトル化フレームワーク ②映画の特徴を反映しそうなガイドタスク ③Disentangled度合を考慮したロス関数 16

Slide 18

Slide 18 text

提案手法:③Disentangled度合を考慮したロス関数 ロス関数で映画ベクトルの分布とMNSDとの距離を考慮 映画のDisentangled Representation 映画の特徴を反映した映画IDベクトル ベクトライザにガイドタスク追加 さらにロスでMNSDとの近さを考慮 Kullback-Leibler divergence(KLD):二つの確率分布の擬距離を測る尺度 目的:ロス関数で映画IDベクトルの各次元の独立化を促したい MNSD(多変量標準正規分布) 各変量が独立 映画IDベクトル 映画IDベクトルの分布 損失関数内で KLD算出項を利用し 各次元を独立化 各次元を 各変量と仮定 17 多変量標準正規分布 核となる工夫➁

Slide 19

Slide 19 text

文書のトイ・データによってKLD算出項によるDisentangled化が ベクトルの解釈可能性を向上させることを明らかに 18 トイ・データを用いたKLD算出項の効果検証 比較対象 ・ランダムに初期化したベクトル ・ベクタライザ(単語予測のみ)で学習したベクトル ・ベクタライザ+KLD算出 で学習したベクトル データセット トイ・データ:トピック付文書データを作成 ・文書数:10,000件 ・文書長:20単語 ・トピック数:20種類 KLD算出項を追加することで文書ベクトルの ➀各次元がそれぞれ特定のトピックについての情報を持つように ➁各次元の値の分散が大きくなり解釈可能性が向上 ③各次元の情報エントロピーが減少し情報量が制限 トイ・データによって明らかになったこと

Slide 20

Slide 20 text

19 ロス関数 入力 今回の映画は瀧くんが… 単語パターン予測 学習タスク ベクタライザ Embedding ベクタライザと提案モデルの学習時におけるアーキテクチャの違い ID:388069 単語パターン 予測 提案モデル 入力 今回の映画は瀧くんが… ID:388069 文書の メタデータ予測 KLD算出項を 含めたロス関数

Slide 21

Slide 21 text

二種類のデータを使用して手法を評価 20 ➀クエリ映画に対する類似映画検索の結果を主観評価 ➁ベクトルの各次元の独立度合について自動評価 ③ベクトルの各次元が意味を持っているか自動評価と被験者評価 文書ベクトルの 3要件を満たすか KLD算出項を追加することで ベクトルの性質にどんな変化が生まれるか KLD算出項の効果検証 映画のレビューデータ トイ・データを使用したベクトル評価 実データを使用したベクトル評価

Slide 22

Slide 22 text

再掲:最終的なゴールである文書ベクトルが満たすべき三つの要件 21 ①現実世界の距離関係を潜在空間内で反映 ②ベクトルの各次元が独立 ③ベクトルの各次元が意味を持つ 評価項目➀:クエリ映画に対する類似映画検索の結果を主観評価 評価項目➁:ベクトルの各次元の独立度合について自動評価 評価項目③:ベクトルの各次元が意味を持っているか自動評価と被験者評価

Slide 23

Slide 23 text

22 実データを使用した比較手法の実験設定 ・提案手法(ベクタライザ+ガイドタスク+KLD) ・KLD無しモデル(ベクタライザ+ガイドタスク) ・ガイドタスク無しモデル(ベクタライザ+KLD) ・ベースライン(単語予測のみのベクタライザ) 実データを使用した比較手法 データセット Kaggleで公開されているIMDb Review Dataset ・投稿されたレビュー数が50件以上 ・IMDbにメタデータを持つ 文書(映画)ID:1,000個 文書(映画レビュー)数:50,000件 総単語数:4,673,717語 メタデータ(映画ジャンル)数:22種類 映画1000本を使用 ハイパーパラメータ 値 分散表現の次元数 50 バッチサイズ 800 Negative Sampling数 5 Epoch数 10 window_size 5 ・計算の高速化のためにNegative Sampling ・学習初期の学習崩壊を防ぐ Sigmoid Anealing Scheduler を実装 各手法から得られるベクトルを対象に実験

Slide 24

Slide 24 text

23 実データによるベクトル評価:➀映画ベクトルの類似度比較 評価基準:クエリ映画に類似した映画が上位に来ているか クエリ映画に似た映画ランキング 順位 映画タイトル 類似度 1位 アイアンマン2 9.23 2位 アイアンマン3 9.11 3位 スパイダーマン 8.96 4位 アベンジャーズ 8.87 コサイン類似度で 各映画ベクトルとの 類似度算出 word2vecなどで 学習されたベクトルの質の評価は 類似度比較による上位単語の例を 著者が主観評価 金田がランキングを主観評価 クエリ映画 順位 提案手法 KLD算出項無し ガイドタスク無し 単語予測のみ(ベースライン) 1位 Iron Man Three Iron Man Three Iron Man Three Iron Man Three 2位 Avengers: Age of Ultron Spider-Man: Homecoming Avengers: Age of Ultron Avengers: Age of Ultron 3位 Captain America: Civil War Captain Marvel Captain America: Civil War Captain America: The Winter Soldier 順位 提案手法 KLD算出項無し ガイドタスク無し 単語予測のみ(ベースライン) 1位 Rocketman (Ⅰ) Rocketman (Ⅰ) Rocketman (Ⅰ) Rocketman (Ⅰ) 2位 Walk the Line Walk the Line Walk the Line Walk the Line 3位 The Greatest Showman The Pianist Yesterday(Ⅲ) First Man クエリ映画 「Iron Man Ⅱ」 クエリ映画 「Bohemian Rhapsody」 提案手法から得られるベクトルが 現実空間の距離関係を潜在空間内で反映 知見➀ どの手法でもマーベル系列のヒーロー映画が上位に どの手法でも実話ベースの音楽をテーマとした映画が上位に 現実空間の距離関係を潜在空間内で反映しているか映画ベクトルの類似度比較から評価

Slide 25

Slide 25 text

24 実データによるベクトル評価:➁映画ベクトルの各次元が独立であるか 前提:直交しているベクトルは独立した意味を持つ … 学習済み 映画IDベクトル1000本 一つの次元を “ベクトル”として抽出 全次元の ”ベクトル” の コサイン類似度を 総当たりで算出 コサイン類似度が 0に近い次元の 組み合わせが いくつあるかを評価 KLD算出項の追加により映画ベクトルの各次元がほぼ独立している 提案手法から得られるベクトルの 各次元が独立 知見➁ 実験結果: 提案手法 KLD算出項無し ガイドタスク無し ベースライン 映画ベクトルの各次元を”ベクトル” としたときの総当たりコサイン類似度の分布 ベクトルの各次元が独立しているかベクトルの直交している次元の組み合わせから評価 評価基準:直交している次元がどれくらい多いか

Slide 26

Slide 26 text

25 ベクトルの一つの次元に注目し 次元値が1000本の中で高い映画10本、最も低い映画を抽出 … 2位~10位の映画 最下位の映画 1位の映画 2位~10位の映画ベクトルの平均と ・1位の映画ベクトルとのコサイン類似度 ・最下位の映画ベクトルとのコサイン類似度 を算出 評価基準:映画ベクトルの各次元上位映画群と最下位映画の潜在空間内の距離関係の差がどれくらいあるか 実験設定 比較手法 ・提案手法 ・ベースライン 手法名 コサイン類似度の 差の平均 提案手法 0.63 ベースライン 0.45 提案手法のほうが各次元の値で ソートしたときの上位映画の 意味的なまとまりがある 実データによるベクトル評価:③映画ベクトルの各次元が意味を持っているか自動評価 … 二つのコサイン類似度の差が どれくらいあるかを評価 実験結果:2~10位の映画ベクトルの平均と1位、最下位それぞれとのコサイン類似度の差の平均 平均ベクトル Cos類似度 提案手法から得られるベクトルの 各次元が意味を持つ 知見③ 現実空間の距離関係を 潜在空間内で反映 していることが前提 ベクトルの各次元が意味を持つか各次元上位映画群と最下位映画の距離関係から自動評価

Slide 27

Slide 27 text

26 ベクトルの一つの次元に注目し 次元値が1000本の中で高い映画10本、最も低い映画を抽出 … 2位~10位の映画 最下位の映画 1位の映画 2位~10位の映画に対して、 1位、最下位の映画がそれぞれどれくらい 共通しているかを4段階で点数付け 実験設定 被験者数:2人 比較手法 ・提案手法 ・ベースライン 手法名 次元数/50 提案手法 22 ベースライン 24 ・ベースラインから得られるベクトルのほうが 多くの次元で意味的なまとまりを持つ可能性が示唆 実データによるベクトル評価:④映画ベクトルの各次元が意味を持っているか被験者評価 … 被験者が最下位よりも一位に 高い点数を付けた次元がどれくらい多いか評価 実験結果:被験者の二人が最下位よりも一位に高い点数を付けた次元数 共通点をもつ度合い 4 共通点を持つ度合い 1 提案手法から得られるベクトルの 各次元が人間の解釈できない意味を持つ 知見④ 評価基準:映画ベクトルの各次元上位映画群の共通点を人間が解釈できるか ・自動評価と被験者評価の間で 次元の持つ意味のまとまり度合の評価結果にずれ ベクトルの各次元が持つ意味を人間が解釈可能か各次元上位映画群の共通点から被験者評価

Slide 28

Slide 28 text

実験結果のまとめ 27 提案手法から得られる文書ベクトルが ➀現実空間の距離関係を反映し ➁各次元が独立している ことを明らかに ③各次元が「人間に解釈できない」意味を持っている 可能性が示唆

Slide 29

Slide 29 text

本発表のまとめ 28 文書の分散表現の各次元が意味を持っているエンコーダの提案 手法全体の評価 ・トイ・データを使用したベクトル評価 ・実データを使用したベクトル評価 実験結果のまとめ ・提案手法が表現性能を落とさず各次元が独立したベクトルを学習可能 ・ベクトルの各次元が人間に解釈できない意味的なまとまりをもつ ・doc2vecの拡張埋め込み手法をベース ・工夫①:文書の特徴を反映しそうなガイドタスク ・工夫②:分散表現のDisentangled度合を考慮したロス関数