Upgrade to Pro — share decks privately, control downloads, hide ads and more …

レビューデータからの各次元が意味を持つ Disentangled な映画のベクトル表現の獲得

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for YuroKanada YuroKanada
March 01, 2025
14

レビューデータからの各次元が意味を持つ Disentangled な映画のベクトル表現の獲得

Avatar for YuroKanada

YuroKanada

March 01, 2025
Tweet

Transcript

  1. レビューデータからの 各次元が意味を持つDisentangledな 映画のベクトル表現の獲得 金田 悠路, 藤田 澄男, 莊司 慶行 静岡大学,

    LINEヤフー株式会社 0 第17回データ工学と情報マネジメントに関するフォーラム 7E-01
  2. 従来のEmbedding手法の問題:分散表現の各次元が意味を持っていない 1 機械学習でEmbeddingは当たり前 文書をベクトル空間にEmbedding 分散表現の各次元を利用できない doc2vec 文書の分散表現 ・文書分類 ・感情分析 ・類似度比較

    分散表現を利用して機械学習 分散表現の各次元は意味を持っていない! 具体例➀ 人間が解釈できない 具体例➁ より意味的に踏み込んだ演算ができない どの次元が何を表現しているかわからない 文書ベクトル ー 悲しい +楽しい ある観点に注目した ベクトル演算ができない
  3. 提案手法:分散表現の各次元が意味を持つエンコーダ ID:388069 この映画は、 終始感動的で 特に最後の… 文書id 文書 提案手法 モデル 文書ベクトル

    ユーモアさ 悲しさ 文書のDisentangled Representationが観点ごとの比較を可能に 文書のDisentangled Representation 2 各次元が文書の特徴を重複なく説明! もつれをほどいた
  4. 3 例:doc2vec(PV-DBOW)のDisentangled化 文書ID(one-hot) 文書内単語の事後確率 アプローチ:軽量なエンコーダのDisentangled化 入力 出力 本研究の立ち位置:word2vecやdoc2vecのような 軽量なEmbedding手法を対象とする Disentangled化

    Embedding結果 Embedding結果である 文書IDの分散表現が持つ 文書の「特徴のもつれ」をほどくこと Disentangled化の目的 Disentangled化によって 分散表現の各次元が意味を持つように
  5. メリット①:ベクトルの各次元の持つ意味がマイクロタグに ユーモア ヒーロー アイアンマンの映画ベクトル 4 #ヒーロー #ユーモア 相対的に高い値をとる次元の持つ意味がアイテムの特徴に 評価実験タスクでは文書として映画のレビューデータを利用 →映画ベクトルの各次元の持つ意味が映画の特徴タグに

    順位 映画タイトル 1位 Iron man 2位 Kingsman 3位 Iron man2 1000位 One day … 順位 映画タイトル 1位 Kingsman 2位 Iron man 3位 Hang Over 1000位 One day … ユーモア次元の値で ソートしたランキング ヒーロー次元の値で ソートしたランキング
  6. メリット②:ある観点に注目したアイテムのちょい足し検索 アイアンマンの映画ベクトル アイアンマンに似ているけど よりユーモアな映画は… ユーモア次元の 値だけを上げる 5 0.86 ユーモア 0.56

    ベースアイテムよりも より◦◦なアイテム が検索可能に アイテムベクトルの 一つの次元の値を上げ下げ ユーモア キングスマンの映画ベクトル
  7. 提案手法:①ベクトル化フレームワーク 12 映画IDと映画レビューをセットで Embedding ID:3069 この映画は、 終始感動的で 特に最後の… 入力 ・映画ID

    ・レビュー内の単語 word2vec・doc2vecのように中間層の重みをベクトルとして利用 映画のレビューを用いた学習フェーズ ベクタライザ … 199937 937 Indexに変換 重み行列からindexに 対応したベクトルを抽出 重み行列 平均 学習タスク 単語パターン予測 Loss ID:3069 感動 ? 重みを更新 レビュー内の単語から映画の分散表現を学習
  8. 提案手法:①ベクトル化フレームワーク 13 映画IDと映画レビューをセットで Embedding ID:388069 この映画は、 終始感動的で 特に最後の… 映画ID レビュー

    ベクタライザ 映画IDベクトル 学習タスク ベクタライザ:doc2vecの word2vec・doc2vecのように中間層の重みをベクトルとして利用 ID:388069 感動 ? レビュー内の単語パターン予測 その映画ならではの 単語パターンを学習 映画のレビューを用いた推論フェーズ レビュー内容をもとにした ・PV-DM ・PV-DBOW を組み合わせた拡張埋め込み手法
  9. 文書のトイ・データによってKLD算出項によるDisentangled化が ベクトルの解釈可能性を向上させることを明らかに 18 トイ・データを用いたKLD算出項の効果検証 比較対象 ・ランダムに初期化したベクトル ・ベクタライザ(単語予測のみ)で学習したベクトル ・ベクタライザ+KLD算出 で学習したベクトル データセット

    トイ・データ:トピック付文書データを作成 ・文書数:10,000件 ・文書長:20単語 ・トピック数:20種類 KLD算出項を追加することで文書ベクトルの ➀各次元がそれぞれ特定のトピックについての情報を持つように ➁各次元の値の分散が大きくなり解釈可能性が向上 ③各次元の情報エントロピーが減少し情報量が制限 トイ・データによって明らかになったこと
  10. 19 ロス関数 入力 今回の映画は瀧くんが… 単語パターン予測 学習タスク ベクタライザ Embedding ベクタライザと提案モデルの学習時におけるアーキテクチャの違い ID:388069

    単語パターン 予測 提案モデル 入力 今回の映画は瀧くんが… ID:388069 文書の メタデータ予測 KLD算出項を 含めたロス関数
  11. 22 実データを使用した比較手法の実験設定 ・提案手法(ベクタライザ+ガイドタスク+KLD) ・KLD無しモデル(ベクタライザ+ガイドタスク) ・ガイドタスク無しモデル(ベクタライザ+KLD) ・ベースライン(単語予測のみのベクタライザ) 実データを使用した比較手法 データセット Kaggleで公開されているIMDb Review

    Dataset ・投稿されたレビュー数が50件以上 ・IMDbにメタデータを持つ 文書(映画)ID:1,000個 文書(映画レビュー)数:50,000件 総単語数:4,673,717語 メタデータ(映画ジャンル)数:22種類 映画1000本を使用 ハイパーパラメータ 値 分散表現の次元数 50 バッチサイズ 800 Negative Sampling数 5 Epoch数 10 window_size 5 ・計算の高速化のためにNegative Sampling ・学習初期の学習崩壊を防ぐ Sigmoid Anealing Scheduler を実装 各手法から得られるベクトルを対象に実験
  12. 23 実データによるベクトル評価:➀映画ベクトルの類似度比較 評価基準:クエリ映画に類似した映画が上位に来ているか クエリ映画に似た映画ランキング 順位 映画タイトル 類似度 1位 アイアンマン2 9.23

    2位 アイアンマン3 9.11 3位 スパイダーマン 8.96 4位 アベンジャーズ 8.87 コサイン類似度で 各映画ベクトルとの 類似度算出 word2vecなどで 学習されたベクトルの質の評価は 類似度比較による上位単語の例を 著者が主観評価 金田がランキングを主観評価 クエリ映画 順位 提案手法 KLD算出項無し ガイドタスク無し 単語予測のみ(ベースライン) 1位 Iron Man Three Iron Man Three Iron Man Three Iron Man Three 2位 Avengers: Age of Ultron Spider-Man: Homecoming Avengers: Age of Ultron Avengers: Age of Ultron 3位 Captain America: Civil War Captain Marvel Captain America: Civil War Captain America: The Winter Soldier 順位 提案手法 KLD算出項無し ガイドタスク無し 単語予測のみ(ベースライン) 1位 Rocketman (Ⅰ) Rocketman (Ⅰ) Rocketman (Ⅰ) Rocketman (Ⅰ) 2位 Walk the Line Walk the Line Walk the Line Walk the Line 3位 The Greatest Showman The Pianist Yesterday(Ⅲ) First Man クエリ映画 「Iron Man Ⅱ」 クエリ映画 「Bohemian Rhapsody」 提案手法から得られるベクトルが 現実空間の距離関係を潜在空間内で反映 知見➀ どの手法でもマーベル系列のヒーロー映画が上位に どの手法でも実話ベースの音楽をテーマとした映画が上位に 現実空間の距離関係を潜在空間内で反映しているか映画ベクトルの類似度比較から評価
  13. 24 実データによるベクトル評価:➁映画ベクトルの各次元が独立であるか 前提:直交しているベクトルは独立した意味を持つ … 学習済み 映画IDベクトル1000本 一つの次元を “ベクトル”として抽出 全次元の ”ベクトル”

    の コサイン類似度を 総当たりで算出 コサイン類似度が 0に近い次元の 組み合わせが いくつあるかを評価 KLD算出項の追加により映画ベクトルの各次元がほぼ独立している 提案手法から得られるベクトルの 各次元が独立 知見➁ 実験結果: 提案手法 KLD算出項無し ガイドタスク無し ベースライン 映画ベクトルの各次元を”ベクトル” としたときの総当たりコサイン類似度の分布 ベクトルの各次元が独立しているかベクトルの直交している次元の組み合わせから評価 評価基準:直交している次元がどれくらい多いか
  14. 25 ベクトルの一つの次元に注目し 次元値が1000本の中で高い映画10本、最も低い映画を抽出 … 2位~10位の映画 最下位の映画 1位の映画 2位~10位の映画ベクトルの平均と ・1位の映画ベクトルとのコサイン類似度 ・最下位の映画ベクトルとのコサイン類似度

    を算出 評価基準:映画ベクトルの各次元上位映画群と最下位映画の潜在空間内の距離関係の差がどれくらいあるか 実験設定 比較手法 ・提案手法 ・ベースライン 手法名 コサイン類似度の 差の平均 提案手法 0.63 ベースライン 0.45 提案手法のほうが各次元の値で ソートしたときの上位映画の 意味的なまとまりがある 実データによるベクトル評価:③映画ベクトルの各次元が意味を持っているか自動評価 … 二つのコサイン類似度の差が どれくらいあるかを評価 実験結果:2~10位の映画ベクトルの平均と1位、最下位それぞれとのコサイン類似度の差の平均 平均ベクトル Cos類似度 提案手法から得られるベクトルの 各次元が意味を持つ 知見③ 現実空間の距離関係を 潜在空間内で反映 していることが前提 ベクトルの各次元が意味を持つか各次元上位映画群と最下位映画の距離関係から自動評価
  15. 26 ベクトルの一つの次元に注目し 次元値が1000本の中で高い映画10本、最も低い映画を抽出 … 2位~10位の映画 最下位の映画 1位の映画 2位~10位の映画に対して、 1位、最下位の映画がそれぞれどれくらい 共通しているかを4段階で点数付け

    実験設定 被験者数:2人 比較手法 ・提案手法 ・ベースライン 手法名 次元数/50 提案手法 22 ベースライン 24 ・ベースラインから得られるベクトルのほうが 多くの次元で意味的なまとまりを持つ可能性が示唆 実データによるベクトル評価:④映画ベクトルの各次元が意味を持っているか被験者評価 … 被験者が最下位よりも一位に 高い点数を付けた次元がどれくらい多いか評価 実験結果:被験者の二人が最下位よりも一位に高い点数を付けた次元数 共通点をもつ度合い 4 共通点を持つ度合い 1 提案手法から得られるベクトルの 各次元が人間の解釈できない意味を持つ 知見④ 評価基準:映画ベクトルの各次元上位映画群の共通点を人間が解釈できるか ・自動評価と被験者評価の間で 次元の持つ意味のまとまり度合の評価結果にずれ ベクトルの各次元が持つ意味を人間が解釈可能か各次元上位映画群の共通点から被験者評価