[論文解説] Unsupervised Learning of Style-sensitive Word Vectors

Unsupervised Learning of Style-sensitive Word Vectors Reina Akama, Kento Watanabe,
Sho Yokoi, Sosuke Kobayashi, Kentaro Inui ACL 2018 URL:https://aclanthology.org/P18-2091/ 発表者：B4 梶川怜恩

• スタイルを考慮した単語ベクトル • スタイルの類似度スコアが付与された単語ペアのデータセットを構築 • 本手法の単語ベクトルが2つの単語間の文体類似性を捉えることを実証した 1 概要

テキストを分析し生成するためには2つの側面を捉える必要 • 何が言われているか（意味情報） • どのように言われているのか（スタイル情報）→ あまり研究されていない • スタイルを捉えることは下流タスクに役立つ [1,2] 2
導入 [1] Wang et al.:Steering Output Style and Topic in Neural Response Generation （EMNLP’17） [2] Pavlick and Tetreault.:An Empirical Analysis of Formality in Online Communication（TACL’16）

スタイルを特定するための厳密なルールを作成するのは困難 [3] → 評価・学習が妨げられている本研究 • スタイルを考慮した単語ベクトルを教師なし学習 • スタイルを定義することなく取得 •
大規模な発話データから学習 3 導入 [3] Xu.:From Shakespeare to Twitter: What are Language Styles all about?（ACL-workshop’17）

提案手法 / Methodology 4

CBOW [4] • 幅δのウィンドウ内で中心の単語を予測 • 意味的・構文的な類似性を考慮したベクトルを作成 • 単語ベクトルと𝑣𝑐 ∈
𝐶𝑤𝑡 𝑛𝑒𝑎𝑟を学習 • CBOW-NEAR-CTXと呼ぶことにする 5 ベースライン（CBOW-NEAR-CTX） [4] Mikolov et al.:Efficient Estimation of Word Representations in Vector Space（ICLR’13）

CBOW-NEAR-CTX • 近傍の単語から中心の単語を予測 • 意味的・構文的な類似性を考慮したベクトルを作成 → スタイルを捉えたベクトルは学習できないアイデア • ある1つの発話内の全単語のスタイルが一貫（仮説）
• 近傍の文脈と広い文脈とを区別することによるCBOW 6 スタイルを考慮した単語ベクトル

CBOW-ALL-CTX • ある1つの発話内の全単語のスタイルが一貫（同じ発話内の他の単語と一貫性を保つ必要） • 発話内の全ての単語から学習する 7 発話サイズの文脈窓によるスタイル学習（CBOW-ALL-CTX）

CBOW-DIST-CTX • 近傍文脈を学習する → スタイル以外の情報を考慮してしまう • 全文脈𝐶𝑤𝑡 𝑎𝑙𝑙から近傍文脈𝐶𝑤𝑡 𝑛𝑒𝑎𝑟を除外する →
遠い単語のみを学習時に使用 → スタイルのみを捉えた単語ベクトルの取得 8 スタイルのみを学習（CBOW-DIST-CTX）

CBOW-SEP-CTX • スタイルベクトル𝑥と意味ベクトル𝑦に分離して同時学習訓練時 • 𝑣𝑐 ∈ 𝐶𝑤𝑡 𝑛𝑒𝑎𝑟：スタイル𝑥と意味的・構文的𝑦の両方を更新 •
𝐶𝑤𝑡 𝑑𝑖𝑐𝑡：スタイル𝑥のみを更新 9 スタイルと意味を別々に学習（CBOW-SEP-CTX）

モデル 1. CBOW-NEAR-CTX • 近くの単語のみを考慮 2. CBOW-ALL-CTX • 幅δを文全体に拡張（文に含まれるすべての単語を見る） 3.
CBOW-DIST-CTX • 遠くの単語のみを考慮（スタイルを学習） 4. CBOW-SEP-CTX • 近くの単語、遠くを見る場合の両方を考慮 • スタイルベクトル𝑥と意味/構文ベクトル𝑦に分離して学習 10 学習手法まとめ

評価実験 11

データセットの構築 • Web小説から収集 • 3,000万件の発話データ（訓練：評価 = 99：1）ハイパラ • 次元数：300
• 学習率：個別に調整 • エポック：10 • 窓幅δ：5 12 評価実験

スタイル類似性の評価セットを構築* • 単語ペア間のスタイル類似性に関する人手評価を含む • テストデータからスタイルに関する単語を収集 • 発話内でスタイルに関する単語を選択、単語ペアを作成 • 単語ペアのスタイル類似度を[-2,+2]で注釈 13
評価実験 *https://github.com/jqk09a/stylistic-word-similarity-dataset-ja/

スタイル類似性 • 単語ベクトルのコサイン類似度と人手評価との相関係数 • 提案モデルALLはベースラインを超えた（𝜌𝑠𝑡𝑦𝑙𝑒 = 36.6） • SEPの𝑥はALLと同じ窓幅で学習されたにも関わらず、近傍文脈との学習で類似度が改善 →
より広い単語を用いて学習した有効性 14 評価実験遠くの単語を学習（スタイルを考慮した学習）ベースライン（意味・構文を考慮した学習）

意味の類似性 • JWSD（単語ペアの意味的類似性が付与されたデータセット） • スタイルベクトル𝑥：意味の類似性も捉えている（𝜌𝑠𝑒𝑚 = 28.9） → 理想はスタイル類似性だけを捉えてほしい →
トピックも発話内で一貫していることが原因？ 15 評価実験

CBOW-SEP-CTXモデルの2つのベクトルについて • スタイルベクトル𝑥：スタイルの類似する単語が出力 • 意味ベクトル𝑦：スタイルの類似しないが、意味的に同じ単語が出力 → 2つの異なる情報を同時に学習している 16 単語ベクトルの分析

CBOW-SEP-CTXモデルの2つのベクトルについて • トピックの類似性を捉えてしまっている • 「サンタ」→サンタクロース、トナカイ、クリスマス → スタイルベクトルが意味の類似性を捉えていた原因 17 単語ベクトルの分析

まとめ 18

スタイルを考慮した単語ベクトルを作成 • スタイルと意味/構文情報を区別できることを示した弱点 • 文体とトピックの混同を防げなかった → 文書レベルの文脈窓（context window）を追加 →
トピックとスタイルを分離する学習手法を試す 19 まとめ

[論文解説] Unsupervised Learning of Style-sensitive...

[論文解説] Unsupervised Learning of Style-sensitive Word Vectors

Reon Kajikawa

More Decks by Reon Kajikawa

Featured

Transcript

Unsupervised Learning of Style-sensitive Word Vectors Reina Akama, Kento Watanabe,

• スタイルを考慮した単語ベクトル • スタイルの類似度スコアが付与された単語ペアのデータセットを構築 • 本手法の単語ベクトルが2つの単語間の文体類似性を捉えることを実証した 1 概要

スタイルを特定するための厳密なルールを作成するのは困難 [3] → 評価・学習が妨げられている本研究 • スタイルを考慮した単語ベクトルを教師なし学習 • スタイルを定義することなく取得 •

提案手法 / Methodology 4

CBOW [4] • 幅δのウィンドウ内で中心の単語を予測 • 意味的・構文的な類似性を考慮したベクトルを作成 • 単語ベクトルと𝑣𝑐 ∈

CBOW-NEAR-CTX • 近傍の単語から中心の単語を予測 • 意味的・構文的な類似性を考慮したベクトルを作成 → スタイルを捉えたベクトルは学習できないアイデア • ある1つの発話内の全単語のスタイルが一貫（仮説）

CBOW-ALL-CTX • ある1つの発話内の全単語のスタイルが一貫（同じ発話内の他の単語と一貫性を保つ必要） • 発話内の全ての単語から学習する 7 発話サイズの文脈窓によるスタイル学習（CBOW-ALL-CTX）

CBOW-DIST-CTX • 近傍文脈を学習する → スタイル以外の情報を考慮してしまう • 全文脈𝐶𝑤𝑡 𝑎𝑙𝑙から近傍文脈𝐶𝑤𝑡 𝑛𝑒𝑎𝑟を除外する →

CBOW-SEP-CTX • スタイルベクトル𝑥と意味ベクトル𝑦に分離して同時学習訓練時 • 𝑣𝑐 ∈ 𝐶𝑤𝑡 𝑛𝑒𝑎𝑟：スタイル𝑥と意味的・構文的𝑦の両方を更新 •

モデル 1. CBOW-NEAR-CTX • 近くの単語のみを考慮 2. CBOW-ALL-CTX • 幅δを文全体に拡張（文に含まれるすべての単語を見る） 3.

評価実験 11

データセットの構築 • Web小説から収集 • 3,000万件の発話データ（訓練：評価 = 99：1）ハイパラ • 次元数：300

意味の類似性 • JWSD（単語ペアの意味的類似性が付与されたデータセット） • スタイルベクトル𝑥：意味の類似性も捉えている（𝜌𝑠𝑒𝑚 = 28.9） → 理想はスタイル類似性だけを捉えてほしい →

CBOW-SEP-CTXモデルの2つのベクトルについて • トピックの類似性を捉えてしまっている • 「サンタ」→サンタクロース、トナカイ、クリスマス → スタイルベクトルが意味の類似性を捉えていた原因 17 単語ベクトルの分析

まとめ 18

スタイルを考慮した単語ベクトルを作成 • スタイルと意味/構文情報を区別できることを示した弱点 • 文体とトピックの混同を防げなかった → 文書レベルの文脈窓（context window）を追加 →