Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文解説] Unsupervised Learning of Style-sensitive...
Search
Reon Kajikawa
January 29, 2024
0
14
[論文解説] Unsupervised Learning of Style-sensitive Word Vectors
ACL'18に採択された論文。CBOWによる教師なしスタイル埋め込みを提案した。
Reon Kajikawa
January 29, 2024
Tweet
Share
More Decks by Reon Kajikawa
See All by Reon Kajikawa
[論文解説] Not All Negatives are Equal: Label Aware Contrastive Loss for Fine grained Text Classification
reon131
0
9
[論文解説] Disentangled Learning with Synthetic Parallel Data for Text Style Transfer
reon131
0
11
[論文解説] Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning
reon131
0
16
[論文解説] SentiCSE: A Sentiment-aware Contrastive Sentence Embedding Framework with Sentiment-guided Textual Similarity
reon131
0
13
[論文解説] Text Embeddings Reveal (Almost) As Much As Text
reon131
0
84
[論文解説] OssCSE: Overcoming Surface Structure Bias in Contrastive Learning for Unsupervised Sentence Embedding
reon131
0
4
[論文解説] Sentence Representations via Gaussian Embedding
reon131
0
69
[論文解説] One Embedder, Any Task: Instruction-Finetuned Text Embeddings
reon131
0
35
[論文解説] Alleviating Over-smoothing for Unsupervised Sentence Representation
reon131
0
15
Featured
See All Featured
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.6k
Typedesign – Prime Four
hannesfritz
42
2.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
How to train your dragon (web standard)
notwaldorf
96
6.2k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.5k
Facilitating Awesome Meetings
lara
55
6.5k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.9k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Practical Orchestrator
shlominoach
190
11k
Code Review Best Practice
trishagee
70
19k
Transcript
Unsupervised Learning of Style-sensitive Word Vectors Reina Akama, Kento Watanabe,
Sho Yokoi, Sosuke Kobayashi, Kentaro Inui ACL 2018 URL:https://aclanthology.org/P18-2091/ 発表者:B4 梶川 怜恩
• スタイルを考慮した単語ベクトル • スタイルの類似度スコアが付与された単語ペアのデータセットを構築 • 本手法の単語ベクトルが2つの単語間の文体類似性を捉えることを実証した 1 概要
テキストを分析し生成するためには2つの側面を捉える必要 • 何が言われているか(意味情報) • どのように言われているのか(スタイル情報)→ あまり研究されていない • スタイルを捉えることは下流タスクに役立つ [1,2] 2
導入 [1] Wang et al.:Steering Output Style and Topic in Neural Response Generation (EMNLP’17) [2] Pavlick and Tetreault.:An Empirical Analysis of Formality in Online Communication(TACL’16)
スタイルを特定するための厳密なルールを作成するのは困難 [3] → 評価・学習が妨げられている 本研究 • スタイルを考慮した単語ベクトルを教師なし学習 • スタイルを定義することなく取得 •
大規模な発話データから学習 3 導入 [3] Xu.:From Shakespeare to Twitter: What are Language Styles all about?(ACL-workshop’17)
提案手法 / Methodology 4
CBOW [4] • 幅δのウィンドウ内で中心の単語を予測 • 意味的・構文的な類似性を考慮したベクトルを作成 • 単語ベクトル と𝑣𝑐 ∈
𝐶𝑤𝑡 𝑛𝑒𝑎𝑟を学習 • CBOW-NEAR-CTXと呼ぶことにする 5 ベースライン(CBOW-NEAR-CTX) [4] Mikolov et al.:Efficient Estimation of Word Representations in Vector Space(ICLR’13)
CBOW-NEAR-CTX • 近傍の単語から中心の単語を予測 • 意味的・構文的な類似性を考慮したベクトルを作成 → スタイルを捉えたベクトルは学習できない アイデア • ある1つの発話内の全単語のスタイルが一貫(仮説)
• 近傍の文脈と広い文脈とを区別することによるCBOW 6 スタイルを考慮した単語ベクトル
CBOW-ALL-CTX • ある1つの発話内の全単語のスタイルが一貫(同じ発話内の他の単語と一貫性を保つ必要) • 発話内の全ての単語から学習する 7 発話サイズの文脈窓によるスタイル学習(CBOW-ALL-CTX)
CBOW-DIST-CTX • 近傍文脈を学習する → スタイル以外の情報を考慮してしまう • 全文脈𝐶𝑤𝑡 𝑎𝑙𝑙から近傍文脈𝐶𝑤𝑡 𝑛𝑒𝑎𝑟を除外する →
遠い単語のみを学習時に使用 → スタイルのみを捉えた単語ベクトルの取得 8 スタイルのみを学習(CBOW-DIST-CTX)
CBOW-SEP-CTX • スタイルベクトル𝑥と意味ベクトル𝑦に分離して同時学習 訓練時 • 𝑣𝑐 ∈ 𝐶𝑤𝑡 𝑛𝑒𝑎𝑟:スタイル𝑥と意味的・構文的𝑦の両方を更新 •
𝐶𝑤𝑡 𝑑𝑖𝑐𝑡:スタイル𝑥のみを更新 9 スタイルと意味を別々に学習(CBOW-SEP-CTX)
モデル 1. CBOW-NEAR-CTX • 近くの単語のみを考慮 2. CBOW-ALL-CTX • 幅δを文全体に拡張(文に含まれるすべての単語を見る) 3.
CBOW-DIST-CTX • 遠くの単語のみを考慮(スタイルを学習) 4. CBOW-SEP-CTX • 近くの単語、遠くを見る場合の両方を考慮 • スタイルベクトル𝑥と意味/構文ベクトル𝑦に分離して学習 10 学習手法まとめ
評価実験 11
データセットの構築 • Web小説から収集 • 3,000万件の発話データ(訓練:評価 = 99:1) ハイパラ • 次元数:300
• 学習率:個別に調整 • エポック:10 • 窓幅δ:5 12 評価実験
スタイル類似性の評価セットを構築* • 単語ペア間のスタイル類似性に関する人手評価を含む • テストデータからスタイルに関する単語を収集 • 発話内でスタイルに関する単語を選択、単語ペアを作成 • 単語ペアのスタイル類似度を[-2,+2]で注釈 13
評価実験 *https://github.com/jqk09a/stylistic-word-similarity-dataset-ja/
スタイル類似性 • 単語ベクトルのコサイン類似度と人手評価との相関係数 • 提案モデルALLはベースラインを超えた(𝜌𝑠𝑡𝑦𝑙𝑒 = 36.6) • SEPの𝑥はALLと同じ窓幅で学習されたにも関わらず、近傍文脈との学習で類似度が改善 →
より広い単語を用いて学習した有効性 14 評価実験 遠くの単語を学習 (スタイルを考慮した学習) ベースライン (意味・構文を考慮した学習)
意味の類似性 • JWSD(単語ペアの意味的類似性が付与されたデータセット) • スタイルベクトル𝑥:意味の類似性も捉えている(𝜌𝑠𝑒𝑚 = 28.9) → 理想はスタイル類似性だけを捉えてほしい →
トピックも発話内で一貫していることが原因? 15 評価実験
CBOW-SEP-CTXモデルの2つのベクトルについて • スタイルベクトル𝑥:スタイルの類似する単語が出力 • 意味ベクトル𝑦:スタイルの類似しないが、意味的に同じ単語が出力 → 2つの異なる情報を同時に学習している 16 単語ベクトルの分析
CBOW-SEP-CTXモデルの2つのベクトルについて • トピックの類似性を捉えてしまっている • 「サンタ」→サンタクロース、トナカイ、クリスマス → スタイルベクトルが意味の類似性を捉えていた原因 17 単語ベクトルの分析
まとめ 18
スタイルを考慮した単語ベクトルを作成 • スタイルと意味/構文情報を区別できることを示した 弱点 • 文体とトピックの混同を防げなかった → 文書レベルの文脈窓(context window)を追加 →
トピックとスタイルを分離する学習手法を試す 19 まとめ