Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文解説] Unsupervised Learning of Style-sensitive...
Search
Reon Kajikawa
January 29, 2024
0
4
[論文解説] Unsupervised Learning of Style-sensitive Word Vectors
ACL'18に採択された論文。CBOWによる教師なしスタイル埋め込みを提案した。
Reon Kajikawa
January 29, 2024
Tweet
Share
More Decks by Reon Kajikawa
See All by Reon Kajikawa
[論文解説] Disentangled Learning with Synthetic Parallel Data for Text Style Transfer
reon131
0
4
[論文解説] Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning
reon131
0
10
[論文解説] SentiCSE: A Sentiment-aware Contrastive Sentence Embedding Framework with Sentiment-guided Textual Similarity
reon131
0
11
[論文解説] Text Embeddings Reveal (Almost) As Much As Text
reon131
0
13
[論文解説] OssCSE: Overcoming Surface Structure Bias in Contrastive Learning for Unsupervised Sentence Embedding
reon131
0
1
[論文解説] Sentence Representations via Gaussian Embedding
reon131
0
4
[論文解説] One Embedder, Any Task: Instruction-Finetuned Text Embeddings
reon131
0
24
[論文解説] Alleviating Over-smoothing for Unsupervised Sentence Representation
reon131
0
11
Featured
See All Featured
Building Your Own Lightsaber
phodgson
103
6.1k
GitHub's CSS Performance
jonrohan
1030
460k
Typedesign – Prime Four
hannesfritz
40
2.4k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
95
17k
Done Done
chrislema
181
16k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
A Tale of Four Properties
chriscoyier
157
23k
Raft: Consensus for Rubyists
vanstee
136
6.7k
Transcript
Unsupervised Learning of Style-sensitive Word Vectors Reina Akama, Kento Watanabe,
Sho Yokoi, Sosuke Kobayashi, Kentaro Inui ACL 2018 URL:https://aclanthology.org/P18-2091/ 発表者:B4 梶川 怜恩
• スタイルを考慮した単語ベクトル • スタイルの類似度スコアが付与された単語ペアのデータセットを構築 • 本手法の単語ベクトルが2つの単語間の文体類似性を捉えることを実証した 1 概要
テキストを分析し生成するためには2つの側面を捉える必要 • 何が言われているか(意味情報) • どのように言われているのか(スタイル情報)→ あまり研究されていない • スタイルを捉えることは下流タスクに役立つ [1,2] 2
導入 [1] Wang et al.:Steering Output Style and Topic in Neural Response Generation (EMNLP’17) [2] Pavlick and Tetreault.:An Empirical Analysis of Formality in Online Communication(TACL’16)
スタイルを特定するための厳密なルールを作成するのは困難 [3] → 評価・学習が妨げられている 本研究 • スタイルを考慮した単語ベクトルを教師なし学習 • スタイルを定義することなく取得 •
大規模な発話データから学習 3 導入 [3] Xu.:From Shakespeare to Twitter: What are Language Styles all about?(ACL-workshop’17)
提案手法 / Methodology 4
CBOW [4] • 幅δのウィンドウ内で中心の単語を予測 • 意味的・構文的な類似性を考慮したベクトルを作成 • 単語ベクトル と𝑣𝑐 ∈
𝐶𝑤𝑡 𝑛𝑒𝑎𝑟を学習 • CBOW-NEAR-CTXと呼ぶことにする 5 ベースライン(CBOW-NEAR-CTX) [4] Mikolov et al.:Efficient Estimation of Word Representations in Vector Space(ICLR’13)
CBOW-NEAR-CTX • 近傍の単語から中心の単語を予測 • 意味的・構文的な類似性を考慮したベクトルを作成 → スタイルを捉えたベクトルは学習できない アイデア • ある1つの発話内の全単語のスタイルが一貫(仮説)
• 近傍の文脈と広い文脈とを区別することによるCBOW 6 スタイルを考慮した単語ベクトル
CBOW-ALL-CTX • ある1つの発話内の全単語のスタイルが一貫(同じ発話内の他の単語と一貫性を保つ必要) • 発話内の全ての単語から学習する 7 発話サイズの文脈窓によるスタイル学習(CBOW-ALL-CTX)
CBOW-DIST-CTX • 近傍文脈を学習する → スタイル以外の情報を考慮してしまう • 全文脈𝐶𝑤𝑡 𝑎𝑙𝑙から近傍文脈𝐶𝑤𝑡 𝑛𝑒𝑎𝑟を除外する →
遠い単語のみを学習時に使用 → スタイルのみを捉えた単語ベクトルの取得 8 スタイルのみを学習(CBOW-DIST-CTX)
CBOW-SEP-CTX • スタイルベクトル𝑥と意味ベクトル𝑦に分離して同時学習 訓練時 • 𝑣𝑐 ∈ 𝐶𝑤𝑡 𝑛𝑒𝑎𝑟:スタイル𝑥と意味的・構文的𝑦の両方を更新 •
𝐶𝑤𝑡 𝑑𝑖𝑐𝑡:スタイル𝑥のみを更新 9 スタイルと意味を別々に学習(CBOW-SEP-CTX)
モデル 1. CBOW-NEAR-CTX • 近くの単語のみを考慮 2. CBOW-ALL-CTX • 幅δを文全体に拡張(文に含まれるすべての単語を見る) 3.
CBOW-DIST-CTX • 遠くの単語のみを考慮(スタイルを学習) 4. CBOW-SEP-CTX • 近くの単語、遠くを見る場合の両方を考慮 • スタイルベクトル𝑥と意味/構文ベクトル𝑦に分離して学習 10 学習手法まとめ
評価実験 11
データセットの構築 • Web小説から収集 • 3,000万件の発話データ(訓練:評価 = 99:1) ハイパラ • 次元数:300
• 学習率:個別に調整 • エポック:10 • 窓幅δ:5 12 評価実験
スタイル類似性の評価セットを構築* • 単語ペア間のスタイル類似性に関する人手評価を含む • テストデータからスタイルに関する単語を収集 • 発話内でスタイルに関する単語を選択、単語ペアを作成 • 単語ペアのスタイル類似度を[-2,+2]で注釈 13
評価実験 *https://github.com/jqk09a/stylistic-word-similarity-dataset-ja/
スタイル類似性 • 単語ベクトルのコサイン類似度と人手評価との相関係数 • 提案モデルALLはベースラインを超えた(𝜌𝑠𝑡𝑦𝑙𝑒 = 36.6) • SEPの𝑥はALLと同じ窓幅で学習されたにも関わらず、近傍文脈との学習で類似度が改善 →
より広い単語を用いて学習した有効性 14 評価実験 遠くの単語を学習 (スタイルを考慮した学習) ベースライン (意味・構文を考慮した学習)
意味の類似性 • JWSD(単語ペアの意味的類似性が付与されたデータセット) • スタイルベクトル𝑥:意味の類似性も捉えている(𝜌𝑠𝑒𝑚 = 28.9) → 理想はスタイル類似性だけを捉えてほしい →
トピックも発話内で一貫していることが原因? 15 評価実験
CBOW-SEP-CTXモデルの2つのベクトルについて • スタイルベクトル𝑥:スタイルの類似する単語が出力 • 意味ベクトル𝑦:スタイルの類似しないが、意味的に同じ単語が出力 → 2つの異なる情報を同時に学習している 16 単語ベクトルの分析
CBOW-SEP-CTXモデルの2つのベクトルについて • トピックの類似性を捉えてしまっている • 「サンタ」→サンタクロース、トナカイ、クリスマス → スタイルベクトルが意味の類似性を捉えていた原因 17 単語ベクトルの分析
まとめ 18
スタイルを考慮した単語ベクトルを作成 • スタイルと意味/構文情報を区別できることを示した 弱点 • 文体とトピックの混同を防げなかった → 文書レベルの文脈窓(context window)を追加 →
トピックとスタイルを分離する学習手法を試す 19 まとめ