Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文解説] Unsupervised Learning of Style-sensitive...
Search
Reon Kajikawa
January 29, 2024
0
2
[論文解説] Unsupervised Learning of Style-sensitive Word Vectors
ACL'18に採択された論文。CBOWによる教師なしスタイル埋め込みを提案した。
Reon Kajikawa
January 29, 2024
Tweet
Share
More Decks by Reon Kajikawa
See All by Reon Kajikawa
[論文解説] Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning
reon131
0
2
[論文解説] SentiCSE: A Sentiment-aware Contrastive Sentence Embedding Framework with Sentiment-guided Textual Similarity
reon131
0
6
[論文解説] Text Embeddings Reveal (Almost) As Much As Text
reon131
0
4
[論文解説] OssCSE: Overcoming Surface Structure Bias in Contrastive Learning for Unsupervised Sentence Embedding
reon131
0
1
[論文解説] Sentence Representations via Gaussian Embedding
reon131
0
2
[論文解説] One Embedder, Any Task: Instruction-Finetuned Text Embeddings
reon131
0
3
[論文解説] Alleviating Over-smoothing for Unsupervised Sentence Representation
reon131
0
7
Featured
See All Featured
How to train your dragon (web standard)
notwaldorf
88
5.6k
Speed Design
sergeychernyshev
24
560
ReactJS: Keep Simple. Everything can be a component!
pedronauck
664
120k
Why Our Code Smells
bkeepers
PRO
334
57k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
Designing for humans not robots
tammielis
249
25k
Navigating Team Friction
lara
183
14k
Learning to Love Humans: Emotional Interface Design
aarron
272
40k
Docker and Python
trallard
40
3.1k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
13
1.9k
Intergalactic Javascript Robots from Outer Space
tanoku
268
27k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
5
140
Transcript
Unsupervised Learning of Style-sensitive Word Vectors Reina Akama, Kento Watanabe,
Sho Yokoi, Sosuke Kobayashi, Kentaro Inui ACL 2018 URL:https://aclanthology.org/P18-2091/ 発表者:B4 梶川 怜恩
• スタイルを考慮した単語ベクトル • スタイルの類似度スコアが付与された単語ペアのデータセットを構築 • 本手法の単語ベクトルが2つの単語間の文体類似性を捉えることを実証した 1 概要
テキストを分析し生成するためには2つの側面を捉える必要 • 何が言われているか(意味情報) • どのように言われているのか(スタイル情報)→ あまり研究されていない • スタイルを捉えることは下流タスクに役立つ [1,2] 2
導入 [1] Wang et al.:Steering Output Style and Topic in Neural Response Generation (EMNLP’17) [2] Pavlick and Tetreault.:An Empirical Analysis of Formality in Online Communication(TACL’16)
スタイルを特定するための厳密なルールを作成するのは困難 [3] → 評価・学習が妨げられている 本研究 • スタイルを考慮した単語ベクトルを教師なし学習 • スタイルを定義することなく取得 •
大規模な発話データから学習 3 導入 [3] Xu.:From Shakespeare to Twitter: What are Language Styles all about?(ACL-workshop’17)
提案手法 / Methodology 4
CBOW [4] • 幅δのウィンドウ内で中心の単語を予測 • 意味的・構文的な類似性を考慮したベクトルを作成 • 単語ベクトル と𝑣𝑐 ∈
𝐶𝑤𝑡 𝑛𝑒𝑎𝑟を学習 • CBOW-NEAR-CTXと呼ぶことにする 5 ベースライン(CBOW-NEAR-CTX) [4] Mikolov et al.:Efficient Estimation of Word Representations in Vector Space(ICLR’13)
CBOW-NEAR-CTX • 近傍の単語から中心の単語を予測 • 意味的・構文的な類似性を考慮したベクトルを作成 → スタイルを捉えたベクトルは学習できない アイデア • ある1つの発話内の全単語のスタイルが一貫(仮説)
• 近傍の文脈と広い文脈とを区別することによるCBOW 6 スタイルを考慮した単語ベクトル
CBOW-ALL-CTX • ある1つの発話内の全単語のスタイルが一貫(同じ発話内の他の単語と一貫性を保つ必要) • 発話内の全ての単語から学習する 7 発話サイズの文脈窓によるスタイル学習(CBOW-ALL-CTX)
CBOW-DIST-CTX • 近傍文脈を学習する → スタイル以外の情報を考慮してしまう • 全文脈𝐶𝑤𝑡 𝑎𝑙𝑙から近傍文脈𝐶𝑤𝑡 𝑛𝑒𝑎𝑟を除外する →
遠い単語のみを学習時に使用 → スタイルのみを捉えた単語ベクトルの取得 8 スタイルのみを学習(CBOW-DIST-CTX)
CBOW-SEP-CTX • スタイルベクトル𝑥と意味ベクトル𝑦に分離して同時学習 訓練時 • 𝑣𝑐 ∈ 𝐶𝑤𝑡 𝑛𝑒𝑎𝑟:スタイル𝑥と意味的・構文的𝑦の両方を更新 •
𝐶𝑤𝑡 𝑑𝑖𝑐𝑡:スタイル𝑥のみを更新 9 スタイルと意味を別々に学習(CBOW-SEP-CTX)
モデル 1. CBOW-NEAR-CTX • 近くの単語のみを考慮 2. CBOW-ALL-CTX • 幅δを文全体に拡張(文に含まれるすべての単語を見る) 3.
CBOW-DIST-CTX • 遠くの単語のみを考慮(スタイルを学習) 4. CBOW-SEP-CTX • 近くの単語、遠くを見る場合の両方を考慮 • スタイルベクトル𝑥と意味/構文ベクトル𝑦に分離して学習 10 学習手法まとめ
評価実験 11
データセットの構築 • Web小説から収集 • 3,000万件の発話データ(訓練:評価 = 99:1) ハイパラ • 次元数:300
• 学習率:個別に調整 • エポック:10 • 窓幅δ:5 12 評価実験
スタイル類似性の評価セットを構築* • 単語ペア間のスタイル類似性に関する人手評価を含む • テストデータからスタイルに関する単語を収集 • 発話内でスタイルに関する単語を選択、単語ペアを作成 • 単語ペアのスタイル類似度を[-2,+2]で注釈 13
評価実験 *https://github.com/jqk09a/stylistic-word-similarity-dataset-ja/
スタイル類似性 • 単語ベクトルのコサイン類似度と人手評価との相関係数 • 提案モデルALLはベースラインを超えた(𝜌𝑠𝑡𝑦𝑙𝑒 = 36.6) • SEPの𝑥はALLと同じ窓幅で学習されたにも関わらず、近傍文脈との学習で類似度が改善 →
より広い単語を用いて学習した有効性 14 評価実験 遠くの単語を学習 (スタイルを考慮した学習) ベースライン (意味・構文を考慮した学習)
意味の類似性 • JWSD(単語ペアの意味的類似性が付与されたデータセット) • スタイルベクトル𝑥:意味の類似性も捉えている(𝜌𝑠𝑒𝑚 = 28.9) → 理想はスタイル類似性だけを捉えてほしい →
トピックも発話内で一貫していることが原因? 15 評価実験
CBOW-SEP-CTXモデルの2つのベクトルについて • スタイルベクトル𝑥:スタイルの類似する単語が出力 • 意味ベクトル𝑦:スタイルの類似しないが、意味的に同じ単語が出力 → 2つの異なる情報を同時に学習している 16 単語ベクトルの分析
CBOW-SEP-CTXモデルの2つのベクトルについて • トピックの類似性を捉えてしまっている • 「サンタ」→サンタクロース、トナカイ、クリスマス → スタイルベクトルが意味の類似性を捉えていた原因 17 単語ベクトルの分析
まとめ 18
スタイルを考慮した単語ベクトルを作成 • スタイルと意味/構文情報を区別できることを示した 弱点 • 文体とトピックの混同を防げなかった → 文書レベルの文脈窓(context window)を追加 →
トピックとスタイルを分離する学習手法を試す 19 まとめ