Reinforcement Learning Based Text Style Transfer without Parallel Training Corpus

Reinforcement Learning Based Text Style Transfer without Parallel Training Corpus
Hongyu Gong, Suma Bhat, Lingfei Wu, JinJun Xiong, Wen-mei Hwu NAACL2019読み会　紹介者: 吉村

Abstract • パラレルコーパスをつかわないテキストスタイル変換 • スタイル、意味、流暢性の評価器を報酬として強化学習 • positive-negative, informal-formal の変換タスクで SOTA
• 人手評価でも効果的であることがわかった

Introduction • パラレルコーパスでのスタイル変換は成功しているがパラレルコーパスはいつでも利用できるわけではない • 従来手法 ◦ 意味をエンコードしてスタイル情報と組み合わせてスタイル変換する ◦
パラメータで微分可能な損失関数に制限されている ◦ 意味とスタイルのみを学習、評価している ▪ 流暢性などの他の重要な側面は見ていない • 提案手法 ◦ パラレルコーパスを使わないスタイル変換を行う RL を用いた学習システムを提案する ◦ 報酬にスタイルの強さ、意味の保持、流暢性を使用

Contributions • テキストスタイル変換のための RL フレームワークを提案複数の評価指標を報酬にして学習を行う • パラレルコーパスがない問題に対処している • 意味の保持と変換の強さで
SOTA

Model - Generator • Encoder-Decoder with attention • Encoder, Decoder
は GRU • targetコーパスをパラレルにして pre-train → RL ◦ encoder と decoder が意味とスタイルを学習

Model - Style discriminator • 生成文のスタイルを評価 • bidirectional RNN with
attention • スタイル分類のデータで学習 • ロバストにするためにGAN で人間が書いた文とモデルの出力を区別するように敵対的に追加で学習

Model - Semantic module • 入力と生成文の意味がどれだけ保持できているかを評価 • Word Mover’s Distance
(WMD)を使用 ◦ 2文書間の類似度を計算する手法 ◦ 単語分散表現ベース

Model - Language model • 生成文の流暢性を評価 • ターゲットスタイルのコーパスで事前学習された2層の RNNを使用
• 確率の対数をとって文長で割ったものをスコアにする

• 与えられた環境における価値を最大化するようにエージェントを学習 • 方策 π : p(a|s) ◦ 状態
s でどう行動するかを定めた確率分布 • 方策ベースと価値ベース ◦ 価値ベース: 価値関数 Q(s, a) を学習 ◦ 方策ベース: 方策を学習し、累積報酬和を最大化 Reinforcement Learning reward Enviroment Agent action state

Reinforcement Learning REINFROCE: 方策ベースのアルゴリズム　　 G: generator T’: maximum length
of the decoder V: target vocabulary γ : (0 < γ < 1) discounting factor 割引報酬和報酬の期待値 State: Action:

Sentence Sampling • 文を出力し終わるまで報酬を計算できない問題 • rolling out (Yu et al.,
2017) ◦ 現時刻までの単語列から文の最後までサンプリング ◦ サンプリング手法はビームサーチ •

Reward 3つの評価器の加重平均実験では α = 1.0, β = 0.5, η
= 0.5 に設定

Experiment • タスク ◦ positive - negative sentiment (ST) ◦
formal - informal (FT) • データセット ◦ ST: Yelp website (restaurant reviews) ◦ FT: Grammarly’s Yahoo Answer Fomalyty Corpus ▪ family, relationships のデータを使用

Experiment • Model settings ◦ embeddings size 50 ▪ English
WikiCorpus で学習して train で tune する ◦ beam size 8 in RL and inference. • ベースライン:　2つの unsupervised な SOTA モデル ◦ Cross alignment model (CA) [Shen et al., 2017] ▪ GAN ベースの手法, cross alignment AE を提案 ◦ Multi-decoder seq2deq model (MDS) [Fu et al., 2018] ▪ GAN ベース、encoder で意味を学習してスタイル固有の decoder で変換させる

Experiment - Automatic Evaluation • Content preservation ◦ S sem
[Fu et al., 2018] ▪ 単語分散表現ベースの手法 • Transfer strength ◦ スタイル変換のコーパスで学習された LSTM ベースの分類器 [Fu et al., 2018] • Fluency ◦ perplexity • Overall score ◦

Results - Automatic evaluation • Sentiment transfer ◦ 意味の保持では CA,
流暢性では MDS がよい ◦ RLSは両方向の Overall で良くなっている • Formality transfer ◦ RLSは全体的に良くなっている

Results - Human evaluation • 100出力に3人でアノテートした平均

Example1 baseline は食品にトピックが変更されているが RLS ではフードサービスのトピックを保持している。 CAモデルはピザについて、MDSモデルは顧客サービスについて説明してるが RLS ではチキンのトピックを保持している。

Example2 原文は修辞的な質問（質問に見せかけて意見を主張する）であり、「人々は彼らの行動の背後にある意味をほとんど理解できない」ことを真に意味している全てのモデルが意味をとらえられていない難しい例

Conclusions • スタイル、意味、流暢性の評価基準を組み込んだ強化学習ベースのテキストスタイル変換システムを提案 • 2つの異なるスタイル変換タスクで自動評価および人手評価でその有用性を実証した

Reinforcement Learning Based Text Style Transfe...

Reinforcement Learning Based Text Style Transfer without Parallel Training Corpus

ryoma yoshimura

More Decks by ryoma yoshimura

Other Decks in Research

Featured

Transcript