Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning

Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning

研究室の論文読み会の発表資料です。

ryoma yoshimura

June 20, 2019
Tweet

More Decks by ryoma yoshimura

Other Decks in Research

Transcript

  1. Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement

    Learning Julia Kreutzer and Joshua Uyheng and Stefan Riezler (NAACL 2018) 紹介者: 吉村
  2. Abstract • Human bandit Feedback を報酬とした強化学習 (RL) で NMTを改善 •

    Human bandit Feedback の質が Reward Estimator (RE) に与える影響 とその推定報酬の質が RL に与える影響を調べた • 5-point と ペアワイズ選択の評価がついたデータを作成して分析 ◦ 両タスクの評価者間、評価者内の一致度は同程度 ◦ 標準化された 5-point が最も高い信頼性が高い • 5-point 評価付きの800文で回帰学習した RE で BLEU が1.0上がった • 少量の信頼できる弱い人間のフィードバックがあればよく、大規模スケール で応用の可能性があることを示した。
  3. Introduction • BLEUやROUGEなどを報酬として使う seq2seq の強化学習は 翻訳 (Bahdanau et al., 2017)

    や要約(Paulus et al., 2017). などで行われてい る • 先行研究 (Kreutzer et al., 2018) ◦ 商品タイトルの En-Fr 翻訳をユーザーの5つ星評価を報酬として強化 学習で行なったが報酬の品質が悪く失敗、クリックログを利用すると良 くなった。 • 高品質な Human Feedback を手に入れる方法とその信頼性が RL にどう 影響するかを調べる ◦ 5-point と pairwaise で評価者間と評価者内の一致率を測定 ◦ 人間の報酬の学習可能性にも取り組む ◦ MT を 推定報酬を使った RL でどれほど改善できるかを調査
  4. Human MT Rating Task • Data ◦ TED corpus の一部を使用

    ◦ WMT で学習した NMT (out-of-domain)と TED で学習したNMT(in-domain)でそれぞれ翻訳 ◦ 結果が同じものはフィルタリング ◦ reference の長さが 20 ~ 40 のものを選択 ◦ reference と chrF の差が大きくて文長の差が最小になる ようにソートして上位 400 pair を使用 → 同じ長さで質が異なるペアがとれる
  5. Human MT Rating Task Rating Data and Annotator • 400

    ペア (800の翻訳文) • 400ぺアのうち100ペアを複製して500ペア取得 • シャッフルして5分割 ◦ 各セクションに文の重複ないように ◦ 各セクションのうち20ペアが複製したペア • 評価者 ◦ ドイツ語と英語のネイティブ or 流暢な大学生 ◦ 5-points 16人, pairwise 14人 データはここでDLできる
  6. Reliability of Human MT Ratings Inter-rater(評価者間)と Intra-rater (評価者内)でのクリッペンド ルフのα係数を測定 Inter-rater

    • 量タスクで評価者間の一致率はほぼ同 じ • 5-point は参加者で標準化すると著しく 改善 intra-rater • 評価者は 5-point, pairwise 内で一貫し た評価を行なっている • t-testで 5-point, pairwise間の統計的有 意差がなかった → 一貫性においてどち らが優れているか決めるのは難しい
  7. Rater and Item Variance 質の悪い評価者と翻訳を排除するアブレーション分析を行う 評価者内の α を評価者の質としてフィルタリング 5-point の評価者間の信頼性の上がり

    幅が pairwise よりも高い 5-point には信頼性が低いひとが多い pairwise の評価者間の高い信頼性を 得るにはより高い閾値が必要pairwise には評価者内の信頼性が高人が多い 5-point: intra 0.49, inter 0.505, 8人 pairwise: intra 0.66, intra 0.3912, 5人
  8. Rater and Item Variance 分散が大きい翻訳をフィルタリング 0~1 で正規化した値を1から引いて閾 値とする pairwise が

    5-point をすぐに追い越す 多くの翻訳が評価者間で不一致である ことに起因する pairwise の全体的な評価者間の信頼 性が低い 70% が保持されるように(結果は table1 )
  9. Learning a Reward Estimator(5-points) 回帰モデル • simulated では gold referenceとの

    sBLEU で r を計算 • 評価者間で平均をとり 0 ~ 1 に正規化して使用 y: translation ψ: parameters r^: prediction reward r: judgements
  10. Learning a Reward Estimator(pairwise) Brandley-Terry モデル : REが y1 が

    y2 よりも良いと推定する確率 : y1 が y2 よりも良いとされる確率(相対度数) Simulation だと y: translation ψ: parameters
  11. Experiments - Reward Estimator Data: ◦ 1000 raitings にドメイン外のデータ(90k samples)を追加

    ▪ WMTの10k の source を beam size 9 で翻訳、 報酬は sBLEU ▪ マルチタスク学習で overfitting を防ぐ ◦ 各ミニバッチでは確率 p aux で補助データをサンプル、 1 - p aux で元のデータをサンプル( p aux = 0.8 で設定) Model:
  12. Experiments - Reward Estimator TER とのスピアマンの順位相関係数で評価(sQEと同様) MSE では simulated が

    humanよりわ ずかに高い PW では 逆で、sentence-bleuに対する softmax が人手による pairwise 選択の 確率ほど表現力がないから フィルタリングすると MSE では相関が 高くなるが PW では下がる 相関が全体的に低いのは small dataset に over-fitting してるから pairwise より標準化 5-point が信頼性 が高かった。 → 報酬の質が RE の質に影響
  13. Reinforcement Learning from Estimated or Simulated Direct Rewards. MLE で

    pre-train D: paralell corpus x: source y: target 強化学習で fine-tuning する 温度パラメータ τ で分布を平滑化 報酬の期待値 k-samplingで近似
  14. Experiments Data • WMT17, de-en (out-of-domain) train: 5.9M , dev:

    2,299 (WMT16) . test: 3,004 • IWST (TED), de-en (in-domain) train: 153k, dev:6,969, test:6750 Architecture • subword-based encoder-decoder with attention ◦ bidirectional encoder and single layer decoder • subword embedding size: 500 • sample k: 5, softmax temperature: 0.5
  15. Result Simulated - Direct • RL は GLEUを報酬 • OPL

    は sBLEU を報酬 Simulated - Estemated • MSE: +1.2, PW: +0.8 (BLEU) • REが少量の rating を一般化する のに役立っている Human - Direct • simulationと同じくらい Human - Estemated • MSE > PW + 1.1 (BLEU) • Filterしてもあまり変わらない
  16. Conclusion • NMT を human bandit feedback で改善するために NMT に

    おける RL の信頼性、学習性、有効性について 5-point と pairwise の報酬でどう異なるかを調べた • 5-point と pairwise の信頼性は同程度で 5-point の方が RE の学習と RL に適していることがわかった • 小さいデータセットで BLEU が 1向上 • post-edit や gold reference と異なり迅速かつ安価に取得で きるので、大規模なデータでの応用の可能性がある