Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Reliability and Learnability of Human Bandit F...

Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning

研究室の論文読み会の発表資料です。

Avatar for ryoma yoshimura

ryoma yoshimura

June 20, 2019
Tweet

More Decks by ryoma yoshimura

Other Decks in Research

Transcript

  1. Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement

    Learning Julia Kreutzer and Joshua Uyheng and Stefan Riezler (NAACL 2018) 紹介者: 吉村
  2. Abstract • Human bandit Feedback を報酬とした強化学習 (RL) で NMTを改善 •

    Human bandit Feedback の質が Reward Estimator (RE) に与える影響 とその推定報酬の質が RL に与える影響を調べた • 5-point と ペアワイズ選択の評価がついたデータを作成して分析 ◦ 両タスクの評価者間、評価者内の一致度は同程度 ◦ 標準化された 5-point が最も高い信頼性が高い • 5-point 評価付きの800文で回帰学習した RE で BLEU が1.0上がった • 少量の信頼できる弱い人間のフィードバックがあればよく、大規模スケール で応用の可能性があることを示した。
  3. Introduction • BLEUやROUGEなどを報酬として使う seq2seq の強化学習は 翻訳 (Bahdanau et al., 2017)

    や要約(Paulus et al., 2017). などで行われてい る • 先行研究 (Kreutzer et al., 2018) ◦ 商品タイトルの En-Fr 翻訳をユーザーの5つ星評価を報酬として強化 学習で行なったが報酬の品質が悪く失敗、クリックログを利用すると良 くなった。 • 高品質な Human Feedback を手に入れる方法とその信頼性が RL にどう 影響するかを調べる ◦ 5-point と pairwaise で評価者間と評価者内の一致率を測定 ◦ 人間の報酬の学習可能性にも取り組む ◦ MT を 推定報酬を使った RL でどれほど改善できるかを調査
  4. Human MT Rating Task • Data ◦ TED corpus の一部を使用

    ◦ WMT で学習した NMT (out-of-domain)と TED で学習したNMT(in-domain)でそれぞれ翻訳 ◦ 結果が同じものはフィルタリング ◦ reference の長さが 20 ~ 40 のものを選択 ◦ reference と chrF の差が大きくて文長の差が最小になる ようにソートして上位 400 pair を使用 → 同じ長さで質が異なるペアがとれる
  5. Human MT Rating Task Rating Data and Annotator • 400

    ペア (800の翻訳文) • 400ぺアのうち100ペアを複製して500ペア取得 • シャッフルして5分割 ◦ 各セクションに文の重複ないように ◦ 各セクションのうち20ペアが複製したペア • 評価者 ◦ ドイツ語と英語のネイティブ or 流暢な大学生 ◦ 5-points 16人, pairwise 14人 データはここでDLできる
  6. Reliability of Human MT Ratings Inter-rater(評価者間)と Intra-rater (評価者内)でのクリッペンド ルフのα係数を測定 Inter-rater

    • 量タスクで評価者間の一致率はほぼ同 じ • 5-point は参加者で標準化すると著しく 改善 intra-rater • 評価者は 5-point, pairwise 内で一貫し た評価を行なっている • t-testで 5-point, pairwise間の統計的有 意差がなかった → 一貫性においてどち らが優れているか決めるのは難しい
  7. Rater and Item Variance 質の悪い評価者と翻訳を排除するアブレーション分析を行う 評価者内の α を評価者の質としてフィルタリング 5-point の評価者間の信頼性の上がり

    幅が pairwise よりも高い 5-point には信頼性が低いひとが多い pairwise の評価者間の高い信頼性を 得るにはより高い閾値が必要pairwise には評価者内の信頼性が高人が多い 5-point: intra 0.49, inter 0.505, 8人 pairwise: intra 0.66, intra 0.3912, 5人
  8. Rater and Item Variance 分散が大きい翻訳をフィルタリング 0~1 で正規化した値を1から引いて閾 値とする pairwise が

    5-point をすぐに追い越す 多くの翻訳が評価者間で不一致である ことに起因する pairwise の全体的な評価者間の信頼 性が低い 70% が保持されるように(結果は table1 )
  9. Learning a Reward Estimator(5-points) 回帰モデル • simulated では gold referenceとの

    sBLEU で r を計算 • 評価者間で平均をとり 0 ~ 1 に正規化して使用 y: translation ψ: parameters r^: prediction reward r: judgements
  10. Learning a Reward Estimator(pairwise) Brandley-Terry モデル : REが y1 が

    y2 よりも良いと推定する確率 : y1 が y2 よりも良いとされる確率(相対度数) Simulation だと y: translation ψ: parameters
  11. Experiments - Reward Estimator Data: ◦ 1000 raitings にドメイン外のデータ(90k samples)を追加

    ▪ WMTの10k の source を beam size 9 で翻訳、 報酬は sBLEU ▪ マルチタスク学習で overfitting を防ぐ ◦ 各ミニバッチでは確率 p aux で補助データをサンプル、 1 - p aux で元のデータをサンプル( p aux = 0.8 で設定) Model:
  12. Experiments - Reward Estimator TER とのスピアマンの順位相関係数で評価(sQEと同様) MSE では simulated が

    humanよりわ ずかに高い PW では 逆で、sentence-bleuに対する softmax が人手による pairwise 選択の 確率ほど表現力がないから フィルタリングすると MSE では相関が 高くなるが PW では下がる 相関が全体的に低いのは small dataset に over-fitting してるから pairwise より標準化 5-point が信頼性 が高かった。 → 報酬の質が RE の質に影響
  13. Reinforcement Learning from Estimated or Simulated Direct Rewards. MLE で

    pre-train D: paralell corpus x: source y: target 強化学習で fine-tuning する 温度パラメータ τ で分布を平滑化 報酬の期待値 k-samplingで近似
  14. Experiments Data • WMT17, de-en (out-of-domain) train: 5.9M , dev:

    2,299 (WMT16) . test: 3,004 • IWST (TED), de-en (in-domain) train: 153k, dev:6,969, test:6750 Architecture • subword-based encoder-decoder with attention ◦ bidirectional encoder and single layer decoder • subword embedding size: 500 • sample k: 5, softmax temperature: 0.5
  15. Result Simulated - Direct • RL は GLEUを報酬 • OPL

    は sBLEU を報酬 Simulated - Estemated • MSE: +1.2, PW: +0.8 (BLEU) • REが少量の rating を一般化する のに役立っている Human - Direct • simulationと同じくらい Human - Estemated • MSE > PW + 1.1 (BLEU) • Filterしてもあまり変わらない
  16. Conclusion • NMT を human bandit feedback で改善するために NMT に

    おける RL の信頼性、学習性、有効性について 5-point と pairwise の報酬でどう異なるかを調べた • 5-point と pairwise の信頼性は同程度で 5-point の方が RE の学習と RL に適していることがわかった • 小さいデータセットで BLEU が 1向上 • post-edit や gold reference と異なり迅速かつ安価に取得で きるので、大規模なデータでの応用の可能性がある