Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reliability and Learnability of Human Bandit F...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ryoma yoshimura
June 20, 2019
Research
82
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning
研究室の論文読み会の発表資料です。
ryoma yoshimura
June 20, 2019
More Decks by ryoma yoshimura
See All by ryoma yoshimura
TransQuest: Translation Quality Estimation with Cross-lingual Transformers
kokeman
0
280
Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing
kokeman
0
64
BLEURT: Learning Robust Metrics for Text Generation
kokeman
0
270
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
kokeman
1
860
Courteously Yours: Inducing courteous behavior in Customer Care responses using Reinforced Pointer Generator Network
kokeman
0
170
Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
kokeman
0
180
Reinforcement Learning Based Text Style Transfer without Parallel Training Corpus
kokeman
0
130
タスクとデータセット紹介 GLUE, SuperGLUE
kokeman
0
1.1k
Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation
kokeman
0
250
Other Decks in Research
See All in Research
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
200
LINEヤフー データサイエンス Meetup「三井物産コモディティ予測チャレンジ」の舞台裏-AlpacaTechパート
gamella
1
570
Apache Gravitinoで実現する Icebergカタログ統合とアクセスの一元化
matsumooon
0
280
NLP colloquium: AI Safety Survey
kanekomasahiro
0
690
Φ-Sat-2のAutoEncoderによる情報圧縮系論文
satai
4
780
Can We Teach Logical Reasoning to LLMs? – An Approach Using Synthetic Corpora (AAAI 2026 bridge keynote)
morishtr
1
250
CVPR2026論文紹介_VLMにとって良いvision encoderとは何か?Rethinking Model Selection in VLM Through the Lens of Gromov-Wasserstein Distance
kobayashi31
1
110
Data Visualization Tools in the Age of AI
flekschas
0
160
定数整数除算・剰余算最適化再考
herumi
1
130
The mathematics of transformers
gpeyre
0
320
SOTAのさらに先へ:厳しい推論制約下での高性能モデルのPost-Training
analokmaus
0
1.3k
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
640
Featured
See All Featured
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
380
Code Review Best Practice
trishagee
74
20k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
430
sira's awesome portfolio website redesign presentation
elsirapls
0
280
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
160
Designing for Timeless Needs
cassininazir
1
250
Utilizing Notion as your number one productivity tool
mfonobong
4
320
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
210
Transcript
Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement
Learning Julia Kreutzer and Joshua Uyheng and Stefan Riezler (NAACL 2018) 紹介者: 吉村
Abstract • Human bandit Feedback を報酬とした強化学習 (RL) で NMTを改善 •
Human bandit Feedback の質が Reward Estimator (RE) に与える影響 とその推定報酬の質が RL に与える影響を調べた • 5-point と ペアワイズ選択の評価がついたデータを作成して分析 ◦ 両タスクの評価者間、評価者内の一致度は同程度 ◦ 標準化された 5-point が最も高い信頼性が高い • 5-point 評価付きの800文で回帰学習した RE で BLEU が1.0上がった • 少量の信頼できる弱い人間のフィードバックがあればよく、大規模スケール で応用の可能性があることを示した。
Introduction • BLEUやROUGEなどを報酬として使う seq2seq の強化学習は 翻訳 (Bahdanau et al., 2017)
や要約(Paulus et al., 2017). などで行われてい る • 先行研究 (Kreutzer et al., 2018) ◦ 商品タイトルの En-Fr 翻訳をユーザーの5つ星評価を報酬として強化 学習で行なったが報酬の品質が悪く失敗、クリックログを利用すると良 くなった。 • 高品質な Human Feedback を手に入れる方法とその信頼性が RL にどう 影響するかを調べる ◦ 5-point と pairwaise で評価者間と評価者内の一致率を測定 ◦ 人間の報酬の学習可能性にも取り組む ◦ MT を 推定報酬を使った RL でどれほど改善できるかを調査
Human MT Rating Task • Data ◦ TED corpus の一部を使用
◦ WMT で学習した NMT (out-of-domain)と TED で学習したNMT(in-domain)でそれぞれ翻訳 ◦ 結果が同じものはフィルタリング ◦ reference の長さが 20 ~ 40 のものを選択 ◦ reference と chrF の差が大きくて文長の差が最小になる ようにソートして上位 400 pair を使用 → 同じ長さで質が異なるペアがとれる
Human MT Rating Task Rating Data and Annotator • 400
ペア (800の翻訳文) • 400ぺアのうち100ペアを複製して500ペア取得 • シャッフルして5分割 ◦ 各セクションに文の重複ないように ◦ 各セクションのうち20ペアが複製したペア • 評価者 ◦ ドイツ語と英語のネイティブ or 流暢な大学生 ◦ 5-points 16人, pairwise 14人 データはここでDLできる
Human MT Rating Task Interface
Reliability of Human MT Ratings Inter-rater(評価者間)と Intra-rater (評価者内)でのクリッペンド ルフのα係数を測定 Inter-rater
• 量タスクで評価者間の一致率はほぼ同 じ • 5-point は参加者で標準化すると著しく 改善 intra-rater • 評価者は 5-point, pairwise 内で一貫し た評価を行なっている • t-testで 5-point, pairwise間の統計的有 意差がなかった → 一貫性においてどち らが優れているか決めるのは難しい
Rater and Item Variance 質の悪い評価者と翻訳を排除するアブレーション分析を行う 評価者内の α を評価者の質としてフィルタリング 5-point の評価者間の信頼性の上がり
幅が pairwise よりも高い 5-point には信頼性が低いひとが多い pairwise の評価者間の高い信頼性を 得るにはより高い閾値が必要pairwise には評価者内の信頼性が高人が多い 5-point: intra 0.49, inter 0.505, 8人 pairwise: intra 0.66, intra 0.3912, 5人
Rater and Item Variance 分散が大きい翻訳をフィルタリング 0~1 で正規化した値を1から引いて閾 値とする pairwise が
5-point をすぐに追い越す 多くの翻訳が評価者間で不一致である ことに起因する pairwise の全体的な評価者間の信頼 性が低い 70% が保持されるように(結果は table1 )
Qualitative Analysis 評価作業後に、1(非常に困難)から10(非常に簡単)までの尺度 で、主観的な難しさを参加者につけてもらう 5-point (平均4.8)、pairwise(平均5.69) 参加者に聞いた各タスクの難しいところ • 5-point さまざまなエラータイプの比較
非常に少ないが本質的なエラーのある長い文の評価 • pairwise 類似した、または類似した不適切な翻訳を区別 どちらも文法的に理解できない文で困難を示した
Learning a Reward Estimator(5-points) 回帰モデル • simulated では gold referenceとの
sBLEU で r を計算 • 評価者間で平均をとり 0 ~ 1 に正規化して使用 y: translation ψ: parameters r^: prediction reward r: judgements
Learning a Reward Estimator(pairwise) Brandley-Terry モデル : REが y1 が
y2 よりも良いと推定する確率 : y1 が y2 よりも良いとされる確率(相対度数) Simulation だと y: translation ψ: parameters
Experiments - Reward Estimator Data: ◦ 1000 raitings にドメイン外のデータ(90k samples)を追加
▪ WMTの10k の source を beam size 9 で翻訳、 報酬は sBLEU ▪ マルチタスク学習で overfitting を防ぐ ◦ 各ミニバッチでは確率 p aux で補助データをサンプル、 1 - p aux で元のデータをサンプル( p aux = 0.8 で設定) Model:
Experiments - Reward Estimator TER とのスピアマンの順位相関係数で評価(sQEと同様) MSE では simulated が
humanよりわ ずかに高い PW では 逆で、sentence-bleuに対する softmax が人手による pairwise 選択の 確率ほど表現力がないから フィルタリングすると MSE では相関が 高くなるが PW では下がる 相関が全体的に低いのは small dataset に over-fitting してるから pairwise より標準化 5-point が信頼性 が高かった。 → 報酬の質が RE の質に影響
Reinforcement Learning from Estimated or Simulated Direct Rewards. MLE で
pre-train D: paralell corpus x: source y: target 強化学習で fine-tuning する 温度パラメータ τ で分布を平滑化 報酬の期待値 k-samplingで近似
Off-Policy Learning from Direct Rewards. RE の予測報酬を使わず報酬付きデータで強化学習 • 目的関数 ログにある
翻訳 y が出る確率をそのまま用いる ログ: reweighting over the mini-bach B
Experiments Data • WMT17, de-en (out-of-domain) train: 5.9M , dev:
2,299 (WMT16) . test: 3,004 • IWST (TED), de-en (in-domain) train: 153k, dev:6,969, test:6750 Architecture • subword-based encoder-decoder with attention ◦ bidirectional encoder and single layer decoder • subword embedding size: 500 • sample k: 5, softmax temperature: 0.5
Result • WMTのみの学習での結果がベースライン • 教師ありで fine tuning したものが uper bound
• BLEU が 7 point 上がる
Result Simulated - Direct • RL は GLEUを報酬 • OPL
は sBLEU を報酬 Simulated - Estemated • MSE: +1.2, PW: +0.8 (BLEU) • REが少量の rating を一般化する のに役立っている Human - Direct • simulationと同じくらい Human - Estemated • MSE > PW + 1.1 (BLEU) • Filterしてもあまり変わらない
Conclusion • NMT を human bandit feedback で改善するために NMT に
おける RL の信頼性、学習性、有効性について 5-point と pairwise の報酬でどう異なるかを調べた • 5-point と pairwise の信頼性は同程度で 5-point の方が RE の学習と RL に適していることがわかった • 小さいデータセットで BLEU が 1向上 • post-edit や gold reference と異なり迅速かつ安価に取得で きるので、大規模なデータでの応用の可能性がある