Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
snlp2023_rogue_scores
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Sho Takase
August 27, 2023
Technology
440
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
snlp2023_rogue_scores
Sho Takase
August 27, 2023
More Decks by Sho Takase
See All by Sho Takase
snlp2025_prevent_llm_spikes
takase
0
490
snlp2024_multiheadMoE
takase
0
710
snlp2023_beyond_neural_scaling_laws
takase
0
440
[SNLP2022] ABC: Attention with Bounded-memory Control
takase
0
440
SNLP2020_mixtext
takase
0
370
SNLP2020_sandwich
takase
0
370
ニューラル言語モデルの研究動向(NL研招待講演資料)
takase
12
5.3k
Other Decks in Technology
See All in Technology
実装は速くなった、レビューはどうする? ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI
nrslib
7
4.2k
protovalidate-es を導入してみた
bengo4com
0
160
価格.comをAI駆動で全面刷新する ー 30年分の技術的負債を返し、次の30年の土台をつくる ー / AI Engineering Summit Tokyo 2026
tkyowa
50
56k
新しいVibe Codingと”自走”について
watany
5
120
非エンジニアがClaudeと挑んだ「1ヶ月間プロダクト30本ノック」
askokc
0
130
Microsoft Build Keynoteふりかえり
tomokusaba
0
110
AI フレンドリーなエラー監視を TypeScript で実現する
shinyaigeek
2
270
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
150
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
2
310
「嘘をつくテスト」の失敗例から学ぶ 良いテストコード #frontend_phpcon_do
asumikam
0
570
PHP と TypeScript の型システム比較:AI 時代の「型」は誰のためにあるのか? #frontend_phpcon_do / frontend_phpcon_do_2026
shogogg
1
260
新規事業を牽引する技術選定 〜フルスタックTypeScript開発の実践事例〜
nullnull
3
370
Featured
See All Featured
How to train your dragon (web standard)
notwaldorf
97
6.7k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
2k
Odyssey Design
rkendrick25
PRO
2
690
Accessibility Awareness
sabderemane
1
130
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
320
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
Building AI with AI
inesmontani
PRO
1
1.1k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.5k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
380
Being A Developer After 40
akosma
91
590k
Speed Design
sergeychernyshev
33
1.8k
Transcript
Rogue Scores Max Grusky ACL 2023 読む⼈︓⾼瀬翔(LINE) 2023/8/28 1
本論⽂のまとめ • ROUGEスコアが正しく計測されてない報告 – ROUGEスコア︓参照⽂との⼀致率 – 要約の評価のために考案された – 近年は質問応答やキャプション⽣成の評価でも使⽤される •
20年間でROUGEを使⽤した論⽂2834本を調査 – 20年間︓ROUGEスコアが提案されてから現在まで [Lin, 04] – 再現可能な報告をしている論⽂は 20% • ただし,実装に⾔及している論⽂の 76% が誤ったスコアを出⼒する実装を使⽤ • ⾼瀬の意⾒︓評価とは何をすべきかを考えて欲しい – 「ROUGEは」にとどまらない問題 2
ROUGEスコア計測に関わる変数 3 REFERENCE MODEL INPUT LANGUAGE MODEL HYPOTHESIS ROUGE-1.5.5 AJ/pyrouge
BZ/pyrouge CW/sumeval DI/pyrouge GL/seq2seq HF/metrics KG/rouge2 MS/rouge PT/pyrouge PT/rouge Other: Custom Code Package Tokenization None NLTK Other: Sentence Splits None NLTK By Periods Other: Preprocessing Stemming Stopwords Truncation Words: 100 Bytes: Configuration Variant R-1 R-2 R-L R-W R-S R-SU4 Subscores Prec. Recall F1 Score F , = 1.2 Bootstrapping No Yes Conf. Interval 99% 95% Other: 0 % Reporting 43.57 ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? How was this ROUGE score computed? Is it correct and comparable with prior work? These decisions affect ROUGE scores. Are they reported in machine learning papers? Figure 2: ROUGE measures similarity between human-written (reference) and model-generated (hypothesis) texts. The 実装 ⼊⼒の加⼯法 報告する値
設定次第でスコアが⼤幅に変わる 4 producible? onfiguration How much ation? Here onstrate the
y issues. Microsoft is tandard bal- Using a rogue ROUGE configuration, anyone can achieve state-of-the-art scores! CNN / Daily Mail Summarization Models ROUGE Scores R1 R2 RL Lead-3 (Baseline) 40.34 17.55 36.58 T5 (Raffel et al., 2020) 43.52 21.55 40.69 BART (Lewis et al., 2020) 44.16 21.28 40.90 PEGASUS (Zhang et al., 2020) 44.17 21.47 41.11 SIMCLS (Liu and Liu, 2021) 46.67 22.15 43.54 BRIO (Liu et al., 2022) 47.78 23.55 44.57 Rogue-3 (Ours) 73.89 55.80 73.89 Table 3: Surprise! Our spectacular Rogue-3 “model” is ⼊⼒は同じでも 設定次第で ここまで上がる
設定次第でスコアが⼤幅に変わる 5 producible? onfiguration How much ation? Here onstrate the
y issues. Microsoft is tandard bal- Using a rogue ROUGE configuration, anyone can achieve state-of-the-art scores! CNN / Daily Mail Summarization Models ROUGE Scores R1 R2 RL Lead-3 (Baseline) 40.34 17.55 36.58 T5 (Raffel et al., 2020) 43.52 21.55 40.69 BART (Lewis et al., 2020) 44.16 21.28 40.90 PEGASUS (Zhang et al., 2020) 44.17 21.47 41.11 SIMCLS (Liu and Liu, 2021) 46.67 22.15 43.54 BRIO (Liu et al., 2022) 47.78 23.55 44.57 Rogue-3 (Ours) 73.89 55.80 73.89 Table 3: Surprise! Our spectacular Rogue-3 “model” is ⼊⼒は同じでも 設定次第で ここまで上がる 著者⽈く この辺りは 正しくない 実装で計測 → 何が起こる︖
実装が違うと値が異なる 6 ing a ion 2 76% ts the 000+
ngly, ainst ation urred used; . ndard n our s. On with ately. dated ation cores e av- Thousands of machine learning models are evaluated by ROUGE packages with errors. Common ROUGE Packages Percentage of Incorrect Scores STEMMING + STEMMING R1 R2 RL R1 R2 RL Standard Implementation ROUGE-1.5.5 0 0 0 0 0 0 Nonstandard — Wrappers AJ/pyrouge 100 100 100 100 100 100 BZ/pyrouge 46 28 56 0 0 0 DD/sacrerouge 0 0 0 0 0 0 LP/rougemetric 0 0 0 13 6 18 PT/files2rouge 0 0 83 13 6 86 PT/pyrouge 0 0 0 0 0 0 TG/pythonrouge 100 100 84 100 100 86 Nonstandard — Reimplementations CW/sumeval 98 97 100 98 97 100 +stopwords 0 0 97 73 61 99 DD/sacrerouge 0 0 97 0 0 98 DI/pyrouge 4 4 4 4 4 4 GL/rougescore 0 0 97 14 6 98 +rougeLSum — — 0 — — 19 GL/seq2seq 98 97 100 — — — KG/rouge2 98 97 100 98 97 100 +stopwords 93 97 100 94 97 100 LP/rougemetric 97 95 99 — — — MS/rouge — — 100 — — — ND/easyrouge 98 97 100 — — — PT/rouge 98 96 100 — — — KEY Correct Incorrect Individual and Overall Scores Correct Individual Scores, Incorrect Overall Scores ROUGEのオリジナル実装と⽐較して スコアの差が出るパーセンテージ (ROUGEは事例ごとに算出可能 何パーセントの事例でスコアがずれたかを提⽰) ほぼすべての実装がオリジナルと異なる値を出⼒ → 値を相互に⽐較して モデルの是⾮を議論することは不可能
どうすれば良いのか︖ • 素朴な考え︓正しく測定できるようにする – オリジナル実装を⽤いる + パラメータもすべて表記 • ⾼瀬の意⾒︓値の再現の担保を諦め,相対的な差の議論に限定する –
本論⽂と同じような主張・調査は BLEU でもされている • SacreBLEU [Post 18], [Marie+ 21] の調査 • 改善しているか︖ → 体感としては No,査読時の要求は増えたが改善はなし – 「正しい測定の仕⽅」が難しすぎる • 正しい実装 + 正しい⼊出⼒ + 正しいパラメータで評価は新規参⼊者には不可能 • できること – 既存論⽂からスコアのコピペを⽌める – ⾃分の環境で各モデルのスコアを算出する • ⾃分の環境の上で相対的な良し悪しを議論することは可能 7
本論⽂のまとめ(再掲) • ROUGEスコアが正しく計測されてない報告 – ROUGEスコア︓参照⽂との⼀致率 – 要約の評価のために考案された – 近年は質問応答やキャプション⽣成の評価でも使⽤される •
20年間でROUGEを使⽤した論⽂2834本を調査 – 20年間︓ROUGEスコアが提案されてから現在まで [Lin, 04] – 再現可能な報告をしている論⽂は 20% • ただし,実装に⾔及している論⽂の 76% が誤ったスコアを出⼒する実装を使⽤ • ⾼瀬の意⾒︓評価とは何をすべきかを考えて欲しい – 「ROUGEは」にとどまらない問題 8