Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: Integrating Meaning into Quality Evaluati...
Search
Yumeto Inaoka
August 30, 2017
Technology
0
89
文献紹介: Integrating Meaning into Quality Evaluation of Machine Translation
2017/08/30の文献紹介で発表
Yumeto Inaoka
August 30, 2017
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
140
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
180
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
130
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
130
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
110
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
230
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
290
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
190
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
190
Other Decks in Technology
See All in Technology
Fabric 移行時の躓きポイントと対応策
ohata_ds
1
130
型情報を用いたLintでコード品質を向上させる
sansantech
PRO
2
230
Accessibility Inspectorを活用した アプリのアクセシビリティ向上方法
hinakko
0
110
#TRG24 / David Cuartielles / Post Open Source
tarugoconf
0
420
最近のSfM手法まとめ - COLMAP / GLOMAPを中心に -
kwchrk
8
1.8k
組織に自動テストを書く文化を根付かせる戦略(2024冬版) / Building Automated Test Culture 2024 Winter Edition
twada
PRO
26
7.1k
大規模言語モデル・対話型生成AIによるテスト支援の広さと深さ / Exploring Use of LLM/AI for Testing 2024
ishikawafyu
0
100
生成AIによるテスト設計支援プロセスの構築とプロセス内のボトルネック解消の取り組み / 20241220 Suguru Ishii
shift_evolve
0
180
C++26 エラー性動作
faithandbrave
2
880
Fearsome File Formats
ange
0
550
.NET AspireでAzure Functionsやクラウドリソースを統合する
tsubakimoto_s
0
140
能動的ドメイン名ライフサイクル管理のすゝめ / Practice on Active Domain Name Lifecycle Management
nttcom
0
310
Featured
See All Featured
Automating Front-end Workflow
addyosmani
1366
200k
Product Roadmaps are Hard
iamctodd
PRO
50
11k
Bash Introduction
62gerente
609
210k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
1.2k
GraphQLとの向き合い方2022年版
quramy
44
13k
KATA
mclloyd
29
14k
How to train your dragon (web standard)
notwaldorf
88
5.8k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.2k
Mobile First: as difficult as doing things right
swwweet
222
9k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.9k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Transcript
Integrating Meaning into Quality Evaluation of Machine Translation Proceedings of
EACL 2017, Vol. 1, Long Papers, pages 210-219. 1 文献紹介(2017/08/30) 自然言語処理研究室 稲岡 夢人
概要 • 機械翻訳(MT)の品質はMTの出力と人間の 翻訳を比較して評価している • 上のような評価は形式に関連した特徴 (語彙や文法)に依存し意味の伝達は無視 • 意味に関連する特徴と他の評価指標を組み合 わせて人手評価を予測
2
既存手法の問題点 • MTはよく意味を保持しない翻訳を行う • BLEU, METEORはMTによる意味の変化を 直接考慮して評価していない 3
自動評価と人手評価の差 人手評価で最低の評価となった4文 1. badlyが消えて意味が失われている 2. 否定文が肯定文になっている 3. 不確かな情報を生成している 4. 形式が異なっている
4
自動評価と人手評価の差 • MTの評価では主に語彙や文法に焦点を当て ている • 下のような出力に高いスコアを与えやすい 5
本研究で行っていること • 意味に関連する特徴が人手評価に影響を与 えるのかを調べる • MTの評価における形式や意味に関連する特 徴を比較 • 形式と意味に関連する特徴を組み合わせるこ とで既存の評価手法を改善できるか測定
6
意味に関連した特徴 • Sentiment Polarity : 肯定, 否定的な感情 を持つか • Subjectivity
: 意見を表現するか • Connotation : 文化, 感情的な連想 • Negation : 肯定的記述を否定的に変化 • Speculation : 確実性のレベルを表現 • Readability : 文長, 音節数による可読性 • Formality : 文が形式的であるか 7
個々の特徴が品質に与える影響 • それぞれの特徴と人手評価の相関を調べる • データセットはWMT15の目的言語が英語で あるものを使用 8
個々の特徴が品質に与える影響 9
個々の特徴が品質に与える影響 • ベースラインより意味関連の特徴が上回る • Formality-RBが最も相関の強い特徴 • BLEU, METEOR, DPMFCombがそれより 強い相関を示す
10
複合の特徴が品質に与える影響 • 意味に関する特徴を全て用いて利用 • 意味に関する特徴全てとBLEU, METEOR, DPMFCombを組み合わせて利用 • 上のアンサンブルシステムの構築には RandomForestと呼ばれる手法を用いる
11
複合の特徴が品質に与える影響 12
複合の特徴が品質に与える影響 • 意味に関連する特徴を複合したものは BLEUより優れている • それをBLEU, METEOR, DPMFcombと 組み合わせるとさらに性能が向上 •
従来の評価手法がこれらの特徴を 補足できていないことを意味している 13
結論 • 人手評価によって高評価なMTシステムは 意味に関連した特徴を保持する • 意味に関連した特徴を用いた評価は 人手評価と高い相関を示す • 既存の評価手法と組み合わせることで より正確に人手評価を予測できる
14