Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的機械翻訳は意訳しにくいのか?
Search
自然言語処理研究室
March 31, 2009
Research
0
95
統計的機械翻訳は意訳しにくいのか?
竹元 勇太, 山本 和英. 統計的機械翻訳は意訳しにくいのか?. 言語処理学会第15回年次大会, pp.228-231 (2009.3)
自然言語処理研究室
March 31, 2009
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
「エージェントって何?」から「実際の開発現場で役立つ考え方やベストプラクティス」まで
mickey_kubo
0
130
集合間Bregmanダイバージェンスと置換不変NNによるその学習
wasyro
0
110
NLP Colloquium
junokim
1
170
実行環境に中立なWebAssemblyライブマイグレーション機構/techtalk-2025spring
chikuwait
0
240
SSII2025 [SS2] 横浜DeNAベイスターズの躍進を支えたAIプロダクト
ssii
PRO
7
3.7k
ASSADS:ASMR動画に合わせて撫でられる感覚を提示するシステムの開発と評価 / ec75-shimizu
yumulab
1
420
Vision And Languageモデルにおける異なるドメインでの継続事前学習が性能に与える影響の検証 / YANS2024
sansan_randd
1
110
90 分で学ぶ P 対 NP 問題
e869120
18
7.6k
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
satai
3
250
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
6
3.6k
利用シーンを意識した推薦システム〜SpotifyとAmazonの事例から〜
kuri8ive
1
220
数理最適化に基づく制御
mickey_kubo
5
680
Featured
See All Featured
How STYLIGHT went responsive
nonsquared
100
5.6k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Writing Fast Ruby
sferik
628
62k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.5k
Done Done
chrislema
184
16k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
340
Visualization
eitanlees
146
16k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.6k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Transcript
統計的機械翻訳 は意訳しにくい 長岡技術科学大学 山本研究室 竹元勇太 山本和英
概要 ▪統計的機械翻訳は意訳しにくい のか確認を行った TCRによる意訳性の判定 ▪翻訳精度の差を確認 意訳 < 直訳 統計的機械翻訳は意訳しにくい ことを確認
関連研究 ▪直訳性を利用した機械翻訳知識の自 動構築[今村 04] 日英対訳コーパス TCR 英語 日本語 1.00 --a--
--A-- 0.96 --b-- --B-- 0.85 --c-- --C-- 0.82 --d-- --D-- . . 0.65 --g-- --G-- 0.43 --g-- --G-- 0.10 --h-- --H-- 直訳的対訳文を用いた 翻訳モデル 意訳的対訳文を用いた 翻訳モデル
推定対訳辞書を TCR 英語 日本語 1.00 --a-- --A-- 0.46 --b-- --B--
0.17 --c-- --C-- . . 英語 日本語 --a-- --A-- --b-- --B-- --c-- --C-- . . 日英対訳コーパス 推定対訳辞書を 用いてTCR値を付与 1.00 --a-- --A-- 0.86 --d-- --D-- 0.79 --e-- --E-- . 0.86 --d-- --D-- 0.46 --b-- --B-- 0.13 --f-- --F-- . 0.17 --c-- --C-- 0.10 --g-- --G-- 0.09 --h-- --H-- . 直訳的対訳文(30,000対訳) ランダム(30,000対訳) 意訳的対訳文(30,000対訳)
用いた実験方法 1.00 --a-- --A-- . 0.86 --d-- --D-- . 0.46
--b-- --B-- . 0.13 --f-- --F-- . 0.10 --g-- --G-- . 0.09 --h-- --H-- . 直訳的対訳文の学習データ(28,500) 直訳的対訳文のテストセット(1,000) ランダムに選んだ学習データ (28,500) ランダムに選んだテストセット (1,000) 意訳的対訳文の学習データ(28,500) 意訳的対訳文のテストセット(1,000)
推定対訳辞書を用いた実験結果 ▪意訳のテストセットは直訳やランダムの テストセットに比べて翻訳精度が1/2程度 ➔ 意訳しにくいということを表している 翻訳 モデル テストセット 直訳 意訳
ランダム 直訳 0.297 0.087 0.257 意訳 0.201 0.125 0.226 ランダム 0.270 0.099 0.229 平均 0.256 0.104 0.237 Table1 翻訳モデルの違いによる各テストセットの評価結果(BLEU)
英辞郎対訳辞書を ▪推定対訳辞書を用いた実験結果は GIZA++の特徴が表れていた? 英辞郎対訳辞書を用いて再実験 ▪評価用データの作成 26,095対訳をテストセットに使用 TCR値でソートし、2,610対訳ごとに分割
各2,610対訳からテストセット1,000対訳 を抽出
▪翻訳モデルの構築 テストセットを除いた359,431対訳を使用 して翻訳モデルを構築 ▪言語モデルの構築 対訳コーパスの目的言語を使用 テストセットは除いている
5-gramまで 用いた実験方法
0. 00 0. 05 0. 10 0. 15 0. 20
0. 25 0. 30 0. 35 0. 0 0. 2 0. 4 0. 6 0. 8 TC R BLEU ▪英辞郎対訳辞書を使用した場合でも、TCR 値の低い対訳文はBLEU値が低い ➔ GIZA++の精度や特徴は関係ない Fig.1 TCR値を変化させた時の翻訳精度(BLEU) 英辞郎対訳辞書を用いた実験結果
コーパスサイズを変化させて実験 ▪翻訳モデル構築方法の違いによる影響 を3種類の翻訳モデルによって確認 全体モデル ➔ 全対訳文(360,000対訳)から構築 直訳モデル ➔
TCR値の高い方から30,000対訳ずつ増やして 構築(11個のモデルを構築) 意訳モデル ➔ TCR値の低い方から30,000対訳ずつ増やして 構築(11個のモデルを構築)
意訳的対訳文を用いて評価 Fig.2 意訳的対訳文のテストセットで評価した翻訳精度の変化 ▪意訳モデルは全体モデルを越える翻訳精度 を出すことはできていない
Fig.3 直訳的対訳文のテストセットで評価した翻訳精度の変化 ▪直訳モデルは全体モデルより翻訳精度が高い ➔ 全体モデルより直訳しやすくなっている 直訳的対訳文を用いて評価
実験ツール&言語資源 ▪実験ツール Moses : デコーダ GIZA++ : アライメント推定ツール
IRSTLM : 言語モデル構築ツール Chasen : 日本語形態素解析器 TreeTagger : 英語形態素解析器 ▪言語資源 日英対訳コーパス :374,085対訳 日英推定対訳辞書 :748,258対訳 日英英辞郎対訳辞書 :153,067対訳
TCRの計算方法 TCR = 2 ×対訳辞書中に対訳としてある数 [L ] 対訳辞書中にある原文の単語数 [Ts ]+
対訳辞書中にある翻訳結果の単語数 [Tt ] 丸囲み単語の個数がTs及びTt、直線の数がLに値する
英辞郎対訳辞書を用いた実験 ▪評価用データの作成方法 辞書Bは辞書Aに比べ対訳数が1/5と少ない TCR値の信頼度を上げるために、以下の式 を満たす対訳文だけをテストセットとする 対訳辞書中にある原文の単語数 [Ts ]+
対訳辞書中にある翻訳結果の単語数 [Tt ] 原言語の単語数 [Ws ]+目的言語の単語数 [Wt ] ≥0.9