Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的機械翻訳は意訳しにくいのか?
Search
自然言語処理研究室
March 31, 2009
Research
0
100
統計的機械翻訳は意訳しにくいのか?
竹元 勇太, 山本 和英. 統計的機械翻訳は意訳しにくいのか?. 言語処理学会第15回年次大会, pp.228-231 (2009.3)
自然言語処理研究室
March 31, 2009
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
520
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
When Learned Data Structures Meet Computer Vision
matsui_528
1
3.8k
Dwangoでの漫画データ活用〜漫画理解と動画作成〜@コミック工学シンポジウム2025
kzmssk
0
150
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
230
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
150
Multi-Agent Large Language Models for Code Intelligence: Opportunities, Challenges, and Research Directions
fatemeh_fard
0
140
視覚から身体性を持つAIへ: 巧緻な動作の3次元理解
tkhkaeio
1
210
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
530
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
190
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
380
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
1.9k
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
20
9.8k
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
290
Featured
See All Featured
Information Architects: The Missing Link in Design Systems
soysaucechin
0
810
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
620
Bash Introduction
62gerente
615
210k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
850
A Tale of Four Properties
chriscoyier
163
24k
Evolving SEO for Evolving Search Engines
ryanjones
0
150
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
Docker and Python
trallard
47
3.8k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
140
Designing for Performance
lara
611
70k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
260
Transcript
統計的機械翻訳 は意訳しにくい 長岡技術科学大学 山本研究室 竹元勇太 山本和英
概要 ▪統計的機械翻訳は意訳しにくい のか確認を行った TCRによる意訳性の判定 ▪翻訳精度の差を確認 意訳 < 直訳 統計的機械翻訳は意訳しにくい ことを確認
関連研究 ▪直訳性を利用した機械翻訳知識の自 動構築[今村 04] 日英対訳コーパス TCR 英語 日本語 1.00 --a--
--A-- 0.96 --b-- --B-- 0.85 --c-- --C-- 0.82 --d-- --D-- . . 0.65 --g-- --G-- 0.43 --g-- --G-- 0.10 --h-- --H-- 直訳的対訳文を用いた 翻訳モデル 意訳的対訳文を用いた 翻訳モデル
推定対訳辞書を TCR 英語 日本語 1.00 --a-- --A-- 0.46 --b-- --B--
0.17 --c-- --C-- . . 英語 日本語 --a-- --A-- --b-- --B-- --c-- --C-- . . 日英対訳コーパス 推定対訳辞書を 用いてTCR値を付与 1.00 --a-- --A-- 0.86 --d-- --D-- 0.79 --e-- --E-- . 0.86 --d-- --D-- 0.46 --b-- --B-- 0.13 --f-- --F-- . 0.17 --c-- --C-- 0.10 --g-- --G-- 0.09 --h-- --H-- . 直訳的対訳文(30,000対訳) ランダム(30,000対訳) 意訳的対訳文(30,000対訳)
用いた実験方法 1.00 --a-- --A-- . 0.86 --d-- --D-- . 0.46
--b-- --B-- . 0.13 --f-- --F-- . 0.10 --g-- --G-- . 0.09 --h-- --H-- . 直訳的対訳文の学習データ(28,500) 直訳的対訳文のテストセット(1,000) ランダムに選んだ学習データ (28,500) ランダムに選んだテストセット (1,000) 意訳的対訳文の学習データ(28,500) 意訳的対訳文のテストセット(1,000)
推定対訳辞書を用いた実験結果 ▪意訳のテストセットは直訳やランダムの テストセットに比べて翻訳精度が1/2程度 ➔ 意訳しにくいということを表している 翻訳 モデル テストセット 直訳 意訳
ランダム 直訳 0.297 0.087 0.257 意訳 0.201 0.125 0.226 ランダム 0.270 0.099 0.229 平均 0.256 0.104 0.237 Table1 翻訳モデルの違いによる各テストセットの評価結果(BLEU)
英辞郎対訳辞書を ▪推定対訳辞書を用いた実験結果は GIZA++の特徴が表れていた? 英辞郎対訳辞書を用いて再実験 ▪評価用データの作成 26,095対訳をテストセットに使用 TCR値でソートし、2,610対訳ごとに分割
各2,610対訳からテストセット1,000対訳 を抽出
▪翻訳モデルの構築 テストセットを除いた359,431対訳を使用 して翻訳モデルを構築 ▪言語モデルの構築 対訳コーパスの目的言語を使用 テストセットは除いている
5-gramまで 用いた実験方法
0. 00 0. 05 0. 10 0. 15 0. 20
0. 25 0. 30 0. 35 0. 0 0. 2 0. 4 0. 6 0. 8 TC R BLEU ▪英辞郎対訳辞書を使用した場合でも、TCR 値の低い対訳文はBLEU値が低い ➔ GIZA++の精度や特徴は関係ない Fig.1 TCR値を変化させた時の翻訳精度(BLEU) 英辞郎対訳辞書を用いた実験結果
コーパスサイズを変化させて実験 ▪翻訳モデル構築方法の違いによる影響 を3種類の翻訳モデルによって確認 全体モデル ➔ 全対訳文(360,000対訳)から構築 直訳モデル ➔
TCR値の高い方から30,000対訳ずつ増やして 構築(11個のモデルを構築) 意訳モデル ➔ TCR値の低い方から30,000対訳ずつ増やして 構築(11個のモデルを構築)
意訳的対訳文を用いて評価 Fig.2 意訳的対訳文のテストセットで評価した翻訳精度の変化 ▪意訳モデルは全体モデルを越える翻訳精度 を出すことはできていない
Fig.3 直訳的対訳文のテストセットで評価した翻訳精度の変化 ▪直訳モデルは全体モデルより翻訳精度が高い ➔ 全体モデルより直訳しやすくなっている 直訳的対訳文を用いて評価
実験ツール&言語資源 ▪実験ツール Moses : デコーダ GIZA++ : アライメント推定ツール
IRSTLM : 言語モデル構築ツール Chasen : 日本語形態素解析器 TreeTagger : 英語形態素解析器 ▪言語資源 日英対訳コーパス :374,085対訳 日英推定対訳辞書 :748,258対訳 日英英辞郎対訳辞書 :153,067対訳
TCRの計算方法 TCR = 2 ×対訳辞書中に対訳としてある数 [L ] 対訳辞書中にある原文の単語数 [Ts ]+
対訳辞書中にある翻訳結果の単語数 [Tt ] 丸囲み単語の個数がTs及びTt、直線の数がLに値する
英辞郎対訳辞書を用いた実験 ▪評価用データの作成方法 辞書Bは辞書Aに比べ対訳数が1/5と少ない TCR値の信頼度を上げるために、以下の式 を満たす対訳文だけをテストセットとする 対訳辞書中にある原文の単語数 [Ts ]+
対訳辞書中にある翻訳結果の単語数 [Tt ] 原言語の単語数 [Ws ]+目的言語の単語数 [Wt ] ≥0.9