Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
個人適応による英日翻訳での訳語候補の順位付け
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2006
Research
170
0
Share
個人適応による英日翻訳での訳語候補の順位付け
青木 優、山本 和英. 個人適応による英日翻訳での訳語候補の順位付け. 言語処理学会第12回年次大会, pp.260-263 (2006.3)
自然言語処理研究室
March 31, 2006
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
410
データサイエンス13_解析.pdf
jnlp
0
530
データサイエンス12_分類.pdf
jnlp
0
370
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
160
自然言語処理研究室 研究概要(2012年)
jnlp
0
160
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
230
Other Decks in Research
See All in Research
競合や要望に流されない─B2B SaaSでミニマム要件を決めるリアルな取り組み / Don't be swayed by competitors or requests - A real effort to determine minimum requirements for B2B SaaS
kaminashi
0
1.5k
それ、チームの改善になってますか?ー「チームとは?」から始めた組織の実験ー
hirakawa51
0
1.1k
Unified Audio Source Separation (Defense Slides)
kohei_1979
1
590
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
930
LLM Compute Infrastructure Overview
karakurist
2
1.2k
業界横断 副業コンプライアンス調査 三者(副業者・本業先・発注者)におけるトラブル認知ギャップの構造分析
fkske
0
1.3k
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
210
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
410
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
380
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
230
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
140
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
1
1.1k
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
340
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
160
Scaling GitHub
holman
464
140k
What's in a price? How to price your products and services
michaelherold
247
13k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Speed Design
sergeychernyshev
33
1.6k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.2k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
300
Transcript
個人適応による英日翻訳での 訳語候補の順位付け 長岡技術科学大学 電気系 青木 優 山本 和英
はじめに 背景 個人の興味や知識を学習する個人適応 システムは、ユーザが大量の情報を選 別するタスクに有効である。 問題設定
複数の選択肢が提示されたとき、ユー ザにとって必要な情報の取捨選択。 →英日翻訳における訳語選択
ユーザプロファイル 以下の情報を訳語選択に利用 頻出単語:よく使用する単語 分野情報:ユーザを分類する指標 訳語履歴:選択された訳語
共起単語:使われやすいと思われる単語
処理の流れ 1. ユーザプロファイルの作成 2. 訳語候補スコアの計算 3. ランキングで表示 4. ユーザは尤もらしい候補を選択 5.
ユーザプロファイルの更新
まとめ ユーザプロファイルを作成、利用 訳語候補をランキングで提示 ユーザの個人性を学習させた その結果、学習回数の増加に伴い、 選択された訳語の順位が上位である 割合が高くなくなる傾向が見られた。
辞書の作成 属性付き対訳辞書 クロスランゲージ専門語辞書を使用 共起単語辞書 一文中で共起する2語の共起頻度
毎日新聞2000年版を使用 [circuit:回路:電気・電子]
プロファイルの作成 頻出単語プロファイル Blogなど個人の特徴が現れやすい文書 中の単語頻度 分野情報プロファイル 単語頻度を属性情報に変換したときの
属性値頻度 回路 = 5 接続 = 4 電気・電子 = 8 機械工学 = 4
訳語候補スコア λ(n)各プロファイルスコアの重み 頻出単語 = 3 分野情報 = 2 、 訳語履歴
= 2 共起単語 = 1 ( ) ( ) ( ) ( ) ∑ × + = n i P i F n w n S w S λ , 初期値 各プロファイルから求めた スコアの総和
初期値の計算 コーパス中の単語単位の頻度情報 毎日新聞2000年版を使用 ( ) 訳語候補 全単語の出現頻度の和
の出現頻度 = 初期値 : i i i F w w w S
スコアの計算例 分野情報 プロファイル 基本語 =9 電気電子 =8 数学 =6 機械工学
=4 コンピュータ=3 訳語候補 Circuit / 回路/ 電気・電子 Circuit / 回線/ コンピュー タ Circuit / 巡回/ 基本語 27 . 0 3 4 6 8 9 8 = + + + + 分野情報スコア
プロファイルの更新 Circuit / 回路 / 電気・電子 分野情報プロファイ ル “電気・電子” +1
訳語履歴プロファイ ル “回路” +1(頻度) 共起単語プロファイ ル “設計” +2 “接続” +1 共起単語辞書 (回路,設計)=2 (回路,接続)=1 をユーザが選択
評価実験 ランダムで選んだ英単語100語を入力 ユーザは尤もらしいと思う訳語を選択 システムに学習させる 選ばれた訳語の順位の推移を評価 プロファイルを更新し、システムに学習さ
せることで、ユーザに選ばれる訳語候補 が上位に出力されることを確認する。
実験結果 0.0 0.2 0.4 0.6 0.8 1.0 0 20 40
60 80 100 学習回数(回) 選択順位/候補数
考察 頻出単語 一般的に使用頻度の高い訳語候補が 上位に出現してしまう 表記揺れの対応 訳語候補数が増加してしまう
lack:欠ける、不足、欠如、ない break:こわす、壊す、こわれる、壊れる
課題 ユーザプロファイルの作成 個人の特徴が現れるような文書の 収集方法の検討 初期でのプロファイルの作成 効率的な学習
重み付け方法の検討