個人適応による英日翻訳での訳語候補の順位付け

個人適応による英日翻訳での訳語候補の順位付け長岡技術科学大学　電気系青木優　山本和英

はじめに  背景  個人の興味や知識を学習する個人適応システムは、ユーザが大量の情報を選別するタスクに有効である。  問題設定 
複数の選択肢が提示されたとき、ユーザにとって必要な情報の取捨選択。 →英日翻訳における訳語選択

ユーザプロファイル  以下の情報を訳語選択に利用  頻出単語：よく使用する単語  分野情報：ユーザを分類する指標  訳語履歴：選択された訳語 
共起単語：使われやすいと思われる単語

処理の流れ 1. ユーザプロファイルの作成 2. 訳語候補スコアの計算 3. ランキングで表示 4. ユーザは尤もらしい候補を選択 5.
ユーザプロファイルの更新

まとめ  ユーザプロファイルを作成、利用  訳語候補をランキングで提示  ユーザの個人性を学習させたその結果、学習回数の増加に伴い、選択された訳語の順位が上位である割合が高くなくなる傾向が見られた。

辞書の作成  属性付き対訳辞書  クロスランゲージ専門語辞書を使用  共起単語辞書  一文中で共起する２語の共起頻度 
毎日新聞2000年版を使用 [circuit:回路:電気・電子]

プロファイルの作成  頻出単語プロファイル  Blogなど個人の特徴が現れやすい文書中の単語頻度  分野情報プロファイル  単語頻度を属性情報に変換したときの
属性値頻度回路 = 5 接続 = 4 電気・電子 = 8 機械工学 = 4

訳語候補スコア λ（n）各プロファイルスコアの重み　　頻出単語 = 3 　　分野情報 = 2 、訳語履歴
= 2 　　共起単語 = 1 ( ) ( ) ( ) ( ) ∑ × + = n i P i F n w n S w S λ , 初期値各プロファイルから求めたスコアの総和

初期値の計算  コーパス中の単語単位の頻度情報  毎日新聞2000年版を使用 ( ) 訳語候補　全単語の出現頻度の和
の出現頻度＝初期値 : i i i F w w w S

スコアの計算例分野情報プロファイル基本語 =9 電気電子 =8 数学 =6 機械工学
=4 コンピュータ=3 訳語候補 Circuit / 回路/ 電気・電子 Circuit / 回線/ コンピュータ Circuit / 巡回/ 基本語 27 . 0 3 4 6 8 9 8 = + + + + 分野情報スコア

プロファイルの更新 Circuit / 回路 / 電気・電子分野情報プロファイル “電気・電子” +1
訳語履歴プロファイル “回路” +1（頻度）共起単語プロファイル “設計” +2 “接続” +1 共起単語辞書　（回路,設計）=2 　（回路,接続）=1 をユーザが選択

評価実験  ランダムで選んだ英単語１００語を入力  ユーザは尤もらしいと思う訳語を選択  システムに学習させる  選ばれた訳語の順位の推移を評価プロファイルを更新し、システムに学習さ
せることで、ユーザに選ばれる訳語候補が上位に出力されることを確認する。

実験結果 0.0 0.2 0.4 0.6 0.8 1.0 0 20 40
60 80 100 学習回数（回）選択順位／候補数

考察  頻出単語  一般的に使用頻度の高い訳語候補が上位に出現してしまう  表記揺れの対応  訳語候補数が増加してしまう
lack:欠ける、不足、欠如、ない break:こわす、壊す、こわれる、壊れる

課題  ユーザプロファイルの作成  個人の特徴が現れるような文書の収集方法の検討  初期でのプロファイルの作成  効率的な学習
 重み付け方法の検討

個人適応による英日翻訳での訳語候補の順位付け

個人適応による英日翻訳での訳語候補の順位付け

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

個人適応による英日翻訳での訳語候補の順位付け長岡技術科学大学　電気系青木優　山本和英

はじめに  背景  個人の興味や知識を学習する個人適応システムは、ユーザが大量の情報を選別するタスクに有効である。  問題設定 

ユーザプロファイル  以下の情報を訳語選択に利用  頻出単語：よく使用する単語  分野情報：ユーザを分類する指標  訳語履歴：選択された訳語 

処理の流れ 1. ユーザプロファイルの作成 2. 訳語候補スコアの計算 3. ランキングで表示 4. ユーザは尤もらしい候補を選択 5.

まとめ  ユーザプロファイルを作成、利用  訳語候補をランキングで提示  ユーザの個人性を学習させたその結果、学習回数の増加に伴い、選択された訳語の順位が上位である割合が高くなくなる傾向が見られた。

辞書の作成  属性付き対訳辞書  クロスランゲージ専門語辞書を使用  共起単語辞書  一文中で共起する２語の共起頻度 

プロファイルの作成  頻出単語プロファイル  Blogなど個人の特徴が現れやすい文書中の単語頻度  分野情報プロファイル  単語頻度を属性情報に変換したときの

訳語候補スコア λ（n）各プロファイルスコアの重み　　頻出単語 = 3 　　分野情報 = 2 、訳語履歴

初期値の計算  コーパス中の単語単位の頻度情報  毎日新聞2000年版を使用 ( ) 訳語候補　全単語の出現頻度の和

スコアの計算例分野情報プロファイル基本語 =9 電気電子 =8 数学 =6 機械工学

プロファイルの更新 Circuit / 回路 / 電気・電子分野情報プロファイル “電気・電子” +1

評価実験  ランダムで選んだ英単語１００語を入力  ユーザは尤もらしいと思う訳語を選択  システムに学習させる  選ばれた訳語の順位の推移を評価プロファイルを更新し、システムに学習さ

実験結果 0.0 0.2 0.4 0.6 0.8 1.0 0 20 40

考察  頻出単語  一般的に使用頻度の高い訳語候補が上位に出現してしまう  表記揺れの対応  訳語候補数が増加してしまう

課題  ユーザプロファイルの作成  個人の特徴が現れるような文書の収集方法の検討  初期でのプロファイルの作成  効率的な学習