linkの分析 → src → tgt のアライメントは一意に近づく一方で tgt → src のアライメントが少なくなることを実証 → アライメントの質を測る指標 • 手法(学習データを分割している?) 1. fastalignで単語アライメントを作成し、 src側が低頻出語なものを抽出(辞書) 2. (元データから対訳文をサンプリングしてサブセットを作成(辞書の作成に利用しない?)) 3. 辞書の単語アライメントに関して 2のデータを用いて次の指標で評価 ▪ Recall : 低頻度語のうちどれだけ辞書に基づいたアライメントが張られているか ▪ Precision : 辞書の中のアライメントがどれだけ正しいか(人手評価) ▪ F1 : PrecisionとRecallの調和平均 7