文献紹介9月30日

文献紹介ゼミ長岡技術科学大学 M1 宮西由貴

著者情報 • SimplerunsupervisedPOStaggingwithbilingual projections • Author: LongDuong et al. •
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics • Year: 2013 • Pages: 634–639 2

概要 • 品詞付与に必要なリソース – 品詞タグ付きコーパスが大量に必要 – 言語によって貧富の差あり • パラレルコーパスを使った品詞タグ付与 •
8言語に対して実験 • state-of-the-art な手法と同等な結果 – よりシンプルな方法で実現 3

言語リソースの貧富 • 言語リソースの豊富な言語 – 品詞タグ付与も教師あり学習可能 – 英語，フランス語，ドイツ語，イタリア語･･･ • 言語リソースが貧困な言語 –
人手でタグ付けされた少量のコーパスのみ – 教師あり学習では限界 4

増えるパラレルコーパス • グローバル化によりパラレルコーパス増 – 公文書などもパラレルコーパスに！ • リソースが豊富な言語⇒貧困な言語 – 品詞タグ付与にも応用できそう –
貧しい言語と富んだ言語の差を埋める 5

提案手法 • 教師なしの品詞タグ付与を提案 – ①Seed model – ②自己学習 • パラレルコーパスを使用
– 豊富な言語(品詞タグ付き) – 貧困な言語 • ターゲットとなる言語 – 貧困な言語 6

タグセット • 品詞タグは12種類名詞数詞動詞接続詞形容詞接頭辞・接尾辞副詞
句読点代名詞その他(外国語･･･) 決定詞・冠詞前置詞・後置詞 • ユニバーサルに選択した12種類 7

①Seed Model • ソース言語：リソースが豊富な言語 • ターゲット言語：リソースが貧困な言語 1. ソース言語に対して品詞タグを付与(自動) 2. Giza++でアライメントし，1対多のものは削除
3. アライメントスコア上位n件のみ取得 4. emission確率とtransition確率を推定 5. Seedタグ付与プログラムを構築 8

Giza++でアライメントし， 1対多のものは削除 • 1対多のものを使った場合 – 再現率↑，精度↓ • 1対1対応のものを使った場合 – 再現率↓，精度↑
精度の方が重要であるため1対多のアライメント関係は捨てる 9

アライメントスコア上位n件のみ取得 • Top60kを取った結果 – 再現率も精度も最大 IBMモデル3を使ってアライメントスコアを出す ⇒上位n件を取ることで精度が更にUP 10

emission確率とtransition確率を推定 • emission確率のパラメータ – |V|×|T| – V:ボキャブラリー T:タグセット • transition確率のパラメータ
– 3 – Tri-gramモデル用 Emission確率とtransition確率を用いた Tri-gramのHMMを作成 11

②自己学習 1. ターゲット言語の文をブロックに分割 2. 最初のブロックにseed modelでタグ付与 3. タグが付いたブロックを修正 4. 修正済タグ付きブロックで新モデルを訓練
5. seed modelの辞書に新モデルを追加 6. 5を使って次のブロックをタグ付与 7. 3に戻る(全ブロックにタグが付くまで) 12

5. seed modelの辞書に新モデルを追加 6. 5を使って次のブロックをタグ付与 7. 3に戻る(全ブロックにタグが付くまで) 13

タグの修正 • ( | )>0.7 ならばをに置換 – :ターゲット言語の単語
– :ソース言語の単語 – : に付いたタグ(seed model) – : に付いたタグ(リソース) • 0.7は発見的に決定 14

5. seed modelを新モデルに追加 6. 5を使って次のブロックをタグ付与 7. 3に戻る(全ブロックにタグが付くまで) 15

確率値の更新 • emission & transition 確率を更新 • 新しいモデルに前のモデルを追加 – emission確率:Vが入っている
– 新しいモデルには前のモデルの確率も必要 16

実験について • 使用言語 – ソース言語：英語 – ターゲット言語: デンマーク，オランダ，ドイツ，ギリシア，イタリア，ポルトガル，スペイン，スウェーデン •
ソース言語へのタグ付与 – Stanford POS tagger • 比較手法 – Das and Petrov(2011):state-of-the-artな手法 17

結果 • 平均で見るとstate-of-the-artな手法と同等 • オーダーで比較 – 提案手法：O(nlogn) – Das and
Perrov：O(n^2) ※nはトレーニングデータ 18

まとめ • 品詞付与に必要なリソース – 品詞タグ付きコーパスが大量に必要 – 言語によって貧富の差あり • パラレルコーパスを使った品詞タグ付与 •
8言語に対して実験 • state-of-the-art な手法と同等な結果 – よりオーダーが小さい方法で実現 19

文献紹介9月30日

文献紹介9月30日

miyanishi

More Decks by miyanishi

Featured

Transcript

文献紹介ゼミ長岡技術科学大学 M1 宮西由貴

著者情報 • SimplerunsupervisedPOStaggingwithbilingual projections • Author: LongDuong et al. •

概要 • 品詞付与に必要なリソース – 品詞タグ付きコーパスが大量に必要 – 言語によって貧富の差あり • パラレルコーパスを使った品詞タグ付与 •

言語リソースの貧富 • 言語リソースの豊富な言語 – 品詞タグ付与も教師あり学習可能 – 英語，フランス語，ドイツ語，イタリア語･･･ • 言語リソースが貧困な言語 –

増えるパラレルコーパス • グローバル化によりパラレルコーパス増 – 公文書などもパラレルコーパスに！ • リソースが豊富な言語⇒貧困な言語 – 品詞タグ付与にも応用できそう –

提案手法 • 教師なしの品詞タグ付与を提案 – ①Seed model – ②自己学習 • パラレルコーパスを使用

タグセット • 品詞タグは12種類名詞数詞動詞接続詞形容詞接頭辞・接尾辞副詞

①Seed Model • ソース言語：リソースが豊富な言語 • ターゲット言語：リソースが貧困な言語 1. ソース言語に対して品詞タグを付与(自動) 2. Giza++でアライメントし，1対多のものは削除

Giza++でアライメントし， 1対多のものは削除 • 1対多のものを使った場合 – 再現率↑，精度↓ • 1対1対応のものを使った場合 – 再現率↓，精度↑

アライメントスコア上位n件のみ取得 • Top60kを取った結果 – 再現率も精度も最大 IBMモデル3を使ってアライメントスコアを出す ⇒上位n件を取ることで精度が更にUP 10

emission確率とtransition確率を推定 • emission確率のパラメータ – |V|×|T| – V:ボキャブラリー T:タグセット • transition確率のパラメータ

②自己学習 1. ターゲット言語の文をブロックに分割 2. 最初のブロックにseed modelでタグ付与 3. タグが付いたブロックを修正 4. 修正済タグ付きブロックで新モデルを訓練

②自己学習 1. ターゲット言語の文をブロックに分割 2. 最初のブロックにseed modelでタグ付与 3. タグが付いたブロックを修正 4. 修正済タグ付きブロックで新モデルを訓練

タグの修正 • ( | )>0.7 ならばをに置換 – :ターゲット言語の単語

②自己学習 1. ターゲット言語の文をブロックに分割 2. 最初のブロックにseed modelでタグ付与 3. タグが付いたブロックを修正 4. 修正済タグ付きブロックで新モデルを訓練

確率値の更新 • emission & transition 確率を更新 • 新しいモデルに前のモデルを追加 – emission確率:Vが入っている

実験について • 使用言語 – ソース言語：英語 – ターゲット言語: デンマーク，オランダ，ドイツ，ギリシア，イタリア，ポルトガル，スペイン，スウェーデン •

結果 • 平均で見るとstate-of-the-artな手法と同等 • オーダーで比較 – 提案手法：O(nlogn) – Das and

まとめ • 品詞付与に必要なリソース – 品詞タグ付きコーパスが大量に必要 – 言語によって貧富の差あり • パラレルコーパスを使った品詞タグ付与 •