Slide 1

Slide 1 text

Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers Presented by 竹野 峻輔 長岡技術科学大学 文献紹介@自然言語処理研究室 Chen Chen and Vincent Ng ※数式および表は基本的に論文中のものを拝借しております

Slide 2

Slide 2 text

主旨 • テーマはゼロ代名詞の照応解決 (Zero Prenoun Resolution) – これまでは 教師有学習がメインだった – 提案手法は教師なし学習を行い これが教師有学習と同程度の性能 Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 3

Slide 3 text

ゼロ代名詞について • 言語における代名詞の省略現象 – アライメントがうまく取れない → 機械翻訳の結果に直結する – 日本語ならば ガ格 が省略されやすい Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers ex.) I gave him the present. *pro* 彼に プレゼントを あげた.

Slide 4

Slide 4 text

論文の取り組み 1. ゼロ代名詞を補完する – どこにゼロ代名詞があるか? 2. ゼロ代名詞の参照先を解決する – ゼロ代名詞はどの名詞に照応するか – 格の推定等にも影響してくる Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 5

Slide 5 text

論文の取り組み 1. ゼロ代名詞を補完する – どこにゼロ代名詞があるか? 2. ゼロ代名詞の参照先を解決する – ゼロ代名詞はどの名詞に照応するか – 格の推定等にも影響してくる Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 6

Slide 6 text

論文の取り組み 1. ゼロ代名詞を補完する – どこにゼロ代名詞があるか? 2. ゼロ代名詞の参照先を解決する – 格の推定等に影響してくる – 格の推定等にも影響してくる [俄罗斯] 作为米洛舍夫维奇一贯的支持者, *pro*曾经提出调停这场政治危机。 訳:[Russia] is a consistent supporter of Milošević, *pro* has proposed to mediate the political crisis.) Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 7

Slide 7 text

提案手法(アイディア) Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers このグッズが好きです だから私は*pro*あげました. このグッズが好きだから 私は, それあげたんだ [pro → ? ] [それ → グッズ] 一般的な代名詞 の 照応関係に関する知識 を ゼロ代名詞に適用する イメージ:

Slide 8

Slide 8 text

p: 対象とする (ゼロ)代名詞 c: 照応先の候補の名詞 k: p,c の文脈 l : cがpの照応先か否か 提案手法(モデル) • 明示的な代名詞(overt pronoun) と参照先の関 係からゼロ代名詞の参照先を学習する. – 我(I) 你(you) 他(he) 她(she) 它(it) 你们(you) … • EM法による生成モデルの最適化 Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 9

Slide 9 text

p: 対象とする (ゼロ)代名詞 c: 照応先の候補の名詞 k: p,c の文脈 l : cがpの照応先か否か 提案手法(モデル) • EM法による生成モデルの最適化 – E-step: P(l=1|p,k,c)の計算 – M-step: P(p, k, c,l)の計算 Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers これを全ての明示的な 代名詞p について繰り返す.

Slide 10

Slide 10 text

提案手法(詳細) : E-step 仮定に基づき簡単化: Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers 生成モデルとして結合確率を分解 文脈kの 生起確率 文脈kに基づく cの生起確率 文脈kと候補cに基づいて cがpの照応である確率 文脈kでcの照応元が pであるときの 代名詞pの生起確率 a : 名詞の属性(有生性, 人称, 数量, 性別)

Slide 11

Slide 11 text

提案手法(詳細): E-step 仮定に基づき簡単化 Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers 生成モデルとして結合確率を分解(正規化のための分母は省略): 文脈kの 生起確率 文脈kに基づく cの生起確率 文脈kと候補cに基づいて cがpの照応である確率 文脈kでcの照応元が pであるときの 代名詞pの生起確率 a : 名詞の属性(有生性, 人称, 数量, 性別) pとcが同じ人称の照応関係にある確率 cの文脈k に基づいた照応の確率

Slide 12

Slide 12 text

提案手法(詳細):E-step Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers 生成モデルとして結合確率を分解 文脈kの 生起確率 文脈kに基づく cの生起確率 文脈kと候補cに基づいて cがpの照応である確率 文脈kでcの照応元が pであるときの 代名詞pの生起確率 a : 名詞の属性(有生性, 人称, 数量, 性別) 1. 名詞c に対応した代名詞 p は文脈kに依存しない 2. 代名詞の各属性は独立

Slide 13

Slide 13 text

提案手法(詳細): E-step Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers 生成モデルとして結合確率を分解 文脈kの 生起確率 文脈kに基づく cの生起確率 文脈kと候補cに基づいて cがpの照応である確率 文脈kでcの照応元が pであるときの 代名詞pの生起確率 a : 名詞の属性(有生性, 人称, 数量, 性別) 3. cが照応先であるかは 他の候補に依存しない 4. cの周りの文脈情報で照応先になりうるかは 十分求まる

Slide 14

Slide 14 text

提案手法(詳細): E-step Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers 生成モデルとして結合確率を分解 文脈kの 生起確率 文脈kに基づく cの生起確率 文脈kと候補cに基づいて cがpの照応である確率 文脈kでcの照応元が pであるときの 代名詞pの生起確率 a : 名詞の属性(有生性, 人称, 数量, 性別) 4. 文脈kが与えられた時, 候補cの生起全て等価 5. 文脈kの生起確率は考慮しない () =

Slide 15

Slide 15 text

提案手法(モデル) : M-step Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 16

Slide 16 text

名詞の属性および文脈素性 1. aの決め方(ANIMACY, GENDER, NUMBER, PERSON) 様々な名詞に対してどのように人称を付与するか 2. kc の決め方. 具体的な文脈素性はどうするか. Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 17

Slide 17 text

名詞の属性付与について 先行詞とゼロ代名詞の属性(pa, ca)を学習を行う前に際 に自動的に付与する 基本的にはコーパスからルールベースで付与. • ANIMACY = (animate, inanimate, unknow): 固有名詞, 一般名詞に場合分けし、辞書で分類 • GENDER =(neuter, masculine, feminine): ANIMACYの結果と性別の単語辞書で分類 • NUMBER = (singular, plural) NP中の数量を表す単語を目印に決定( e.x. ~ら ) • PERSON = (first , second, third) Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 18

Slide 18 text

文脈素性 • 句構造解析結果に基づき, 素性を抽出. 8種類(うち3種は3値の素性) 1. c と pの間の文数 2. cのスパンのノードは祖先に1つのNPをもつか? (not : 2-1) そのNPはIPノード中のもっとも下層のノードか(2-2, 2-3) … 8. 参照先候補(c)が 参照元(p)に最も近い主語 かつ p に対して適合するか(8-1) でなければ, c は p に適合する初めての先行詞か(8-2, 8-3) ※c と p の動詞の適合性は それぞれの 述語のMIを計算し, MI > 0 ならば適合としている. Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 19

Slide 19 text

Evaluation • CoNNL2012のOntoNotes5.0のtrain/devを train/testとして利用. • Corpusのドメインごとに評価. Broadcast News (BN), Newswire (NW),Broadcast Conversation(BC), Telephone Conversation (TC), Web Blog (WB) and Magazine (MZ). • Baselineに昨年の手法を利用 Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 20

Slide 20 text

Evaluation Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers 教師有学習と同程度の精度を達成

Slide 21

Slide 21 text

Ablation Evaluation • どの素性が聞きやすいかを調査 文脈素性の起因がかなり大きい Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 22

Slide 22 text

Ablation Evaluation • どの素性が聞きやすいかを調査 文脈素性の起因がかなり大きい(特に8つめのもの) Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 23

Slide 23 text

Error Analysis • どの素性が聞きやすいかを調査 文脈素性の起因がかなり大きい(特に8つめのもの) Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Slide 24

Slide 24 text

Conclusion & Reference • 教師なし学習によるゼロ代名詞の照応手法を提案 – いくつかの代名詞を利用し EM法による教師なし学習 – 最新の教師有り学習と同程度の性能. – 日本語にも転用できそう. • 参考文献 – C. Chen and V. Ng, “Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers,” in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, no. 2006, pp. 763–774. Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers