Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A Joint Graph Model for Pinyin-to-Chinese Conversion with Typo Correction

A Joint Graph Model for Pinyin-to-Chinese Conversion with Typo Correction

ACL 2014 読み会@首都大学東京にて紹介した A Joint Graph Model for Pinyin-to-Chinese Conversion with Typo Correction のスライドです。

Mamoru Komachi

August 01, 2014
Tweet

More Decks by Mamoru Komachi

Other Decks in Research

Transcript

  1. A Joint Graph Model for Pinyin-to-Chinese Conversion with Typo Correction

    Zhongye Jia and Hai Zhao, ACL 2014 ※スライド中の図表は全て論文から引用されたもの 小町守 <[email protected]> ACL 2014 読み会@首都大学東京 2014/08/01
  2. 単純なグラフに基づく中国 語スペリング訂正の問題点  中国語の意味の単位は文字ではなく単語  音節の条件付き確率では不十分  同音異義語(文字)の存在  条件付き確率はノイジー

     ピンイン単語を音節の代わりに使う?  単語分割はピンイン分割より難しいタスク 7 ピンイン→中国語変換を同時に行なう!
  3. 誤り訂正グラフの重みは Levenstein 距離で拡張  ノードの重みは音節の Levenshtein 距離と生起 確率の混合  エッジの重みは遷移確率

    10 P* = argmin vxt ÎV (w vxt +W E(vxt-1 ®vxt ) ) t=1 T å w Vi, j = b L( ¢ S k , k=i j å S k )-g logP( ¢ S i ... ¢ S j |V i, j ) W E(Vi, j ®VJ+1,k ) = -logP(V j+1,k |V i, j )
  4. K-最短パスを用いてグラフ のフィルタリング 11 Levenstein 距離の閾値を 2 にしても M 文字からなる 結合グラフのノード数は

    M × 1,000、エッジ数は M × 1,000,000 →巨大なので枝狩りする Eppstein (1998) のヒープを用いた K-最短パスを求める アルゴリズムを使用。(フィボナッチヒープ)
  5. 実験データ・ツール 13 People’s Daily (Yang et al., 2012) コーパス (ピンインがついている)

    言語モデルのトレーニング: SRILM 言語モデルの検索: KenLM ピンイン辞書: sunpinyin(オープンソースの中国語IME) 生起確率: Moses の翻訳確率