Slide 1

Slide 1 text

A Joint Graph Model for Pinyin-to-Chinese Conversion with Typo Correction Zhongye Jia and Hai Zhao, ACL 2014 ※スライド中の図表は全て論文から引用されたもの 小町守 ACL 2014 読み会@首都大学東京 2014/08/01

Slide 2

Slide 2 text

中国語の入力にはローマ字化さ れたピンイン(併音)を用いる 2 1音節1文字(1〜300の曖昧性。 500種類の音節で6,000文字を入力)

Slide 3

Slide 3 text

タイポ・スペリング誤りの訂正  方言話者だと「正しい」発音を知らない(cf 7 大方言)  スマートフォン(ソフトウェアキーボード)の 普及  誤りが自動訂正できなかった場合、ユーザは カーソルを戻して修正する必要→UXの悪化 3

Slide 4

Slide 4 text

単一始点最短経路問題としての ピンイン分割(O(|V|+|E|)) 4 P*= argmin (v,E)ÎGÙ(v,E)ÎP w v v å + W E E å wv は全て 0、WE は音節2gramスコア

Slide 5

Slide 5 text

ピンイン誤り訂正をグラフ (ラティス)で表現 5

Slide 6

Slide 6 text

編集距離を用いて正しい単語 候補をグラフに挿入していく  Levenstein 距離が一定の閾値以下でシラブルと して可能なものをグラフに追加  ノードの重みは正規化パラメータ× Levenstein 距離 6 w ¢ Si, j = b L( ¢ S k k-i j å ,S k )

Slide 7

Slide 7 text

単純なグラフに基づく中国 語スペリング訂正の問題点  中国語の意味の単位は文字ではなく単語  音節の条件付き確率では不十分  同音異義語(文字)の存在  条件付き確率はノイジー  ピンイン単語を音節の代わりに使う?  単語分割はピンイン分割より難しいタスク 7 ピンイン→中国語変換を同時に行なう!

Slide 8

Slide 8 text

隠れマルコフモデルを用い たピンイン→中国語変換  確率的変換モデル(Viterbi アルゴリズムでデ コード)  P(wi |wi-1 ) は遷移確率・P(si | wi ) は生起確率 8

Slide 9

Slide 9 text

誤り訂正と中国語変換の結合 処理を最短経路問題として解く 9 隣接する音節で辞書引きして単語ラティスにする

Slide 10

Slide 10 text

誤り訂正グラフの重みは Levenstein 距離で拡張  ノードの重みは音節の Levenshtein 距離と生起 確率の混合  エッジの重みは遷移確率 10 P* = argmin vxt ÎV (w vxt +W E(vxt-1 ®vxt ) ) t=1 T å w Vi, j = b L( ¢ S k , k=i j å S k )-g logP( ¢ S i ... ¢ S j |V i, j ) W E(Vi, j ®VJ+1,k ) = -logP(V j+1,k |V i, j )

Slide 11

Slide 11 text

K-最短パスを用いてグラフ のフィルタリング 11 Levenstein 距離の閾値を 2 にしても M 文字からなる 結合グラフのノード数は M × 1,000、エッジ数は M × 1,000,000 →巨大なので枝狩りする Eppstein (1998) のヒープを用いた K-最短パスを求める アルゴリズムを使用。(フィボナッチヒープ)

Slide 12

Slide 12 text

枝狩りされた結合グラフ 12

Slide 13

Slide 13 text

実験データ・ツール 13 People’s Daily (Yang et al., 2012) コーパス (ピンインがついている) 言語モデルのトレーニング: SRILM 言語モデルの検索: KenLM ピンイン辞書: sunpinyin(オープンソースの中国語IME) 生起確率: Moses の翻訳確率

Slide 14

Slide 14 text

オープンソースシステムや商用 システムよりも高い性能 14 MIU = Max Input Unit (Jia and Zhao, IJCNLP 2013)

Slide 15

Slide 15 text

Google のシステムより訂 正性能も変換性能も高い 15

Slide 16

Slide 16 text

言語モデルはbigram より trigram のほうが高い変換精度 16

Slide 17

Slide 17 text

枝狩りする最短経路数の トレードオフ 17

Slide 18

Slide 18 text

変換モデルの重み(ほとんど エッジの重みだけで決まる?) 18

Slide 19

Slide 19 text

まとめ  タイポの訂正のできるピンイン→中国語の変換 のための結合グラフモデルを提案  ピンインの入力文(分かち書きされていない) に対して全体で最適な変換結果を出力  オープンソース・商用システムよりも高い性能、 実用的な速度 19