Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換

MIKAMI-YUKI
October 29, 2015

 文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換

MIKAMI-YUKI

October 29, 2015
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学 B4 三上侑城
    文献紹介 2015年10月29日
    自動獲得した未知語の読み・
    文脈情報による仮名漢字変換
    自然言語処理研究室
    1

    View Slide

  2. 出典
    自動獲得した未知語の読み・
    文脈情報による仮名漢字変換
    笹田 鉄郎, 森 信介, 河原 達也
    自然言語処理 Vol. 17 (2010)
    No. 4 P131-153
    2

    View Slide

  3. 概要
    内容の類似したテキストと音声から未知
    語の読み・文脈情報を取得し、仮名漢
    字変換の精度向上に利用する。
    実験では、取得した未知語の読み・文
    脈情報を学習コーパスに用いたことで、
    精度が向上することを確認した。
    3

    View Slide

  4. 趣旨
    統計的かな漢字変換において、学習
    コーパスに入っていない語(未知語)は変
    換することができない。
    そこで未知語を入れようとした時、表層
    情報から推定することが困難なものがあり、
    そのため人手での作業が必要になり、コ
    ストの面で問題が発生する。
    4

    View Slide

  5. 趣旨
    そこで本論文では、テキストと内容の類
    似した音声を認識することで、未知語の
    読み・文脈情報を単語とその読みの組と
    して自動獲得させ、統計的かな漢字変
    換の精度向上を目指した。
    5

    View Slide

  6. 提案手法の概略
    6

    View Slide

  7. 未知語候補の抽出
    擬似確率的単語分割コーパスは、同様
    の文であっても単語境界に揺れが存在
    するため未知語の分割誤りを抑制可能。
    揺れがあるため、低頻度の文字列は単
    語として適切ではないものが多く、出現
    頻度でしきい値を設定した。
    7

    View Slide

  8. 未知語候補の抽出
    単語分割コーパスから単語境界確率を
    付与する。
    単語境界確率を乱数を比較し、擬似確
    率単語分割コーパスを作成。
    8

    View Slide

  9. 言語モデルと発音辞書
    音声認識システムを用いて未知語候補
    を正しいよみとともに認識するには言語モ
    デルと発音辞書が必要。
    言語モデルは擬似確率的単語分割コー
    パスを一般の単語分割コーパスに追懐す
    ることで構築する。
    9

    View Slide

  10. 言語モデルと発音辞書
    発音は複数の候補を用意し、その中から
    推定していく。
    n-gramモデルより単語表記から読みの
    生成確率を計算する。
    10

    View Slide

  11. 言語モデルと発音辞書
    「守屋」の正しい読みは「モリヤ」であるが、
    確率Pはここでは最大になっていない。
    そのため、確率上位L個を候補とする。L
    は組み合わせの生成確率によって決まる。
    11

    View Slide

  12. 文脈情報の獲得
    信頼度を用いて単語の文脈上の妥当性
    を判定する。
    対象分野のテキストと同様の話題を扱っ
    た音声、音響モデルを用意し、先ほど得
    られたデータを用いて音声認識を行った。
    12

    View Slide

  13. 文脈情報の獲得
    音声認識結果のうち、単語信頼度が
    CM以上単語を抽出し、連続する単語と
    その読みの列を形成する。
    13

    View Slide

  14. モデル構築
    かな漢字変換のモデル性能を改善するに
    は、対象分野の学習コーパスを大量に用
    意することが重要である。
    文脈情報の獲得で得られた、未知語を
    含む単語と読みの列をモデルに反映させ
    ることで、変換精度向上を目指す。
    14

    View Slide

  15. 実験
    実験は、一般分野のコーパスCb、対象
    分野のテキストの自動読み推定結果Cn、
    音声認識結果Crを用いた。
    コーパスを以下のように組み合わせた。
    15

    View Slide

  16. 実験
    評価指標として、文字単位の再現率と
    適合率を用いた。
    またCrから言語モデル(LM)のみ、かな漢
    字モデル(PM)のみを更新した場合につ
    いても変換精度の評価を行った。
    16

    View Slide

  17. 実験結果
    17

    View Slide

  18. まとめ
    テキストと音声から未知語の読み・文脈
    情報を単語と読みの組として自動取得し、
    統計的かな漢字変換の精度向上に利
    用する手法を提案した。
    音声認識から得られる単語と読みの組の
    列を学習コーパスにすることで、システム
    全体の精度が向上することを確認した。
    18

    View Slide

  19. ご視聴ありがとうございました
    19

    View Slide