文献紹介_8_単語単位による日本語言語モデルの検討

長岡技術科学大学 B4 三上侑城文献紹介 2015年11月26日単語単位による日本語言語モデルの検討自然言語処理研究室 1

出典単語単位による日本語言語モデルの検討伊東伸泰, 西村雅史荻野紫穂, 山崎一考
自然言語処理 Vol. 6 (1999) No. 2 P9-27 2

概要 形態素は必ずしも人が認知している単語単位や発音単位と一致しない。 人が潜在意識的にもつ単語単位の分割モデルの言語モデルについて考察した。 約4万語で94~98%がカバーでき、形態素に比べ12~19%語は少なくなった。 3

趣旨 音声認識を実現する際に、どのように認識単位を採用するか問題となる。 従来では形態素を単位としてきたが、問題点がいくつかある。・複合名詞などが1つの単語として登録・長い認識単位のほうが識別しやすい 4

単語単位への分割 日本語を分割して発声する場合、分割点は安定している点・不安定な点がある。 発音単位では、安定的に「行って」だが、「器」は分割されるかが不安定。 そこで人がある位置で「分割」される確率を形態素レベルでモデル化する。 5

単語単位への分割 人手で分割したテキストと、形態素解析したテキストを照合し、分割確率を得る。 その結果を用いることで、人が分割した傾向を持ったテキストを容易に得られる。 6

単語単位への分割  7

文法の対応 近年、現代語書き言葉以外の表現に、会話風の表現(口語体)を扱う試みが増加してきた。 そこで、本研究では対応として、新聞などに限らず、パソコン通信の投稿テキストを使用し、口語体を取得した。 8

複合名詞の分割 形態素解析辞書には、複合語が一語扱いで登録されている事が多い。 しかし、単語分割モデル構築のための形態素解析には短単語に分割されていたほうが良い。 9

複合名詞の分割 そこで、複合語の中でも特に多い複合名詞を分割対象にした。 ２ヶ月分の新聞記事を形態素解析して、一定以上の頻度で出現する３文字以上の名詞を人手で分割した。 10

分割確率の推定 分割ルールとその確率を推定するために、 17人の被験者により、新聞5ヶ月分、日本語用例集(26k文)、パソコン通信 (9.5k文)を分割する作業を行った。 11

分割確率の推定 新聞や用例集は「書き言葉」であるのに対し、パソコン通信は「口語体」に近く、分割モデルに影響を与える可能性がある。 12

分割確率の推定 パソコン通信のみから得られた中で、出現頻度の高いもの 明らかに口語体特有の言い回しに伴う遷移が抽出された。 13

分割確率の推定 両方の確率木に共通して出現している 1607個については、分割確率の相関係数を求めたところ0.980となり、共通するノードはほとんど同じである。 これらのモデルに基づき、形態素解析されたテキストを分割・統合した。 14

単語カバレージ 予備実験として新聞3ヶ月分(446k文) を用いて、分割・連結の実験を行った。 15

単語カバレージ また、この時の確率木の各ノードがどのような割合で使われたかを示した。 16

コーパスの前処理 コーパスは日経新聞、産経新聞、毎日新聞、EDRコーパス、パソコン通信 前処理として以下のことを行った。・数字をすべて桁付きの漢数字に変換 (例)23.45→「二十」「三」「・」「四」・絵文字や引用を除く (例)記号文字や「>>(引用)」など 17

語彙の作成 95％のカバレージをもつ語彙を作成したところ、約44,000語の単語からなるセット(44k語彙)が得られた。 「行う」では11単語が生成された。 18

学習コーパス文の選択 学習コーパスに適さないものが含まれており、以下の条件の文は採用しないことにした。・2単語以下で構成される文・文の単語数に対する記号が一定以上・〃に対する未知語が一定以上 19

学習コーパス文の選択 これらの選定を行った結果の各文の数をソース別に示す。 20

単語単位による言語モデル 特にパソコン通信に関して、表記揺れ (「コンピューター」と「コンピュータ」)が多数存在したため、読みを元に約1800のリストを作成した。 テストデータとして、新聞3種類、パソコン通信のテキストを別に用意し、被験者 (先ほどと異なる人)が分割を行った。 21

単語単位による言語モデル 44k語彙のカバレージの結果 22

単語単位による言語モデル 新聞およびパソコン通信の学習データを文単位で8個に分割したサブセットを作成した。 各サブセットをさらに95%と5%の比で分割し、前者をN-gramカウントに用いた。 23

単語単位による言語モデル 新聞についての学習データ 24

単語単位による言語モデル 新聞全てにパソコン通信の学習データ 25

まとめ 人が単語と意識する単位は約44kで 94~98%程度のカバレージが得られた。 形態素に比べて、1文あたりの要素数が 12~19%程度減少した。 新聞及びパソコン通信データを混合させた言語モデルは双方に対応可能であった。 26

ご視聴ありがとうございました 27

文献紹介_8_単語単位による日本語言語モデルの検討

文献紹介_8_単語単位による日本語言語モデルの検討

MIKAMI-YUKI

More Decks by MIKAMI-YUKI

Other Decks in Education

Featured

Transcript

長岡技術科学大学 B4 三上侑城文献紹介 2015年11月26日単語単位による日本語言語モデルの検討自然言語処理研究室 1

出典単語単位による日本語言語モデルの検討伊東伸泰, 西村雅史荻野紫穂, 山崎一考

単語単位への分割 人手で分割したテキストと、形態素解析したテキストを照合し、分割確率を得る。 その結果を用いることで、人が分割した傾向を持ったテキストを容易に得られる。 6

単語単位への分割  7

文法の対応 近年、現代語書き言葉以外の表現に、会話風の表現(口語体)を扱う試みが増加してきた。 そこで、本研究では対応として、新聞などに限らず、パソコン通信の投稿テキストを使用し、口語体を取得した。 8

複合名詞の分割 形態素解析辞書には、複合語が一語扱いで登録されている事が多い。 しかし、単語分割モデル構築のための形態素解析には短単語に分割されていたほうが良い。 9

複合名詞の分割 そこで、複合語の中でも特に多い複合名詞を分割対象にした。 ２ヶ月分の新聞記事を形態素解析して、一定以上の頻度で出現する３文字以上の名詞を人手で分割した。 10

分割確率の推定 分割ルールとその確率を推定するために、 17人の被験者により、新聞5ヶ月分、日本語用例集(26k文)、パソコン通信 (9.5k文)を分割する作業を行った。 11

分割確率の推定 新聞や用例集は「書き言葉」であるのに対し、パソコン通信は「口語体」に近く、分割モデルに影響を与える可能性がある。 12

分割確率の推定 パソコン通信のみから得られた中で、出現頻度の高いもの 明らかに口語体特有の言い回しに伴う遷移が抽出された。 13

単語カバレージ 予備実験として新聞3ヶ月分(446k文) を用いて、分割・連結の実験を行った。 15

単語カバレージ また、この時の確率木の各ノードがどのような割合で使われたかを示した。 16

語彙の作成 95％のカバレージをもつ語彙を作成したところ、約44,000語の単語からなるセット(44k語彙)が得られた。 「行う」では11単語が生成された。 18

学習コーパス文の選択 学習コーパスに適さないものが含まれており、以下の条件の文は採用しないことにした。・2単語以下で構成される文・文の単語数に対する記号が一定以上・〃に対する未知語が一定以上 19

学習コーパス文の選択 これらの選定を行った結果の各文の数をソース別に示す。 20

単語単位による言語モデル 44k語彙のカバレージの結果 22

単語単位による言語モデル 新聞およびパソコン通信の学習データを文単位で8個に分割したサブセットを作成した。 各サブセットをさらに95%と5%の比で分割し、前者をN-gramカウントに用いた。 23

単語単位による言語モデル 新聞についての学習データ 24

単語単位による言語モデル 新聞全てにパソコン通信の学習データ 25

ご視聴ありがとうございました 27