長岡技術科学大学 B4 三上侑城文献紹介 2015年11月26日単語単位による日本語言語モデルの検討自然言語処理研究室1
View Slide
出典単語単位による日本語言語モデルの検討伊東 伸泰, 西村 雅史荻野 紫穂, 山崎 一考自然言語処理 Vol. 6 (1999)No. 2 P9-272
概要形態素は必ずしも人が認知している単語単位や発音単位と一致しない。人が潜在意識的にもつ単語単位の分割モデルの言語モデルについて考察した。約4万語で94~98%がカバーでき、形態素に比べ12~19%語は少なくなった。3
趣旨音声認識を実現する際に、どのように認識単位を採用するか問題となる。従来では形態素を単位としてきたが、問題点がいくつかある。・複合名詞などが1つの単語として登録・長い認識単位のほうが識別しやすい4
単語単位への分割日本語を分割して発声する場合、分割点は安定している点・不安定な点がある。発音単位では、安定的に「行って」だが、「器」は分割されるかが不安定。そこで人がある位置で「分割」される確率を形態素レベルでモデル化する。5
単語単位への分割人手で分割したテキストと、形態素解析したテキストを照合し、分割確率を得る。その結果を用いることで、人が分割した傾向を持ったテキストを容易に得られる。6
単語単位への分割7
文法の対応近年、現代語書き言葉以外の表現に、会話風の表現(口語体)を扱う試みが増加してきた。そこで、本研究では対応として、新聞などに限らず、パソコン通信の投稿テキストを使用し、口語体を取得した。8
複合名詞の分割形態素解析辞書には、複合語が一語扱いで登録されている事が多い。しかし、単語分割モデル構築のための形態素解析には短単語に分割されていたほうが良い。9
複合名詞の分割そこで、複合語の中でも特に多い複合名詞を分割対象にした。2ヶ月分の新聞記事を形態素解析して、一定以上の頻度で出現する3文字以上の名詞を人手で分割した。10
分割確率の推定分割ルールとその確率を推定するために、17人の被験者により、新聞5ヶ月分、日本語用例集(26k文)、パソコン通信(9.5k文)を分割する作業を行った。11
分割確率の推定新聞や用例集は「書き言葉」であるのに対し、パソコン通信は「口語体」に近く、分割モデルに影響を与える可能性がある。12
分割確率の推定パソコン通信のみから得られた中で、出現頻度の高いもの明らかに口語体特有の言い回しに伴う遷移が抽出された。13
分割確率の推定両方の確率木に共通して出現している1607個については、分割確率の相関係数を求めたところ0.980となり、共通するノードはほとんど同じである。これらのモデルに基づき、形態素解析されたテキストを分割・統合した。14
単語カバレージ予備実験として新聞3ヶ月分(446k文)を用いて、分割・連結の実験を行った。15
単語カバレージまた、この時の確率木の各ノードがどのような割合で使われたかを示した。16
コーパスの前処理コーパスは日経新聞、産経新聞、毎日新聞、EDRコーパス、パソコン通信前処理として以下のことを行った。・数字をすべて桁付きの漢数字に変換(例)23.45→「二十」「三」「・」「四」・絵文字や引用を除く(例)記号文字や「>>(引用)」など17
語彙の作成95%のカバレージをもつ語彙を作成したところ、約44,000語の単語からなるセット(44k語彙)が得られた。「行う」では11単語が生成された。18
学習コーパス文の選択学習コーパスに適さないものが含まれており、以下の条件の文は採用しないことにした。・2単語以下で構成される文・文の単語数に対する記号が一定以上・ 〃 に対する未知語が一定以上19
学習コーパス文の選択これらの選定を行った結果の各文の数をソース別に示す。20
単語単位による言語モデル特にパソコン通信に関して、表記揺れ(「コンピューター」と「コンピュータ」)が多数存在したため、読みを元に約1800のリストを作成した。テストデータとして、新聞3種類、パソコン通信のテキストを別に用意し、被験者(先ほどと異なる人)が分割を行った。21
単語単位による言語モデル44k語彙のカバレージの結果22
単語単位による言語モデル新聞およびパソコン通信の学習データを文単位で8個に分割したサブセットを作成した。各サブセットをさらに95%と5%の比で分割し、前者をN-gramカウントに用いた。23
単語単位による言語モデル新聞についての学習データ24
単語単位による言語モデル新聞全てにパソコン通信の学習データ25
まとめ人が単語と意識する単位は約44kで94~98%程度のカバレージが得られた。形態素に比べて、1文あたりの要素数が12~19%程度減少した。新聞及びパソコン通信データを混合させた言語モデルは双方に対応可能であった。26
ご視聴ありがとうございました27