長岡技術科学大学 B4 三上侑城文献紹介 2015年6月24日絵本のテキストを対象とした形態素解析自然言語処理研究室1
View Slide
出典絵本のテキストを対象とした形態素解析藤田 早苗, 平 博順, 小林 哲生, 田中 貴秋自然言語処理 Vol.21 (2014) No.3P515-5392
概要主に新聞などのでは高い解析精度が得られているが、異なる分野のでは得られないことがある。提案手法として、言語資源を対象分野の特徴に合わせて自動的に変換する。本稿では絵本を対象として行った。3
絵本絵本は幼児の言語発達を支える重要な一つであり、高い精度で解析できれば発達心理学・教育支援に貢献できる。絵本はわかりやすい文章になっているが、既存の解析器ではうまく解析できないことがある。4
絵本を形態素解析5
絵本を形態素解析うまく解析できない理由として、形態素解析器を作るときに用いられる学習データと、解析対象(絵本)が大きく異なったから。学習データと解析対象の分野が異なると、形態素解析にかぎらず機械学習を用いる多くのタスクで精度が低下する。6
本稿の手法絵本の大量のコーパスは存在せず、教師あり学習は適さない。そこで既存の辞書やラベルありデータを対象分野の特徴に合わせて自動的に変換し、それを使って形態素解析モデルを構築する教師なし分野適用手法を提案。7
絵本データベース本稿では絵本データベースを解析対象とする。中にはファーストブック・絵本・月刊誌があり、月刊誌は対象年齢がはっきりしている。8
絵本と他コーパスの比較9
絵本のアノテーションデータ10精度評価のために、絵本の一部に正解の形態素区切り・品詞・読み・漢字表記を付与したデータを作成。作業者の判断の揺れをなくすため統一的に確認作業を行った。
形態素解析器11テキスト解析ツールキットKyTeaの学習機能を利用した。KyTeaは点予測を採用しており、周囲の文字情報のみを利用しているため柔軟に言語資源を利用できる。
ひらがなと空白の影響形態素解析において、ひらがなと空白がどの様な影響を及ぼすか実験を行った。12
ひらがなと空白の影響形態素区切りと品詞が一致した数と割合の結果を示す。13
ラベルありデータの変換方法絵本の解析には空白の働きを学習することと、ひらがなが多い文でも解析できることが必要。14
辞書の変換方法辞書にはNAIST・Lexeed・日本語語彙体系の固有名詞と動植物名を利用している。15
教師なし分野適応評価実験変換した既存言語資源だけを学習に利用して評価実験を行った。16
教師なし分野適応評価実験空白を追加したり、ひらがなに変換したテキストを学習データに利用するだけで25%も精度が向上した。つまり、一般向けのテキストを学習データに利用する場合でも絵本での出現傾向に合わせて変換することで相当な精度向上が得られた。17
教師あり分野適応評価実験アノテーションデータKODOMOを10分割し、それらを徐々に学習データに追加した場合の学習曲線を調べた。教師なしで一番良い精度を得た学習データをHINOKI-Bestし、このHINOKI-Bestと絵本を両方学習に利用する場合と、絵本だけを学習に利用する場合で実験を行った。18
19
教師あり分野適応評価実験全ての場合において、HINOKI-Bestに絵本データを追加したほうが精度が良くなっている。Randomの場合、絵本の学習データだけでHINOKI-Bestと同等の精度を得るには、アノテーションデータ約11000行・90000形態素が必要となる。これより提案手法の効果は高いと言える。20
まとめ既存の言語資源を絵本の特徴に合わせて自動変換し、学習に用いることで精度向上することを示した。提案手法によって得た既存言語資源によるラベルありデータは、絵本のラベルありデータ約11000行・90000形態素と同程度の効果があり、非常に効果が高いことを示した。21
ご視聴ありがとうございました22