Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_3_絵本のテキストを対象とした形態素解析

 文献紹介_3_絵本のテキストを対象とした形態素解析

MIKAMI-YUKI

June 24, 2015
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学 B4 三上侑城
    文献紹介 2015年6月24日
    絵本のテキストを対象とした
    形態素解析
    自然言語処理研究室
    1

    View Slide

  2. 出典
    絵本のテキストを対象とした形態素解析
    藤田 早苗, 平 博順, 小林 哲生, 田中 貴秋
    自然言語処理 Vol.21 (2014) No.3
    P515-539
    2

    View Slide

  3. 概要
    主に新聞などのでは高い解析精度が得
    られているが、異なる分野のでは得られ
    ないことがある。
    提案手法として、言語資源を対象分野
    の特徴に合わせて自動的に変換する。
    本稿では絵本を対象として行った。
    3

    View Slide

  4. 絵本
    絵本は幼児の言語発達を支える重要な
    一つであり、高い精度で解析できれば発
    達心理学・教育支援に貢献できる。
    絵本はわかりやすい文章になっているが、
    既存の解析器ではうまく解析できないこと
    がある。
    4

    View Slide

  5. 絵本を形態素解析
    5

    View Slide

  6. 絵本を形態素解析
    うまく解析できない理由として、形態素解
    析器を作るときに用いられる学習データと、
    解析対象(絵本)が大きく異なったから。
    学習データと解析対象の分野が異なると、
    形態素解析にかぎらず機械学習を用い
    る多くのタスクで精度が低下する。
    6

    View Slide

  7. 本稿の手法
    絵本の大量のコーパスは存在せず、教
    師あり学習は適さない。
    そこで既存の辞書やラベルありデータを対
    象分野の特徴に合わせて自動的に変換
    し、それを使って形態素解析モデルを構
    築する教師なし分野適用手法を提案。
    7

    View Slide

  8. 絵本データベース
    本稿では絵本データベースを解析対象と
    する。
    中にはファーストブック・絵本・月刊誌があ
    り、月刊誌は対象年齢がはっきりしている。
    8

    View Slide

  9. 絵本と他コーパスの比較
    9

    View Slide

  10. 絵本のアノテーションデータ
    10
    精度評価のために、絵本の一部に
    正解の形態素区切り・品詞・読み・
    漢字表記を付与したデータを作成。
    作業者の判断の揺れをなくすため
    統一的に確認作業を行った。

    View Slide

  11. 形態素解析器
    11
    テキスト解析ツールキットKyTeaの
    学習機能を利用した。
    KyTeaは点予測を採用しており、周
    囲の文字情報のみを利用しているた
    め柔軟に言語資源を利用できる。

    View Slide

  12. ひらがなと空白の影響
    形態素解析において、ひらがなと空白が
    どの様な影響を及ぼすか実験を行った。
    12

    View Slide

  13. ひらがなと空白の影響
    形態素区切りと品詞が一致した数と割
    合の結果を示す。
    13

    View Slide

  14. ラベルありデータの変換方法
    絵本の解析には空白の働きを学習する
    ことと、ひらがなが多い文でも解析できる
    ことが必要。
    14

    View Slide

  15. 辞書の変換方法
    辞書にはNAIST・Lexeed・日本語語
    彙体系の固有名詞と動植物名を利用し
    ている。
    15

    View Slide

  16. 教師なし分野適応評価実験
    変換した既存言語資源だけを学習に利
    用して評価実験を行った。
    16

    View Slide

  17. 教師なし分野適応評価実験
    空白を追加したり、ひらがなに変換したテ
    キストを学習データに利用するだけで
    25%も精度が向上した。
    つまり、一般向けのテキストを学習データ
    に利用する場合でも絵本での出現傾向
    に合わせて変換することで相当な精度向
    上が得られた。
    17

    View Slide

  18. 教師あり分野適応評価実験
    アノテーションデータKODOMOを10分割
    し、それらを徐々に学習データに追加した
    場合の学習曲線を調べた。
    教師なしで一番良い精度を得た学習
    データをHINOKI-Bestし、この
    HINOKI-Bestと絵本を両方学習に利
    用する場合と、絵本だけを学習に利用す
    る場合で実験を行った。
    18

    View Slide

  19. 19

    View Slide

  20. 教師あり分野適応評価実験
    全ての場合において、HINOKI-Bestに
    絵本データを追加したほうが精度が良く
    なっている。
    Randomの場合、絵本の学習データだ
    けでHINOKI-Bestと同等の精度を得る
    には、アノテーションデータ約11000行・
    90000形態素が必要となる。
    これより提案手法の効果は高いと言える。
    20

    View Slide

  21. まとめ
    既存の言語資源を絵本の特徴に合わせ
    て自動変換し、学習に用いることで精度
    向上することを示した。
    提案手法によって得た既存言語資源に
    よるラベルありデータは、絵本のラベルあり
    データ約11000行・90000形態素と同
    程度の効果があり、非常に効果が高いこ
    とを示した。
    21

    View Slide

  22. ご視聴ありがとうございました
    22

    View Slide