Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_3_絵本のテキストを対象とした形態素解析
Search
MIKAMI-YUKI
June 24, 2015
Education
1
420
文献紹介_3_絵本のテキストを対象とした形態素解析
MIKAMI-YUKI
June 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
340
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
100
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
590
Other Decks in Education
See All in Education
吉岡研究室紹介(2025年度)
kentaroy47
0
700
Entrepreneurship minor course at HSE 2025
karlov
0
140
Node-REDで広がるプログラミング教育の可能性
ueponx
1
200
バケットポリシーの記述を誤りマネコンからS3バケットを操作できなくなりそうになった話
amarelo_n24
1
130
Ch1_-_Partie_1.pdf
bernhardsvt
0
460
いわゆる「ふつう」のキャリアを歩んだ人の割合(若者向け)
hysmrk
0
250
3Dプリンタでロボット作るよ#5_ロボット向け3Dプリンタ材料
shiba_8ro
0
120
IKIGAI World Fes:program
tsutsumi
1
2.6k
生成AI活用セミナー/GAI-workshop
gnutar
0
160
the difficulty into words
ukky86
0
300
子どものためのプログラミング道場『CoderDojo』〜法人提携例〜 / Partnership with CoderDojo Japan
coderdojojapan
PRO
4
17k
焦りと不安を、技術力に変える方法 - 新卒iOSエンジニアの失敗談と成長のフレームワーク
hypebeans
1
580
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
The Invisible Side of Design
smashingmag
302
51k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
How GitHub (no longer) Works
holman
316
140k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.8k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年6月24日 絵本のテキストを対象とした 形態素解析 自然言語処理研究室 1
出典 絵本のテキストを対象とした形態素解析 藤田 早苗, 平 博順, 小林 哲生, 田中 貴秋
自然言語処理 Vol.21 (2014) No.3 P515-539 2
概要 主に新聞などのでは高い解析精度が得 られているが、異なる分野のでは得られ ないことがある。 提案手法として、言語資源を対象分野 の特徴に合わせて自動的に変換する。 本稿では絵本を対象として行った。 3
絵本 絵本は幼児の言語発達を支える重要な 一つであり、高い精度で解析できれば発 達心理学・教育支援に貢献できる。 絵本はわかりやすい文章になっているが、 既存の解析器ではうまく解析できないこと がある。 4
絵本を形態素解析 5
絵本を形態素解析 うまく解析できない理由として、形態素解 析器を作るときに用いられる学習データと、 解析対象(絵本)が大きく異なったから。 学習データと解析対象の分野が異なると、 形態素解析にかぎらず機械学習を用い る多くのタスクで精度が低下する。 6
本稿の手法 絵本の大量のコーパスは存在せず、教 師あり学習は適さない。 そこで既存の辞書やラベルありデータを対 象分野の特徴に合わせて自動的に変換 し、それを使って形態素解析モデルを構 築する教師なし分野適用手法を提案。 7
絵本データベース 本稿では絵本データベースを解析対象と する。 中にはファーストブック・絵本・月刊誌があ り、月刊誌は対象年齢がはっきりしている。 8
絵本と他コーパスの比較 9
絵本のアノテーションデータ 10 精度評価のために、絵本の一部に 正解の形態素区切り・品詞・読み・ 漢字表記を付与したデータを作成。 作業者の判断の揺れをなくすため 統一的に確認作業を行った。
形態素解析器 11 テキスト解析ツールキットKyTeaの 学習機能を利用した。 KyTeaは点予測を採用しており、周 囲の文字情報のみを利用しているた め柔軟に言語資源を利用できる。
ひらがなと空白の影響 形態素解析において、ひらがなと空白が どの様な影響を及ぼすか実験を行った。 12
ひらがなと空白の影響 形態素区切りと品詞が一致した数と割 合の結果を示す。 13
ラベルありデータの変換方法 絵本の解析には空白の働きを学習する ことと、ひらがなが多い文でも解析できる ことが必要。 14
辞書の変換方法 辞書にはNAIST・Lexeed・日本語語 彙体系の固有名詞と動植物名を利用し ている。 15
教師なし分野適応評価実験 変換した既存言語資源だけを学習に利 用して評価実験を行った。 16
教師なし分野適応評価実験 空白を追加したり、ひらがなに変換したテ キストを学習データに利用するだけで 25%も精度が向上した。 つまり、一般向けのテキストを学習データ に利用する場合でも絵本での出現傾向 に合わせて変換することで相当な精度向 上が得られた。 17
教師あり分野適応評価実験 アノテーションデータKODOMOを10分割 し、それらを徐々に学習データに追加した 場合の学習曲線を調べた。 教師なしで一番良い精度を得た学習 データをHINOKI-Bestし、この HINOKI-Bestと絵本を両方学習に利 用する場合と、絵本だけを学習に利用す る場合で実験を行った。 18
19
教師あり分野適応評価実験 全ての場合において、HINOKI-Bestに 絵本データを追加したほうが精度が良く なっている。 Randomの場合、絵本の学習データだ けでHINOKI-Bestと同等の精度を得る には、アノテーションデータ約11000行・ 90000形態素が必要となる。 これより提案手法の効果は高いと言える。 20
まとめ 既存の言語資源を絵本の特徴に合わせ て自動変換し、学習に用いることで精度 向上することを示した。 提案手法によって得た既存言語資源に よるラベルありデータは、絵本のラベルあり データ約11000行・90000形態素と同 程度の効果があり、非常に効果が高いこ とを示した。 21
ご視聴ありがとうございました 22