Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_3_絵本のテキストを対象とした形態素解析
Search
MIKAMI-YUKI
June 24, 2015
Education
1
410
文献紹介_3_絵本のテキストを対象とした形態素解析
MIKAMI-YUKI
June 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
120
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
290
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
83
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
90
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
99
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
560
Other Decks in Education
See All in Education
Ch4_-_Partie_2.pdf
bernhardsvt
0
100
JAWS-UGを通じてアウトプット活動を楽しんでみませんか? #jawsug_tochigi
masakiokuda
0
260
プログラミング基礎#4(名古屋造形大学)
yusk1450
PRO
0
130
Juvenile in Justice
oripsolob
0
350
OCIでインスタンス構築してみた所感
masakiokuda
0
160
Informasi Program Coding Camp 2025 powered by DBS Foundation
codingcamp2025
0
160
2024年度秋学期 統計学 第12回 分布の平均を推測する - 区間推定 (2024. 12. 11)
akiraasano
PRO
0
130
Pen-based Interaction - Lecture 4 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.6k
BrightonSEO, San Diego, CA 2024
mchowning
0
130
自己紹介 / who-am-i
yasulab
PRO
2
4.7k
Use Cases and Course Review - Lecture 8 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
890
1216
cbtlibrary
0
280
Featured
See All Featured
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
11
1.3k
Scaling GitHub
holman
459
140k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7.1k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.2k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Designing on Purpose - Digital PM Summit 2013
jponch
117
7.1k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
10
540
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
4
440
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Become a Pro
speakerdeck
PRO
26
5.2k
GraphQLの誤解/rethinking-graphql
sonatard
69
10k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年6月24日 絵本のテキストを対象とした 形態素解析 自然言語処理研究室 1
出典 絵本のテキストを対象とした形態素解析 藤田 早苗, 平 博順, 小林 哲生, 田中 貴秋
自然言語処理 Vol.21 (2014) No.3 P515-539 2
概要 主に新聞などのでは高い解析精度が得 られているが、異なる分野のでは得られ ないことがある。 提案手法として、言語資源を対象分野 の特徴に合わせて自動的に変換する。 本稿では絵本を対象として行った。 3
絵本 絵本は幼児の言語発達を支える重要な 一つであり、高い精度で解析できれば発 達心理学・教育支援に貢献できる。 絵本はわかりやすい文章になっているが、 既存の解析器ではうまく解析できないこと がある。 4
絵本を形態素解析 5
絵本を形態素解析 うまく解析できない理由として、形態素解 析器を作るときに用いられる学習データと、 解析対象(絵本)が大きく異なったから。 学習データと解析対象の分野が異なると、 形態素解析にかぎらず機械学習を用い る多くのタスクで精度が低下する。 6
本稿の手法 絵本の大量のコーパスは存在せず、教 師あり学習は適さない。 そこで既存の辞書やラベルありデータを対 象分野の特徴に合わせて自動的に変換 し、それを使って形態素解析モデルを構 築する教師なし分野適用手法を提案。 7
絵本データベース 本稿では絵本データベースを解析対象と する。 中にはファーストブック・絵本・月刊誌があ り、月刊誌は対象年齢がはっきりしている。 8
絵本と他コーパスの比較 9
絵本のアノテーションデータ 10 精度評価のために、絵本の一部に 正解の形態素区切り・品詞・読み・ 漢字表記を付与したデータを作成。 作業者の判断の揺れをなくすため 統一的に確認作業を行った。
形態素解析器 11 テキスト解析ツールキットKyTeaの 学習機能を利用した。 KyTeaは点予測を採用しており、周 囲の文字情報のみを利用しているた め柔軟に言語資源を利用できる。
ひらがなと空白の影響 形態素解析において、ひらがなと空白が どの様な影響を及ぼすか実験を行った。 12
ひらがなと空白の影響 形態素区切りと品詞が一致した数と割 合の結果を示す。 13
ラベルありデータの変換方法 絵本の解析には空白の働きを学習する ことと、ひらがなが多い文でも解析できる ことが必要。 14
辞書の変換方法 辞書にはNAIST・Lexeed・日本語語 彙体系の固有名詞と動植物名を利用し ている。 15
教師なし分野適応評価実験 変換した既存言語資源だけを学習に利 用して評価実験を行った。 16
教師なし分野適応評価実験 空白を追加したり、ひらがなに変換したテ キストを学習データに利用するだけで 25%も精度が向上した。 つまり、一般向けのテキストを学習データ に利用する場合でも絵本での出現傾向 に合わせて変換することで相当な精度向 上が得られた。 17
教師あり分野適応評価実験 アノテーションデータKODOMOを10分割 し、それらを徐々に学習データに追加した 場合の学習曲線を調べた。 教師なしで一番良い精度を得た学習 データをHINOKI-Bestし、この HINOKI-Bestと絵本を両方学習に利 用する場合と、絵本だけを学習に利用す る場合で実験を行った。 18
19
教師あり分野適応評価実験 全ての場合において、HINOKI-Bestに 絵本データを追加したほうが精度が良く なっている。 Randomの場合、絵本の学習データだ けでHINOKI-Bestと同等の精度を得る には、アノテーションデータ約11000行・ 90000形態素が必要となる。 これより提案手法の効果は高いと言える。 20
まとめ 既存の言語資源を絵本の特徴に合わせ て自動変換し、学習に用いることで精度 向上することを示した。 提案手法によって得た既存言語資源に よるラベルありデータは、絵本のラベルあり データ約11000行・90000形態素と同 程度の効果があり、非常に効果が高いこ とを示した。 21
ご視聴ありがとうございました 22