Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_3_絵本のテキストを対象とした形態素解析
Search
MIKAMI-YUKI
June 24, 2015
Education
1
420
文献紹介_3_絵本のテキストを対象とした形態素解析
MIKAMI-YUKI
June 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
340
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
99
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
590
Other Decks in Education
See All in Education
あなたの言葉に力を与える、演繹的なアプローチ
logica0419
1
210
Présentation_2nde_2025.pdf
bernhardsvt
0
280
ROSConJP 2025 発表スライド
f0reacharr
0
250
Evaluation Methods - Lecture 6 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.1k
JavaScript - Lecture 6 - Web Technologies (1019888BNR)
signer
PRO
0
3k
ÉTICA, INCLUSIÓN, EDUCACIÓN INTEGRAL Y NEURODERECHOS EN EL CONTEXTO DEL NEUROMANAGEMENT
jvpcubias
0
120
Design Guidelines and Models - Lecture 5 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.1k
中央教育審議会 教育課程企画特別部会 情報・技術ワーキンググループに向けた提言 ー次期学習指導要領での情報活用能力の抜本的向上に向けてー
codeforeveryone
0
360
【ZEPメタバース校舎操作ガイド】
ainischool
0
420
QR-koodit opetuksessa
matleenalaakso
0
1.7k
Introduction - Lecture 1 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
2.6k
相互コミュニケーションの難しさ
masakiokuda
0
290
Featured
See All Featured
Optimizing for Happiness
mojombo
379
70k
Rails Girls Zürich Keynote
gr2m
95
14k
The Invisible Side of Design
smashingmag
302
51k
Building Flexible Design Systems
yeseniaperezcruz
329
39k
Code Review Best Practice
trishagee
72
19k
Building a Modern Day E-commerce SEO Strategy
aleyda
44
7.9k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
190
55k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
650
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
2.9k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
31
2.7k
It's Worth the Effort
3n
187
28k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年6月24日 絵本のテキストを対象とした 形態素解析 自然言語処理研究室 1
出典 絵本のテキストを対象とした形態素解析 藤田 早苗, 平 博順, 小林 哲生, 田中 貴秋
自然言語処理 Vol.21 (2014) No.3 P515-539 2
概要 主に新聞などのでは高い解析精度が得 られているが、異なる分野のでは得られ ないことがある。 提案手法として、言語資源を対象分野 の特徴に合わせて自動的に変換する。 本稿では絵本を対象として行った。 3
絵本 絵本は幼児の言語発達を支える重要な 一つであり、高い精度で解析できれば発 達心理学・教育支援に貢献できる。 絵本はわかりやすい文章になっているが、 既存の解析器ではうまく解析できないこと がある。 4
絵本を形態素解析 5
絵本を形態素解析 うまく解析できない理由として、形態素解 析器を作るときに用いられる学習データと、 解析対象(絵本)が大きく異なったから。 学習データと解析対象の分野が異なると、 形態素解析にかぎらず機械学習を用い る多くのタスクで精度が低下する。 6
本稿の手法 絵本の大量のコーパスは存在せず、教 師あり学習は適さない。 そこで既存の辞書やラベルありデータを対 象分野の特徴に合わせて自動的に変換 し、それを使って形態素解析モデルを構 築する教師なし分野適用手法を提案。 7
絵本データベース 本稿では絵本データベースを解析対象と する。 中にはファーストブック・絵本・月刊誌があ り、月刊誌は対象年齢がはっきりしている。 8
絵本と他コーパスの比較 9
絵本のアノテーションデータ 10 精度評価のために、絵本の一部に 正解の形態素区切り・品詞・読み・ 漢字表記を付与したデータを作成。 作業者の判断の揺れをなくすため 統一的に確認作業を行った。
形態素解析器 11 テキスト解析ツールキットKyTeaの 学習機能を利用した。 KyTeaは点予測を採用しており、周 囲の文字情報のみを利用しているた め柔軟に言語資源を利用できる。
ひらがなと空白の影響 形態素解析において、ひらがなと空白が どの様な影響を及ぼすか実験を行った。 12
ひらがなと空白の影響 形態素区切りと品詞が一致した数と割 合の結果を示す。 13
ラベルありデータの変換方法 絵本の解析には空白の働きを学習する ことと、ひらがなが多い文でも解析できる ことが必要。 14
辞書の変換方法 辞書にはNAIST・Lexeed・日本語語 彙体系の固有名詞と動植物名を利用し ている。 15
教師なし分野適応評価実験 変換した既存言語資源だけを学習に利 用して評価実験を行った。 16
教師なし分野適応評価実験 空白を追加したり、ひらがなに変換したテ キストを学習データに利用するだけで 25%も精度が向上した。 つまり、一般向けのテキストを学習データ に利用する場合でも絵本での出現傾向 に合わせて変換することで相当な精度向 上が得られた。 17
教師あり分野適応評価実験 アノテーションデータKODOMOを10分割 し、それらを徐々に学習データに追加した 場合の学習曲線を調べた。 教師なしで一番良い精度を得た学習 データをHINOKI-Bestし、この HINOKI-Bestと絵本を両方学習に利 用する場合と、絵本だけを学習に利用す る場合で実験を行った。 18
19
教師あり分野適応評価実験 全ての場合において、HINOKI-Bestに 絵本データを追加したほうが精度が良く なっている。 Randomの場合、絵本の学習データだ けでHINOKI-Bestと同等の精度を得る には、アノテーションデータ約11000行・ 90000形態素が必要となる。 これより提案手法の効果は高いと言える。 20
まとめ 既存の言語資源を絵本の特徴に合わせ て自動変換し、学習に用いることで精度 向上することを示した。 提案手法によって得た既存言語資源に よるラベルありデータは、絵本のラベルあり データ約11000行・90000形態素と同 程度の効果があり、非常に効果が高いこ とを示した。 21
ご視聴ありがとうございました 22