Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_3_絵本のテキストを対象とした形態素解析
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
MIKAMI-YUKI
June 24, 2015
Education
430
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介_3_絵本のテキストを対象とした形態素解析
MIKAMI-YUKI
June 24, 2015
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
140
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
350
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
140
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
100
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
110
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
120
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
160
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
420
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
600
Other Decks in Education
See All in Education
Virtual and Augmented Reality - Lecture 8 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
2.3k
教育現場から見た Ruby on Rails
yasslab
PRO
0
170
【セーフィー】テクニカルライティング&コミュニケーション実践講座(26新卒エンジニア向け研修資料)
ymzaki_m4
0
220
[2026前期火5] 論理学(京都大学文学部 前期 第4回)「 ならば(→)の導入と証明ネット」
yatabe
0
440
Laura Wilson - The Quarterly PR Pivot
laurawilsonbseo1
1
350
「機械学習と因果推論」入門 ③ 漸近効率な推定量と二重機械学習
masakat0
0
690
0506
cbtlibrary
0
190
SL AMIGOS 教育格差と私たちの取り組み - スリランカの支援学校への支援プロジェクト:リシンドゥ リオ 氏 (別府溝部学園短期大学 ビジネス観光コース 留学生):2720 Japan O.K. ロータリーEクラブ2026年4月6日卓話
2720japanoke
0
620
2026年度春学期 統計学 第6回 データの関係を知る(1)ー 相関関係 (2026. 5. 14)
akiraasano
PRO
0
120
From Participation to Outcomes
territorium
PRO
0
470
2026年度春学期 統計学 第4回 データを「分布」で見る (2026. 4. 30)
akiraasano
PRO
0
140
✅ レポート採点基準 / How Your Reports Are Assessed
yasslab
PRO
0
370
Featured
See All Featured
WCS-LA-2024
lcolladotor
0
630
Into the Great Unknown - MozCon
thekraken
41
2.6k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.5k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
160
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
180
It's Worth the Effort
3n
188
29k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Designing Experiences People Love
moore
143
24k
Reality Check: Gamification 10 Years Later
codingconduct
0
2.2k
First, design no harm
axbom
PRO
2
1.2k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年6月24日 絵本のテキストを対象とした 形態素解析 自然言語処理研究室 1
出典 絵本のテキストを対象とした形態素解析 藤田 早苗, 平 博順, 小林 哲生, 田中 貴秋
自然言語処理 Vol.21 (2014) No.3 P515-539 2
概要 主に新聞などのでは高い解析精度が得 られているが、異なる分野のでは得られ ないことがある。 提案手法として、言語資源を対象分野 の特徴に合わせて自動的に変換する。 本稿では絵本を対象として行った。 3
絵本 絵本は幼児の言語発達を支える重要な 一つであり、高い精度で解析できれば発 達心理学・教育支援に貢献できる。 絵本はわかりやすい文章になっているが、 既存の解析器ではうまく解析できないこと がある。 4
絵本を形態素解析 5
絵本を形態素解析 うまく解析できない理由として、形態素解 析器を作るときに用いられる学習データと、 解析対象(絵本)が大きく異なったから。 学習データと解析対象の分野が異なると、 形態素解析にかぎらず機械学習を用い る多くのタスクで精度が低下する。 6
本稿の手法 絵本の大量のコーパスは存在せず、教 師あり学習は適さない。 そこで既存の辞書やラベルありデータを対 象分野の特徴に合わせて自動的に変換 し、それを使って形態素解析モデルを構 築する教師なし分野適用手法を提案。 7
絵本データベース 本稿では絵本データベースを解析対象と する。 中にはファーストブック・絵本・月刊誌があ り、月刊誌は対象年齢がはっきりしている。 8
絵本と他コーパスの比較 9
絵本のアノテーションデータ 10 精度評価のために、絵本の一部に 正解の形態素区切り・品詞・読み・ 漢字表記を付与したデータを作成。 作業者の判断の揺れをなくすため 統一的に確認作業を行った。
形態素解析器 11 テキスト解析ツールキットKyTeaの 学習機能を利用した。 KyTeaは点予測を採用しており、周 囲の文字情報のみを利用しているた め柔軟に言語資源を利用できる。
ひらがなと空白の影響 形態素解析において、ひらがなと空白が どの様な影響を及ぼすか実験を行った。 12
ひらがなと空白の影響 形態素区切りと品詞が一致した数と割 合の結果を示す。 13
ラベルありデータの変換方法 絵本の解析には空白の働きを学習する ことと、ひらがなが多い文でも解析できる ことが必要。 14
辞書の変換方法 辞書にはNAIST・Lexeed・日本語語 彙体系の固有名詞と動植物名を利用し ている。 15
教師なし分野適応評価実験 変換した既存言語資源だけを学習に利 用して評価実験を行った。 16
教師なし分野適応評価実験 空白を追加したり、ひらがなに変換したテ キストを学習データに利用するだけで 25%も精度が向上した。 つまり、一般向けのテキストを学習データ に利用する場合でも絵本での出現傾向 に合わせて変換することで相当な精度向 上が得られた。 17
教師あり分野適応評価実験 アノテーションデータKODOMOを10分割 し、それらを徐々に学習データに追加した 場合の学習曲線を調べた。 教師なしで一番良い精度を得た学習 データをHINOKI-Bestし、この HINOKI-Bestと絵本を両方学習に利 用する場合と、絵本だけを学習に利用す る場合で実験を行った。 18
19
教師あり分野適応評価実験 全ての場合において、HINOKI-Bestに 絵本データを追加したほうが精度が良く なっている。 Randomの場合、絵本の学習データだ けでHINOKI-Bestと同等の精度を得る には、アノテーションデータ約11000行・ 90000形態素が必要となる。 これより提案手法の効果は高いと言える。 20
まとめ 既存の言語資源を絵本の特徴に合わせ て自動変換し、学習に用いることで精度 向上することを示した。 提案手法によって得た既存言語資源に よるラベルありデータは、絵本のラベルあり データ約11000行・90000形態素と同 程度の効果があり、非常に効果が高いこ とを示した。 21
ご視聴ありがとうございました 22