Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_3_絵本のテキストを対象とした形態素解析
Search
MIKAMI-YUKI
June 24, 2015
Education
1
420
文献紹介_3_絵本のテキストを対象とした形態素解析
MIKAMI-YUKI
June 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
340
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
100
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
590
Other Decks in Education
See All in Education
あなたの言葉に力を与える、演繹的なアプローチ
logica0419
1
250
仏教の源流からの奈良県中南和_奈良まほろば館‗飛鳥・藤原DAO/asuka-fujiwara_Saraswati
tkimura12
0
170
NUTMEG紹介スライド
mugiiicha
0
620
Evaluation Methods - Lecture 6 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.2k
1021
cbtlibrary
0
370
Master of Applied Science & Engineering: Computer Science & Master of Science in Applied Informatics: Artificial Intelligence and Data Science
signer
PRO
0
870
1014
cbtlibrary
0
500
Adobe Express
matleenalaakso
1
8.1k
核軍備撤廃に向けた次の大きな一歩─核兵器を先には使わないと核保有国が約束すること
hide2kano
0
190
1125
cbtlibrary
0
140
TeXで変える教育現場
doratex
0
5.7k
Software
irocho
0
650
Featured
See All Featured
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
110
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
The Invisible Side of Design
smashingmag
302
51k
The Language of Interfaces
destraynor
162
25k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.7k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
170
Odyssey Design
rkendrick25
PRO
0
430
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
29
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
38
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
60
38k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.1k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年6月24日 絵本のテキストを対象とした 形態素解析 自然言語処理研究室 1
出典 絵本のテキストを対象とした形態素解析 藤田 早苗, 平 博順, 小林 哲生, 田中 貴秋
自然言語処理 Vol.21 (2014) No.3 P515-539 2
概要 主に新聞などのでは高い解析精度が得 られているが、異なる分野のでは得られ ないことがある。 提案手法として、言語資源を対象分野 の特徴に合わせて自動的に変換する。 本稿では絵本を対象として行った。 3
絵本 絵本は幼児の言語発達を支える重要な 一つであり、高い精度で解析できれば発 達心理学・教育支援に貢献できる。 絵本はわかりやすい文章になっているが、 既存の解析器ではうまく解析できないこと がある。 4
絵本を形態素解析 5
絵本を形態素解析 うまく解析できない理由として、形態素解 析器を作るときに用いられる学習データと、 解析対象(絵本)が大きく異なったから。 学習データと解析対象の分野が異なると、 形態素解析にかぎらず機械学習を用い る多くのタスクで精度が低下する。 6
本稿の手法 絵本の大量のコーパスは存在せず、教 師あり学習は適さない。 そこで既存の辞書やラベルありデータを対 象分野の特徴に合わせて自動的に変換 し、それを使って形態素解析モデルを構 築する教師なし分野適用手法を提案。 7
絵本データベース 本稿では絵本データベースを解析対象と する。 中にはファーストブック・絵本・月刊誌があ り、月刊誌は対象年齢がはっきりしている。 8
絵本と他コーパスの比較 9
絵本のアノテーションデータ 10 精度評価のために、絵本の一部に 正解の形態素区切り・品詞・読み・ 漢字表記を付与したデータを作成。 作業者の判断の揺れをなくすため 統一的に確認作業を行った。
形態素解析器 11 テキスト解析ツールキットKyTeaの 学習機能を利用した。 KyTeaは点予測を採用しており、周 囲の文字情報のみを利用しているた め柔軟に言語資源を利用できる。
ひらがなと空白の影響 形態素解析において、ひらがなと空白が どの様な影響を及ぼすか実験を行った。 12
ひらがなと空白の影響 形態素区切りと品詞が一致した数と割 合の結果を示す。 13
ラベルありデータの変換方法 絵本の解析には空白の働きを学習する ことと、ひらがなが多い文でも解析できる ことが必要。 14
辞書の変換方法 辞書にはNAIST・Lexeed・日本語語 彙体系の固有名詞と動植物名を利用し ている。 15
教師なし分野適応評価実験 変換した既存言語資源だけを学習に利 用して評価実験を行った。 16
教師なし分野適応評価実験 空白を追加したり、ひらがなに変換したテ キストを学習データに利用するだけで 25%も精度が向上した。 つまり、一般向けのテキストを学習データ に利用する場合でも絵本での出現傾向 に合わせて変換することで相当な精度向 上が得られた。 17
教師あり分野適応評価実験 アノテーションデータKODOMOを10分割 し、それらを徐々に学習データに追加した 場合の学習曲線を調べた。 教師なしで一番良い精度を得た学習 データをHINOKI-Bestし、この HINOKI-Bestと絵本を両方学習に利 用する場合と、絵本だけを学習に利用す る場合で実験を行った。 18
19
教師あり分野適応評価実験 全ての場合において、HINOKI-Bestに 絵本データを追加したほうが精度が良く なっている。 Randomの場合、絵本の学習データだ けでHINOKI-Bestと同等の精度を得る には、アノテーションデータ約11000行・ 90000形態素が必要となる。 これより提案手法の効果は高いと言える。 20
まとめ 既存の言語資源を絵本の特徴に合わせ て自動変換し、学習に用いることで精度 向上することを示した。 提案手法によって得た既存言語資源に よるラベルありデータは、絵本のラベルあり データ約11000行・90000形態素と同 程度の効果があり、非常に効果が高いこ とを示した。 21
ご視聴ありがとうございました 22