Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストコーパスを用いた漢字詳細読みの自動生成
Search
kakubari
March 09, 2017
Technology
0
170
テキストコーパスを用いた漢字詳細読みの自動生成
長岡技術科学大学
自然言語処理研究室
学部3年 角張竜晴
kakubari
March 09, 2017
Tweet
Share
More Decks by kakubari
See All by kakubari
動詞クエリの語間の関係性に基づくクエリマイニング
kakubari
0
110
Neural Modeling of Multi-Predicate Interactions for Japanese Predicate Argument Structure Analysis
kakubari
1
150
Leveraging Crowdsourcing for Paraphrase Recognition
kakubari
0
78
Automatically Acquired Lexical Knowledge Improves Japanese Joint Morphological and Dependency Analysis
kakubari
0
99
Labeling the Semantic Roles of Commas
kakubari
0
71
Integrating Case Frame into Japanese to Chinese Hierarchical Phrase-based Translation Model
kakubari
0
110
Improving Chinese Semantic Role Labelingusing High-quality Surface and Deep Case Frames
kakubari
0
87
Exploring Verb Frames for Sentence Simplification in Hindi
kakubari
0
120
述語項構造と照応関係のアノテーション
kakubari
0
220
Other Decks in Technology
See All in Technology
Amazon Qで2Dゲームを作成してみた
siromi
0
130
S3 Glacier のデータを Athena からクエリしようとしたらどうなるのか/try-to-query-s3-glacier-from-athena
emiki
0
210
いかにして命令の入れ替わりについて心配するのをやめ、メモリモデルを愛するようになったか(改)
nullpo_head
7
2.5k
「AIと一緒にやる」が当たり前になるまでの奮闘記
kakehashi
PRO
3
120
VLMサービスを用いた請求書データ化検証 / SaaSxML_Session_1
sansan_randd
0
240
MCP認可の現在地と自律型エージェント対応に向けた課題 / MCP Authorization Today and Challenges to Support Autonomous Agents
yokawasa
5
2.2k
専門分化が進む分業下でもユーザーが本当に欲しかったものを追求するプロダクトマネジメント/Focus on real user needs despite deep specialization and division of labor
moriyuya
1
1.3k
AIに目を奪われすぎて、周りの困っている人間が見えなくなっていませんか?
cap120
1
540
AIのグローバルトレンド 2025 / ai global trend 2025
kyonmm
PRO
1
140
リリース2ヶ月で収益化した話
kent_code3
1
240
「Roblox」の開発環境とその効率化 ~DAU9700万人超の巨大プラットフォームの開発 事始め~
keitatanji
0
120
LLM 機能を支える Langfuse / ClickHouse のサーバレス化
yuu26
9
1.5k
Featured
See All Featured
We Have a Design System, Now What?
morganepeng
53
7.7k
Fireside Chat
paigeccino
38
3.6k
A Tale of Four Properties
chriscoyier
160
23k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Visualization
eitanlees
146
16k
Practical Orchestrator
shlominoach
190
11k
KATA
mclloyd
32
14k
Git: the NoSQL Database
bkeepers
PRO
431
65k
Building Adaptive Systems
keathley
43
2.7k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
1k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
Transcript
Ԭ ٕ ज़ Պ ֶ େ ֶ ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ ֶ ෦ ֯ ு ཽ テキストコーパスを用いた漢字詳細読みの自動生成 川崎 博章, 笹野 遼平, 高村 大也, 奥村 学 ใॲཧֶձจࢽʢδϟʔφϧʣ ɹ7PMɹ/Pɹ %FD ਤදจΑΓҾ༻
概要 ˔εΫϦʔϯϦʔμͷࣈৄࡉಡΈͰɺԻʹΑΔઆ໌ͩ ͚ͰϢʔβʹࣈΛਖ਼͘͠ىͤ͞Δɻ ɹଟ͘ͷࣈʹಉԻҟࣈ͕ଘࡏ͍ͯ͠Δɻ ɾҰൠతʹɺlίχϡzͱ͍͏ಡΈͷࣈɺ ɹlߪೖz͔͠ͳ͍ͨΊɺlߪzlίχϡͷίzͰى Ͱ͖Δ ɾlίόΠzͱ͍͏ಡΈͷࣈɺlޯzlެചz͕ଘ ࡏ͢ΔͨΊ ɹlίόΠͷίz͔Βlߪz͕ى͠ʹ͍͘
ɹ ಉԻҟࣈͷใͱ୯ޠͷີΛߟྀʹೖΕͨίʔύεΛ ༻͍ͨࣈৄࡉಡΈͷࣗಈੜΛఏҊ
概要 ˔Θ͔ͬͨ͜ͱ ΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ੜ͞ΕΔࣈৄࡉಡΈͷ͞ΛطଘͷεΫϦʔϯ Ϧʔμͱಉఔʹ͍͑ͯΔ ࣗಈੜ͞ΕͨࣈৄࡉಡΈͷੑೳ͕طଘͷͷΑ Γߴ͍
はじめに ˔ຊޠʹฏԾ໊ɺยԾ໊ɺࣈͷ̏छྨ ɹɾฏԾ໊ͱยԾ໊̍ͭͷԻʹ̍ͭͷจࣈ ɹɾࣈಉԻҟࣈ͕ଘࡏ ࣈͷಡΈͷΈͰઆ໌͢Δͱɺᐆດੑ͕ଘࡏ͢Δ ͦͷͨΊɺઆ໌ରͷࣈͷԻಡΈ܇ಡΈɺߏཁ ૉͳಛ͕ར༻͞ΕΔɻ
はじめに ˔େنςΩετίʔύεΛར༻ͨ͠ࣈৄࡉಡΈͷ ࣗಈੜ๏ͷఏҊ ɾޠͷີ ɾಉԻҟࣈͷग़ݱʹؔ͢Δใ ˔ࣗಈԻҊΛ͏νέοτ༧γεςϜͰͷར༻ ɾΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ɾࣈىͷͨΊʹॏཁͳใΛૣΊʹग़ྗ͠ɺϢʔ βͷཁٻʹԠͯ͡ඞཁͳใΛՃ͍ͯ͘͠ߏ
従来の漢字詳細読みの分類 λΠϓ̍ɹରͷࣈΛؚΉ୯ޠͱͦͷಡΈ lίόΠʢߪങʣͷίz lߪz lώϣΧʢධՁʣͷΧz lՁz
λΠϓ̎ɹରͷࣈ͕ಠಛͳಡΈ lαΫϥʢࡩʣz lࡩz lϑλλϏʢ࠶ͼʣ αΠʢ࠶ʣz l࠶z λΠϓ̏ɹରࣈͷಛͱͦͷಡΈ lαϯζΠͷΧϫz lՏz lΧϯεδͷΠνz lҰz ຊจͰɺ౷ܭใΛར༻͢Δ͜ͱʹΑΓى͕ߴ ͍ࣈৄࡉಡΈͷੜ͕ՄೳͰ͋ΔλΠϓ̍ͰࢼΈΔɻ
既存の漢字詳細読みの問題点 ཁҼ̍ ɹlνϤΨϛͷϤzͱ͍͏ࣈৄࡉಡΈͰ༻͍ΒΕ͍ͯΔlઍࢴzͷΑ ͏ͳ͍ີͷ୯ޠͷଘࡏ ཁҼ̎ ɹlߪങzͱlޯzͷΑ͏ͳಉԻҟࣈͷଘࡏ ཁҼ̏ ɹlྤzͷΑ͏ͳ͍͠ࣈͷଘࡏ ཁҼ̍ͱཁҼ̎ɺࣈৄࡉಡΈͰ࠷దͳ୯ޠΛ༻͍Δ͜ͱͰରԠ
Ͱ͖Δͱߟ͑ΒΕΔɻཁҼ̏ະͷࣈΛى͢Δ͜ͱඇৗʹࠔ Ͱ͋Δɻ ࣈৄࡉಡΈʹΑΔରࣈͷىͷ্Λతͱ͠ɺཁҼ̍ͱ ཁҼ̎ʹযΛͯΔɻ
漢字詳細読みの自動生成 ˔̎ஈ֊Ͱߏ͞ΕΔࣈৄࡉಡΈͷࣗಈੜ๏ ɾୈ̍ஈ֊ͰlରͷࣈΛؚΉ୯ޠͱͦͷಡΈz ɹͦͷ͏͑ͰɺϢʔβ͕̍ͭͷࣈΛىͰ͖ͳ͍ ߹ʹୈ̎ஈ֊Ҡߦ͢Δɻ ɾୈ̎ஈ֊ͰɺΠϯλϥΫςΟϒʹ̎ͭͷผͷ ࣈৄࡉಡΈ
漢字詳細読みの自動生成 図1 提案システムの概要
第1段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭରͷࣈ ΛؚΉ୯ޠΛநग़͢ΔɻͦͷࡍɺlߴߍzͳͲͷରͷ ࣈͷಡΈΛෳ࣋ͭ୯ޠআ֎ɻ ᶄ֤୯ޠʹର͠ɺείΞΛҎԼͷࣜᾇΑΓܭࢉ͢Δɻ
第1段階の漢字詳細読み生成法 ᶅ࠷ߴ͍είΞͱͳΔ୯ޠΛ༻͍ͯɺࣈৄࡉಡΈ Λੜ͢Δɻੜͷࡍʹɺબͨ͠୯ޠͷಡΈͱɺͦ ͷ୯ޠதͷରͷࣈͷಡΈΛར༻͢Δɻ ࣜᾇͷЋ͕ ЋͰ͋Δͱɺີ߹͍ ЋͰ͋ΔͱɺಉԻҟࣈͷগͳ͞ Λॏཁࢹ͍ͯ͠Δɻ
第2段階の漢字詳細読み生成法 ɹୈ̍ஈ֊ͰɺରࣈΛؚΉ୯ޠ͕શͯಉԻҟࣈΛ࣋ ͭ߹ɺͦͷࣈΛಛఆͰ͖ΔࣈৄࡉಡΈΛੜ͢Δ͜ ͱ͕Ͱ͖ͳ͍ɻ ྫ͑ʜɹlՊz Ұൠతͳ୯ޠɹlՊֶzlڭՊzɺl୯Պz lՊֶzʹlԽֶz lڭՊzʹlڧԽz l୯ՊzʹlԽzl୯Ձz
ୈ̎ஈ֊Ͱɺୈ̍ஈ֊ͷ݁ՌͱΈ߹ΘͤΔ͜ͱͰɺ ࣈΛىͤ͞Δɻ
第2段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭઆ໌͍ͨ͠ ࣈΛؚΉ୯ޠΛநग़͢Δɻ ᶄநग़ͨ͠୯ޠͷͯ͢ʹείΞΛ͚ͭΔɻ
第2段階の漢字詳細読み生成法 ᶅ࠷ߴ͍είΞͷ୯ޠΛબͨ͠ޙɺ୯ޠX ͱX Λ༻͍ͯࣈৄࡉಡΈΛੜ͢Δɻ ɹࣈͷ֤߹ͤΛى͢Δ߹͍ɺͦͷ߹ͤʹ ؚ·ΕΔ̎୯ޠͷ͏ͪີͷ͍୯ޠͷग़ݱස NJO
D X D X ʹൺྫ͢Δͱߟ͑Δɻ ɹΑͬͯɺରࣈʹର͢ΔͦͷසΛɺશީิͷͦ ͷසͷͰׂͬͨΛىՄೳͳࣈͷᐆດੑͷগ ͳ͞ͱͯ͠༻͍ͯ͠Δɻ
実験 ˔࣮ݧઃఆ (PPHMFຊޠ/άϥϜίʔύε ಡച৽ฉίʔύε ݱຊޠॻ͖ݴ༿ۉߧίʔύε ɹ.F$BCΛ༻͍ͯɺ୯ޠׂͨ݁͠ՌΛఏҊख๏Ͱ
༻͍͍ͯΔ 1$5BMLFS91ɿൺֱରͷεΫϦʔϯϦʔμ
実験 ࣈৄࡉಡΈͷੑೳʹযΛͯΔͨΊɺ࣮ݧͰ (PPHMFίʔύεதʹݱΕΔग़ݱස্Ґޠͷ ࣈΛ༻͍ͨɻ ཁҼ̏ʹΑΔ͍͠ࣈͷଘࡏʹىҼ͢ΔΤϥʔΛ ͳΔ͘ແࢹ͢Δɻ ɹ্هݸͷࣈͷ߹ܭग़ݱසશग़ݱࣈͷ Ҏ্ΛΊ͍ͯΔͨΊɺ࣮༻্ͷ؍͔Βे
3つのコーパスの比較 ˔ఏҊख๏ʹదͨ͠ίʔύεΛௐࠪ ɹఏҊख๏λΠϓ̍Ͱࣗಈੜ͢ΔͨΊɺ͜ΕΒͷ ࣈৄࡉಡΈΛൺֱ͢Δɻ ɹͦͷͨΊʹɺग़ݱස্Ґݸͷࣈ͔Β1$ 5BMLFS91ʹΑΔࣈৄࡉಡΈ͕λΠϓ̍Ҏ֎ͷࣈ আ֎͠ɺͬͨݸͷࣈ͔Βແ࡞ҝʹ̍ݸ ͷࣈΛධՁͷͨΊʹબΜͩɻ
3つのコーパスの比較 ˔ධՁ ࣈৄࡉಡΈΛࢴʹҹࣈ͠ɺແ࡞ҝʹࠞͥɺ̔ਓͷ ධՁऀʹఏࣔ͢Δɻ ֤ࣈʹର͠ɺ̐ͭͷࣈৄࡉಡΈ͕ଘࡏ͢ΔͷͰɺ ֤ࣈৄࡉಡΈΛ̎ਓ͕ධՁ͢Δɻ ຊ࣮ݧͰɺࣈͷىͷՄ൱ʹΑΓධՁͨ͠ɻ
ɹBɿࣈΛى͠ɺਖ਼ղ ɹCɿࣈΛى͕ͨ͠ɺෆਖ਼ղ ɹDɿࣈΛى͠ͳ͔ͬͨɻ
実験結果 ˔ىʢ*3ʣ ɾ#$$8+Λ༻͍ͨख๏ͱ1$5BMLFS91͕࠷ߴ͍ ىΛୡ͍ͯ͠Δɻ ఏҊख๏Ͱ#$$8+Λ༻͍Δ 表1 3つのコーパスの比較の結果
提案手法とスクリーンリーダの比較 ˔ఏҊख๏Ͱ#$$8+͔Βੜͨ͠ࣈৄࡉಡΈΛλΠ ϓ̍Ͱग़ྗ͢Δɻ ˔༻͢Δࣈग़ݱස্Ґݸ͔Βແ࡞ҝʹ ݸͷࣈΛநग़ͨ͠ɻ ˔1$5BMLFS91શମͱͷൺֱΛߦ͏ͨΊʹɺεΫϦʔϯ Ϧʔμͷग़ྗλΠϓ̍ʹݶΒͳ͔ͬͨɻ
˔ͦΕͧΕͷ݁ՌΛݸͣͭΛਓͰධՁ͢Δɻ ɹ֤ৄࡉಡΈਓʹΑΓධՁ͞ΕΔɻ
提案手法とスクリーンリーダの比較 ˔ఏҊख๏ʹ͍ͭͯҎԼͷ̑ͭͷબࢶ͔Βɺదͳ ͷΛ̍ͭબΜͰΒ͏ɻ ɾୈ̍ஈ֊ͷࣈৄࡉಡΈͷΈΛΈͯɺ̍ͭͷࣈΛى ͨ͠ɻ Bɿਖ਼ղͩͬͨ Cɿෆਖ਼ղͩͬͨ ɾୈ̎ஈ֊ͷࣈৄࡉ·ͰΈͯɺ̍ͭͷࣈΛىͨ͠ɻ B`ɿਖ਼ղͩͬͨ C`ɿෆਖ਼ղͩͬͨ
DɿࣈΛى͢Δ͜ͱ͕Ͱ͖ͳ͔ͬͨ
提案手法とスクリーンリーダの比較 ˔1$5BMLFS91ʹ͍ͭͯ̏ͭͷબࢶ͔Βɺద ͳͷΛ̍ͭબΜͰΒ͏ ɹBɿᐆດੑͳ̍ͭ͘ͷࣈΛى͠ɺਖ਼ղ ɹCɿᐆດੑͳ̍ͭ͘ͷࣈΛى͕ͨ͠ɺෆਖ਼ղ ɹDɿࣈ̍ͭΛى͠ͳ͔ͬͨ
実験結果 ˔ද̍ΑΓى͕͘ͳͬͨཧ༝ ɾλΠϓ̍ʹద͍ͯ͠ͳ͍ࣈλΠϓ̍Ͱग़ྗ͞Ε ͨՄೳੑ͕͋Δɻ ˔γεςϜશମͰɺεΫϦʔϯϦʔμΑΓى ͕ߴ͘ੑೳ͕ߴ͍ɻ 表4 提案システムとスクリーンリーダの比較結果
実験結果 ˔ఏҊख๏Ͱɺୈ̎ஈ֊·Ͱදࣔ͢Δͱɺࣈৄࡉ ಡΈͷग़ྗ͕͘ͳΔɻ ͕ͩɺඞͣ͠ୈ̎ஈ֊·ͰݟΔඞཁͳ͍ ࣮ࡍɺධՁऀ͕ݟͨจࣈఏҊख๏ͷํ͕͍ 表5 漢字詳細読みの平均文字数
出力例 表6 BCCWJを用いて提案システムが生成した漢字詳細読みと PC-Talker XPによる出力の例とその評価
まとめ ʻ·ͱΊʼ ˔ࣈͷີͱಉԻҟࣈͷใΛߟྀʹೖΕͨɺςΩετ ίʔύεΛ༻͍ͨࣈৄࡉಡΈͷࣗಈੜ๏ΛఏҊ ˔ఏҊख๏ʹΑΓੜ͞ΕͨࣈৄࡉಡΈ͕ɺεΫϦʔϯ Ϧʔμʹࡌ͞Ε͍ͯΔͷΑΓੑೳ͕ߴ͍ ʻࠓޙͷ՝ʼ ˔ൃԻใͷऔΓೖΕ
˔୯ޠ୯Ґͷઆ໌ಡΈͷੜ