Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストコーパスを用いた漢字詳細読みの自動生成
Search
kakubari
March 09, 2017
Technology
0
170
テキストコーパスを用いた漢字詳細読みの自動生成
長岡技術科学大学
自然言語処理研究室
学部3年 角張竜晴
kakubari
March 09, 2017
Tweet
Share
More Decks by kakubari
See All by kakubari
動詞クエリの語間の関係性に基づくクエリマイニング
kakubari
0
120
Neural Modeling of Multi-Predicate Interactions for Japanese Predicate Argument Structure Analysis
kakubari
1
180
Leveraging Crowdsourcing for Paraphrase Recognition
kakubari
0
97
Automatically Acquired Lexical Knowledge Improves Japanese Joint Morphological and Dependency Analysis
kakubari
0
110
Labeling the Semantic Roles of Commas
kakubari
0
91
Integrating Case Frame into Japanese to Chinese Hierarchical Phrase-based Translation Model
kakubari
0
120
Improving Chinese Semantic Role Labelingusing High-quality Surface and Deep Case Frames
kakubari
0
94
Exploring Verb Frames for Sentence Simplification in Hindi
kakubari
0
140
述語項構造と照応関係のアノテーション
kakubari
0
250
Other Decks in Technology
See All in Technology
Claude_CodeでSEOを最適化する_AI_Ops_Community_Vol.2__マーケティングx_AIはここまで進化した.pdf
riku_423
2
610
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
130
日本の85%が使う公共SaaSは、どう育ったのか
taketakekaho
1
250
Oracle Cloud Observability and Management Platform - OCI 運用監視サービス概要 -
oracle4engineer
PRO
2
14k
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
15
93k
茨城の思い出を振り返る ~CDKのセキュリティを添えて~ / 20260201 Mitsutoshi Matsuo
shift_evolve
PRO
1
430
マネージャー視点で考えるプロダクトエンジニアの評価 / Evaluating Product Engineers from a Manager's Perspective
hiro_torii
0
190
生成AIと余白 〜開発スピードが向上した今、何に向き合う?〜
kakehashi
PRO
0
170
Exadata Fleet Update
oracle4engineer
PRO
0
1.1k
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
520
M&A 後の統合をどう進めるか ─ ナレッジワーク × Poetics が実践した組織とシステムの融合
kworkdev
PRO
1
520
Webhook best practices for rock solid and resilient deployments
glaforge
2
310
Featured
See All Featured
Being A Developer After 40
akosma
91
590k
The Curious Case for Waylosing
cassininazir
0
240
Site-Speed That Sticks
csswizardry
13
1.1k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
130
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
120
Ethics towards AI in product and experience design
skipperchong
2
200
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
380
For a Future-Friendly Web
brad_frost
182
10k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
310
Ruling the World: When Life Gets Gamed
codingconduct
0
150
Rebuilding a faster, lazier Slack
samanthasiow
85
9.4k
[SF Ruby Conf 2025] Rails X
palkan
1
760
Transcript
Ԭ ٕ ज़ Պ ֶ େ ֶ ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ ֶ ෦ ֯ ு ཽ テキストコーパスを用いた漢字詳細読みの自動生成 川崎 博章, 笹野 遼平, 高村 大也, 奥村 学 ใॲཧֶձจࢽʢδϟʔφϧʣ ɹ7PMɹ/Pɹ %FD ਤදจΑΓҾ༻
概要 ˔εΫϦʔϯϦʔμͷࣈৄࡉಡΈͰɺԻʹΑΔઆ໌ͩ ͚ͰϢʔβʹࣈΛਖ਼͘͠ىͤ͞Δɻ ɹଟ͘ͷࣈʹಉԻҟࣈ͕ଘࡏ͍ͯ͠Δɻ ɾҰൠతʹɺlίχϡzͱ͍͏ಡΈͷࣈɺ ɹlߪೖz͔͠ͳ͍ͨΊɺlߪzlίχϡͷίzͰى Ͱ͖Δ ɾlίόΠzͱ͍͏ಡΈͷࣈɺlޯzlެചz͕ଘ ࡏ͢ΔͨΊ ɹlίόΠͷίz͔Βlߪz͕ى͠ʹ͍͘
ɹ ಉԻҟࣈͷใͱ୯ޠͷີΛߟྀʹೖΕͨίʔύεΛ ༻͍ͨࣈৄࡉಡΈͷࣗಈੜΛఏҊ
概要 ˔Θ͔ͬͨ͜ͱ ΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ੜ͞ΕΔࣈৄࡉಡΈͷ͞ΛطଘͷεΫϦʔϯ Ϧʔμͱಉఔʹ͍͑ͯΔ ࣗಈੜ͞ΕͨࣈৄࡉಡΈͷੑೳ͕طଘͷͷΑ Γߴ͍
はじめに ˔ຊޠʹฏԾ໊ɺยԾ໊ɺࣈͷ̏छྨ ɹɾฏԾ໊ͱยԾ໊̍ͭͷԻʹ̍ͭͷจࣈ ɹɾࣈಉԻҟࣈ͕ଘࡏ ࣈͷಡΈͷΈͰઆ໌͢Δͱɺᐆດੑ͕ଘࡏ͢Δ ͦͷͨΊɺઆ໌ରͷࣈͷԻಡΈ܇ಡΈɺߏཁ ૉͳಛ͕ར༻͞ΕΔɻ
はじめに ˔େنςΩετίʔύεΛར༻ͨ͠ࣈৄࡉಡΈͷ ࣗಈੜ๏ͷఏҊ ɾޠͷີ ɾಉԻҟࣈͷग़ݱʹؔ͢Δใ ˔ࣗಈԻҊΛ͏νέοτ༧γεςϜͰͷར༻ ɾΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ɾࣈىͷͨΊʹॏཁͳใΛૣΊʹग़ྗ͠ɺϢʔ βͷཁٻʹԠͯ͡ඞཁͳใΛՃ͍ͯ͘͠ߏ
従来の漢字詳細読みの分類 λΠϓ̍ɹରͷࣈΛؚΉ୯ޠͱͦͷಡΈ lίόΠʢߪങʣͷίz lߪz lώϣΧʢධՁʣͷΧz lՁz
λΠϓ̎ɹରͷࣈ͕ಠಛͳಡΈ lαΫϥʢࡩʣz lࡩz lϑλλϏʢ࠶ͼʣ αΠʢ࠶ʣz l࠶z λΠϓ̏ɹରࣈͷಛͱͦͷಡΈ lαϯζΠͷΧϫz lՏz lΧϯεδͷΠνz lҰz ຊจͰɺ౷ܭใΛར༻͢Δ͜ͱʹΑΓى͕ߴ ͍ࣈৄࡉಡΈͷੜ͕ՄೳͰ͋ΔλΠϓ̍ͰࢼΈΔɻ
既存の漢字詳細読みの問題点 ཁҼ̍ ɹlνϤΨϛͷϤzͱ͍͏ࣈৄࡉಡΈͰ༻͍ΒΕ͍ͯΔlઍࢴzͷΑ ͏ͳ͍ີͷ୯ޠͷଘࡏ ཁҼ̎ ɹlߪങzͱlޯzͷΑ͏ͳಉԻҟࣈͷଘࡏ ཁҼ̏ ɹlྤzͷΑ͏ͳ͍͠ࣈͷଘࡏ ཁҼ̍ͱཁҼ̎ɺࣈৄࡉಡΈͰ࠷దͳ୯ޠΛ༻͍Δ͜ͱͰରԠ
Ͱ͖Δͱߟ͑ΒΕΔɻཁҼ̏ະͷࣈΛى͢Δ͜ͱඇৗʹࠔ Ͱ͋Δɻ ࣈৄࡉಡΈʹΑΔରࣈͷىͷ্Λతͱ͠ɺཁҼ̍ͱ ཁҼ̎ʹযΛͯΔɻ
漢字詳細読みの自動生成 ˔̎ஈ֊Ͱߏ͞ΕΔࣈৄࡉಡΈͷࣗಈੜ๏ ɾୈ̍ஈ֊ͰlରͷࣈΛؚΉ୯ޠͱͦͷಡΈz ɹͦͷ͏͑ͰɺϢʔβ͕̍ͭͷࣈΛىͰ͖ͳ͍ ߹ʹୈ̎ஈ֊Ҡߦ͢Δɻ ɾୈ̎ஈ֊ͰɺΠϯλϥΫςΟϒʹ̎ͭͷผͷ ࣈৄࡉಡΈ
漢字詳細読みの自動生成 図1 提案システムの概要
第1段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭରͷࣈ ΛؚΉ୯ޠΛநग़͢ΔɻͦͷࡍɺlߴߍzͳͲͷରͷ ࣈͷಡΈΛෳ࣋ͭ୯ޠআ֎ɻ ᶄ֤୯ޠʹର͠ɺείΞΛҎԼͷࣜᾇΑΓܭࢉ͢Δɻ
第1段階の漢字詳細読み生成法 ᶅ࠷ߴ͍είΞͱͳΔ୯ޠΛ༻͍ͯɺࣈৄࡉಡΈ Λੜ͢Δɻੜͷࡍʹɺબͨ͠୯ޠͷಡΈͱɺͦ ͷ୯ޠதͷରͷࣈͷಡΈΛར༻͢Δɻ ࣜᾇͷЋ͕ ЋͰ͋Δͱɺີ߹͍ ЋͰ͋ΔͱɺಉԻҟࣈͷগͳ͞ Λॏཁࢹ͍ͯ͠Δɻ
第2段階の漢字詳細読み生成法 ɹୈ̍ஈ֊ͰɺରࣈΛؚΉ୯ޠ͕શͯಉԻҟࣈΛ࣋ ͭ߹ɺͦͷࣈΛಛఆͰ͖ΔࣈৄࡉಡΈΛੜ͢Δ͜ ͱ͕Ͱ͖ͳ͍ɻ ྫ͑ʜɹlՊz Ұൠతͳ୯ޠɹlՊֶzlڭՊzɺl୯Պz lՊֶzʹlԽֶz lڭՊzʹlڧԽz l୯ՊzʹlԽzl୯Ձz
ୈ̎ஈ֊Ͱɺୈ̍ஈ֊ͷ݁ՌͱΈ߹ΘͤΔ͜ͱͰɺ ࣈΛىͤ͞Δɻ
第2段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭઆ໌͍ͨ͠ ࣈΛؚΉ୯ޠΛநग़͢Δɻ ᶄநग़ͨ͠୯ޠͷͯ͢ʹείΞΛ͚ͭΔɻ
第2段階の漢字詳細読み生成法 ᶅ࠷ߴ͍είΞͷ୯ޠΛબͨ͠ޙɺ୯ޠX ͱX Λ༻͍ͯࣈৄࡉಡΈΛੜ͢Δɻ ɹࣈͷ֤߹ͤΛى͢Δ߹͍ɺͦͷ߹ͤʹ ؚ·ΕΔ̎୯ޠͷ͏ͪີͷ͍୯ޠͷग़ݱස NJO
D X D X ʹൺྫ͢Δͱߟ͑Δɻ ɹΑͬͯɺରࣈʹର͢ΔͦͷසΛɺશީิͷͦ ͷසͷͰׂͬͨΛىՄೳͳࣈͷᐆດੑͷগ ͳ͞ͱͯ͠༻͍ͯ͠Δɻ
実験 ˔࣮ݧઃఆ (PPHMFຊޠ/άϥϜίʔύε ಡച৽ฉίʔύε ݱຊޠॻ͖ݴ༿ۉߧίʔύε ɹ.F$BCΛ༻͍ͯɺ୯ޠׂͨ݁͠ՌΛఏҊख๏Ͱ
༻͍͍ͯΔ 1$5BMLFS91ɿൺֱରͷεΫϦʔϯϦʔμ
実験 ࣈৄࡉಡΈͷੑೳʹযΛͯΔͨΊɺ࣮ݧͰ (PPHMFίʔύεதʹݱΕΔग़ݱස্Ґޠͷ ࣈΛ༻͍ͨɻ ཁҼ̏ʹΑΔ͍͠ࣈͷଘࡏʹىҼ͢ΔΤϥʔΛ ͳΔ͘ແࢹ͢Δɻ ɹ্هݸͷࣈͷ߹ܭग़ݱසશग़ݱࣈͷ Ҏ্ΛΊ͍ͯΔͨΊɺ࣮༻্ͷ؍͔Βे
3つのコーパスの比較 ˔ఏҊख๏ʹదͨ͠ίʔύεΛௐࠪ ɹఏҊख๏λΠϓ̍Ͱࣗಈੜ͢ΔͨΊɺ͜ΕΒͷ ࣈৄࡉಡΈΛൺֱ͢Δɻ ɹͦͷͨΊʹɺग़ݱස্Ґݸͷࣈ͔Β1$ 5BMLFS91ʹΑΔࣈৄࡉಡΈ͕λΠϓ̍Ҏ֎ͷࣈ আ֎͠ɺͬͨݸͷࣈ͔Βແ࡞ҝʹ̍ݸ ͷࣈΛධՁͷͨΊʹબΜͩɻ
3つのコーパスの比較 ˔ධՁ ࣈৄࡉಡΈΛࢴʹҹࣈ͠ɺແ࡞ҝʹࠞͥɺ̔ਓͷ ධՁऀʹఏࣔ͢Δɻ ֤ࣈʹର͠ɺ̐ͭͷࣈৄࡉಡΈ͕ଘࡏ͢ΔͷͰɺ ֤ࣈৄࡉಡΈΛ̎ਓ͕ධՁ͢Δɻ ຊ࣮ݧͰɺࣈͷىͷՄ൱ʹΑΓධՁͨ͠ɻ
ɹBɿࣈΛى͠ɺਖ਼ղ ɹCɿࣈΛى͕ͨ͠ɺෆਖ਼ղ ɹDɿࣈΛى͠ͳ͔ͬͨɻ
実験結果 ˔ىʢ*3ʣ ɾ#$$8+Λ༻͍ͨख๏ͱ1$5BMLFS91͕࠷ߴ͍ ىΛୡ͍ͯ͠Δɻ ఏҊख๏Ͱ#$$8+Λ༻͍Δ 表1 3つのコーパスの比較の結果
提案手法とスクリーンリーダの比較 ˔ఏҊख๏Ͱ#$$8+͔Βੜͨ͠ࣈৄࡉಡΈΛλΠ ϓ̍Ͱग़ྗ͢Δɻ ˔༻͢Δࣈग़ݱස্Ґݸ͔Βແ࡞ҝʹ ݸͷࣈΛநग़ͨ͠ɻ ˔1$5BMLFS91શମͱͷൺֱΛߦ͏ͨΊʹɺεΫϦʔϯ Ϧʔμͷग़ྗλΠϓ̍ʹݶΒͳ͔ͬͨɻ
˔ͦΕͧΕͷ݁ՌΛݸͣͭΛਓͰධՁ͢Δɻ ɹ֤ৄࡉಡΈਓʹΑΓධՁ͞ΕΔɻ
提案手法とスクリーンリーダの比較 ˔ఏҊख๏ʹ͍ͭͯҎԼͷ̑ͭͷબࢶ͔Βɺదͳ ͷΛ̍ͭબΜͰΒ͏ɻ ɾୈ̍ஈ֊ͷࣈৄࡉಡΈͷΈΛΈͯɺ̍ͭͷࣈΛى ͨ͠ɻ Bɿਖ਼ղͩͬͨ Cɿෆਖ਼ղͩͬͨ ɾୈ̎ஈ֊ͷࣈৄࡉ·ͰΈͯɺ̍ͭͷࣈΛىͨ͠ɻ B`ɿਖ਼ղͩͬͨ C`ɿෆਖ਼ղͩͬͨ
DɿࣈΛى͢Δ͜ͱ͕Ͱ͖ͳ͔ͬͨ
提案手法とスクリーンリーダの比較 ˔1$5BMLFS91ʹ͍ͭͯ̏ͭͷબࢶ͔Βɺద ͳͷΛ̍ͭબΜͰΒ͏ ɹBɿᐆດੑͳ̍ͭ͘ͷࣈΛى͠ɺਖ਼ղ ɹCɿᐆດੑͳ̍ͭ͘ͷࣈΛى͕ͨ͠ɺෆਖ਼ղ ɹDɿࣈ̍ͭΛى͠ͳ͔ͬͨ
実験結果 ˔ද̍ΑΓى͕͘ͳͬͨཧ༝ ɾλΠϓ̍ʹద͍ͯ͠ͳ͍ࣈλΠϓ̍Ͱग़ྗ͞Ε ͨՄೳੑ͕͋Δɻ ˔γεςϜશମͰɺεΫϦʔϯϦʔμΑΓى ͕ߴ͘ੑೳ͕ߴ͍ɻ 表4 提案システムとスクリーンリーダの比較結果
実験結果 ˔ఏҊख๏Ͱɺୈ̎ஈ֊·Ͱදࣔ͢Δͱɺࣈৄࡉ ಡΈͷग़ྗ͕͘ͳΔɻ ͕ͩɺඞͣ͠ୈ̎ஈ֊·ͰݟΔඞཁͳ͍ ࣮ࡍɺධՁऀ͕ݟͨจࣈఏҊख๏ͷํ͕͍ 表5 漢字詳細読みの平均文字数
出力例 表6 BCCWJを用いて提案システムが生成した漢字詳細読みと PC-Talker XPによる出力の例とその評価
まとめ ʻ·ͱΊʼ ˔ࣈͷີͱಉԻҟࣈͷใΛߟྀʹೖΕͨɺςΩετ ίʔύεΛ༻͍ͨࣈৄࡉಡΈͷࣗಈੜ๏ΛఏҊ ˔ఏҊख๏ʹΑΓੜ͞ΕͨࣈৄࡉಡΈ͕ɺεΫϦʔϯ Ϧʔμʹࡌ͞Ε͍ͯΔͷΑΓੑೳ͕ߴ͍ ʻࠓޙͷ՝ʼ ˔ൃԻใͷऔΓೖΕ
˔୯ޠ୯Ґͷઆ໌ಡΈͷੜ