Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストコーパスを用いた漢字詳細読みの自動生成
Search
kakubari
March 09, 2017
Technology
0
170
テキストコーパスを用いた漢字詳細読みの自動生成
長岡技術科学大学
自然言語処理研究室
学部3年 角張竜晴
kakubari
March 09, 2017
Tweet
Share
More Decks by kakubari
See All by kakubari
動詞クエリの語間の関係性に基づくクエリマイニング
kakubari
0
110
Neural Modeling of Multi-Predicate Interactions for Japanese Predicate Argument Structure Analysis
kakubari
1
170
Leveraging Crowdsourcing for Paraphrase Recognition
kakubari
0
90
Automatically Acquired Lexical Knowledge Improves Japanese Joint Morphological and Dependency Analysis
kakubari
0
100
Labeling the Semantic Roles of Commas
kakubari
0
85
Integrating Case Frame into Japanese to Chinese Hierarchical Phrase-based Translation Model
kakubari
0
120
Improving Chinese Semantic Role Labelingusing High-quality Surface and Deep Case Frames
kakubari
0
93
Exploring Verb Frames for Sentence Simplification in Hindi
kakubari
0
140
述語項構造と照応関係のアノテーション
kakubari
0
240
Other Decks in Technology
See All in Technology
[PR] はじめてのデジタルアイデンティティという本を書きました
ritou
0
780
Digitization部 紹介資料
sansan33
PRO
1
6.4k
小さく、早く、可能性を多産する。生成AIプロジェクト / prAIrie-dog
visional_engineering_and_design
0
360
Data Hubグループ 紹介資料
sansan33
PRO
0
2.5k
#22 CA × atmaCup 3rd 1st Place Solution
yumizu
1
130
Java 25に至る道
skrb
3
180
Eight Engineering Unit 紹介資料
sansan33
PRO
0
6.2k
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
17k
1万人を変え日本を変える!!多層構造型ふりかえりの大規模組織変革 / 20260108 Kazuki Mori
shift_evolve
PRO
6
980
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
4
21k
AI との良い付き合い方を僕らは誰も知らない (WSS 2026 静岡版)
asei
1
250
「駆動」って言葉、なんかカッコイイ_Mitz
comucal
PRO
0
140
Featured
See All Featured
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
Exploring anti-patterns in Rails
aemeredith
2
220
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
The SEO Collaboration Effect
kristinabergwall1
0
320
BBQ
matthewcrist
89
9.9k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
780
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
0
230
We Have a Design System, Now What?
morganepeng
54
8k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
59
Raft: Consensus for Rubyists
vanstee
141
7.3k
Transcript
Ԭ ٕ ज़ Պ ֶ େ ֶ ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ ֶ ෦ ֯ ு ཽ テキストコーパスを用いた漢字詳細読みの自動生成 川崎 博章, 笹野 遼平, 高村 大也, 奥村 学 ใॲཧֶձจࢽʢδϟʔφϧʣ ɹ7PMɹ/Pɹ %FD ਤදจΑΓҾ༻
概要 ˔εΫϦʔϯϦʔμͷࣈৄࡉಡΈͰɺԻʹΑΔઆ໌ͩ ͚ͰϢʔβʹࣈΛਖ਼͘͠ىͤ͞Δɻ ɹଟ͘ͷࣈʹಉԻҟࣈ͕ଘࡏ͍ͯ͠Δɻ ɾҰൠతʹɺlίχϡzͱ͍͏ಡΈͷࣈɺ ɹlߪೖz͔͠ͳ͍ͨΊɺlߪzlίχϡͷίzͰى Ͱ͖Δ ɾlίόΠzͱ͍͏ಡΈͷࣈɺlޯzlެചz͕ଘ ࡏ͢ΔͨΊ ɹlίόΠͷίz͔Βlߪz͕ى͠ʹ͍͘
ɹ ಉԻҟࣈͷใͱ୯ޠͷີΛߟྀʹೖΕͨίʔύεΛ ༻͍ͨࣈৄࡉಡΈͷࣗಈੜΛఏҊ
概要 ˔Θ͔ͬͨ͜ͱ ΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ੜ͞ΕΔࣈৄࡉಡΈͷ͞ΛطଘͷεΫϦʔϯ Ϧʔμͱಉఔʹ͍͑ͯΔ ࣗಈੜ͞ΕͨࣈৄࡉಡΈͷੑೳ͕طଘͷͷΑ Γߴ͍
はじめに ˔ຊޠʹฏԾ໊ɺยԾ໊ɺࣈͷ̏छྨ ɹɾฏԾ໊ͱยԾ໊̍ͭͷԻʹ̍ͭͷจࣈ ɹɾࣈಉԻҟࣈ͕ଘࡏ ࣈͷಡΈͷΈͰઆ໌͢Δͱɺᐆດੑ͕ଘࡏ͢Δ ͦͷͨΊɺઆ໌ରͷࣈͷԻಡΈ܇ಡΈɺߏཁ ૉͳಛ͕ར༻͞ΕΔɻ
はじめに ˔େنςΩετίʔύεΛར༻ͨ͠ࣈৄࡉಡΈͷ ࣗಈੜ๏ͷఏҊ ɾޠͷີ ɾಉԻҟࣈͷग़ݱʹؔ͢Δใ ˔ࣗಈԻҊΛ͏νέοτ༧γεςϜͰͷར༻ ɾΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ɾࣈىͷͨΊʹॏཁͳใΛૣΊʹग़ྗ͠ɺϢʔ βͷཁٻʹԠͯ͡ඞཁͳใΛՃ͍ͯ͘͠ߏ
従来の漢字詳細読みの分類 λΠϓ̍ɹରͷࣈΛؚΉ୯ޠͱͦͷಡΈ lίόΠʢߪങʣͷίz lߪz lώϣΧʢධՁʣͷΧz lՁz
λΠϓ̎ɹରͷࣈ͕ಠಛͳಡΈ lαΫϥʢࡩʣz lࡩz lϑλλϏʢ࠶ͼʣ αΠʢ࠶ʣz l࠶z λΠϓ̏ɹରࣈͷಛͱͦͷಡΈ lαϯζΠͷΧϫz lՏz lΧϯεδͷΠνz lҰz ຊจͰɺ౷ܭใΛར༻͢Δ͜ͱʹΑΓى͕ߴ ͍ࣈৄࡉಡΈͷੜ͕ՄೳͰ͋ΔλΠϓ̍ͰࢼΈΔɻ
既存の漢字詳細読みの問題点 ཁҼ̍ ɹlνϤΨϛͷϤzͱ͍͏ࣈৄࡉಡΈͰ༻͍ΒΕ͍ͯΔlઍࢴzͷΑ ͏ͳ͍ີͷ୯ޠͷଘࡏ ཁҼ̎ ɹlߪങzͱlޯzͷΑ͏ͳಉԻҟࣈͷଘࡏ ཁҼ̏ ɹlྤzͷΑ͏ͳ͍͠ࣈͷଘࡏ ཁҼ̍ͱཁҼ̎ɺࣈৄࡉಡΈͰ࠷దͳ୯ޠΛ༻͍Δ͜ͱͰରԠ
Ͱ͖Δͱߟ͑ΒΕΔɻཁҼ̏ະͷࣈΛى͢Δ͜ͱඇৗʹࠔ Ͱ͋Δɻ ࣈৄࡉಡΈʹΑΔରࣈͷىͷ্Λతͱ͠ɺཁҼ̍ͱ ཁҼ̎ʹযΛͯΔɻ
漢字詳細読みの自動生成 ˔̎ஈ֊Ͱߏ͞ΕΔࣈৄࡉಡΈͷࣗಈੜ๏ ɾୈ̍ஈ֊ͰlରͷࣈΛؚΉ୯ޠͱͦͷಡΈz ɹͦͷ͏͑ͰɺϢʔβ͕̍ͭͷࣈΛىͰ͖ͳ͍ ߹ʹୈ̎ஈ֊Ҡߦ͢Δɻ ɾୈ̎ஈ֊ͰɺΠϯλϥΫςΟϒʹ̎ͭͷผͷ ࣈৄࡉಡΈ
漢字詳細読みの自動生成 図1 提案システムの概要
第1段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭରͷࣈ ΛؚΉ୯ޠΛநग़͢ΔɻͦͷࡍɺlߴߍzͳͲͷରͷ ࣈͷಡΈΛෳ࣋ͭ୯ޠআ֎ɻ ᶄ֤୯ޠʹର͠ɺείΞΛҎԼͷࣜᾇΑΓܭࢉ͢Δɻ
第1段階の漢字詳細読み生成法 ᶅ࠷ߴ͍είΞͱͳΔ୯ޠΛ༻͍ͯɺࣈৄࡉಡΈ Λੜ͢Δɻੜͷࡍʹɺબͨ͠୯ޠͷಡΈͱɺͦ ͷ୯ޠதͷରͷࣈͷಡΈΛར༻͢Δɻ ࣜᾇͷЋ͕ ЋͰ͋Δͱɺີ߹͍ ЋͰ͋ΔͱɺಉԻҟࣈͷগͳ͞ Λॏཁࢹ͍ͯ͠Δɻ
第2段階の漢字詳細読み生成法 ɹୈ̍ஈ֊ͰɺରࣈΛؚΉ୯ޠ͕શͯಉԻҟࣈΛ࣋ ͭ߹ɺͦͷࣈΛಛఆͰ͖ΔࣈৄࡉಡΈΛੜ͢Δ͜ ͱ͕Ͱ͖ͳ͍ɻ ྫ͑ʜɹlՊz Ұൠతͳ୯ޠɹlՊֶzlڭՊzɺl୯Պz lՊֶzʹlԽֶz lڭՊzʹlڧԽz l୯ՊzʹlԽzl୯Ձz
ୈ̎ஈ֊Ͱɺୈ̍ஈ֊ͷ݁ՌͱΈ߹ΘͤΔ͜ͱͰɺ ࣈΛىͤ͞Δɻ
第2段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭઆ໌͍ͨ͠ ࣈΛؚΉ୯ޠΛநग़͢Δɻ ᶄநग़ͨ͠୯ޠͷͯ͢ʹείΞΛ͚ͭΔɻ
第2段階の漢字詳細読み生成法 ᶅ࠷ߴ͍είΞͷ୯ޠΛબͨ͠ޙɺ୯ޠX ͱX Λ༻͍ͯࣈৄࡉಡΈΛੜ͢Δɻ ɹࣈͷ֤߹ͤΛى͢Δ߹͍ɺͦͷ߹ͤʹ ؚ·ΕΔ̎୯ޠͷ͏ͪີͷ͍୯ޠͷग़ݱස NJO
D X D X ʹൺྫ͢Δͱߟ͑Δɻ ɹΑͬͯɺରࣈʹର͢ΔͦͷසΛɺશީิͷͦ ͷසͷͰׂͬͨΛىՄೳͳࣈͷᐆດੑͷগ ͳ͞ͱͯ͠༻͍ͯ͠Δɻ
実験 ˔࣮ݧઃఆ (PPHMFຊޠ/άϥϜίʔύε ಡച৽ฉίʔύε ݱຊޠॻ͖ݴ༿ۉߧίʔύε ɹ.F$BCΛ༻͍ͯɺ୯ޠׂͨ݁͠ՌΛఏҊख๏Ͱ
༻͍͍ͯΔ 1$5BMLFS91ɿൺֱରͷεΫϦʔϯϦʔμ
実験 ࣈৄࡉಡΈͷੑೳʹযΛͯΔͨΊɺ࣮ݧͰ (PPHMFίʔύεதʹݱΕΔग़ݱස্Ґޠͷ ࣈΛ༻͍ͨɻ ཁҼ̏ʹΑΔ͍͠ࣈͷଘࡏʹىҼ͢ΔΤϥʔΛ ͳΔ͘ແࢹ͢Δɻ ɹ্هݸͷࣈͷ߹ܭग़ݱසશग़ݱࣈͷ Ҏ্ΛΊ͍ͯΔͨΊɺ࣮༻্ͷ؍͔Βे
3つのコーパスの比較 ˔ఏҊख๏ʹదͨ͠ίʔύεΛௐࠪ ɹఏҊख๏λΠϓ̍Ͱࣗಈੜ͢ΔͨΊɺ͜ΕΒͷ ࣈৄࡉಡΈΛൺֱ͢Δɻ ɹͦͷͨΊʹɺग़ݱස্Ґݸͷࣈ͔Β1$ 5BMLFS91ʹΑΔࣈৄࡉಡΈ͕λΠϓ̍Ҏ֎ͷࣈ আ֎͠ɺͬͨݸͷࣈ͔Βແ࡞ҝʹ̍ݸ ͷࣈΛධՁͷͨΊʹબΜͩɻ
3つのコーパスの比較 ˔ධՁ ࣈৄࡉಡΈΛࢴʹҹࣈ͠ɺແ࡞ҝʹࠞͥɺ̔ਓͷ ධՁऀʹఏࣔ͢Δɻ ֤ࣈʹର͠ɺ̐ͭͷࣈৄࡉಡΈ͕ଘࡏ͢ΔͷͰɺ ֤ࣈৄࡉಡΈΛ̎ਓ͕ධՁ͢Δɻ ຊ࣮ݧͰɺࣈͷىͷՄ൱ʹΑΓධՁͨ͠ɻ
ɹBɿࣈΛى͠ɺਖ਼ղ ɹCɿࣈΛى͕ͨ͠ɺෆਖ਼ղ ɹDɿࣈΛى͠ͳ͔ͬͨɻ
実験結果 ˔ىʢ*3ʣ ɾ#$$8+Λ༻͍ͨख๏ͱ1$5BMLFS91͕࠷ߴ͍ ىΛୡ͍ͯ͠Δɻ ఏҊख๏Ͱ#$$8+Λ༻͍Δ 表1 3つのコーパスの比較の結果
提案手法とスクリーンリーダの比較 ˔ఏҊख๏Ͱ#$$8+͔Βੜͨ͠ࣈৄࡉಡΈΛλΠ ϓ̍Ͱग़ྗ͢Δɻ ˔༻͢Δࣈग़ݱස্Ґݸ͔Βແ࡞ҝʹ ݸͷࣈΛநग़ͨ͠ɻ ˔1$5BMLFS91શମͱͷൺֱΛߦ͏ͨΊʹɺεΫϦʔϯ Ϧʔμͷग़ྗλΠϓ̍ʹݶΒͳ͔ͬͨɻ
˔ͦΕͧΕͷ݁ՌΛݸͣͭΛਓͰධՁ͢Δɻ ɹ֤ৄࡉಡΈਓʹΑΓධՁ͞ΕΔɻ
提案手法とスクリーンリーダの比較 ˔ఏҊख๏ʹ͍ͭͯҎԼͷ̑ͭͷબࢶ͔Βɺదͳ ͷΛ̍ͭબΜͰΒ͏ɻ ɾୈ̍ஈ֊ͷࣈৄࡉಡΈͷΈΛΈͯɺ̍ͭͷࣈΛى ͨ͠ɻ Bɿਖ਼ղͩͬͨ Cɿෆਖ਼ղͩͬͨ ɾୈ̎ஈ֊ͷࣈৄࡉ·ͰΈͯɺ̍ͭͷࣈΛىͨ͠ɻ B`ɿਖ਼ղͩͬͨ C`ɿෆਖ਼ղͩͬͨ
DɿࣈΛى͢Δ͜ͱ͕Ͱ͖ͳ͔ͬͨ
提案手法とスクリーンリーダの比較 ˔1$5BMLFS91ʹ͍ͭͯ̏ͭͷબࢶ͔Βɺద ͳͷΛ̍ͭબΜͰΒ͏ ɹBɿᐆດੑͳ̍ͭ͘ͷࣈΛى͠ɺਖ਼ղ ɹCɿᐆດੑͳ̍ͭ͘ͷࣈΛى͕ͨ͠ɺෆਖ਼ղ ɹDɿࣈ̍ͭΛى͠ͳ͔ͬͨ
実験結果 ˔ද̍ΑΓى͕͘ͳͬͨཧ༝ ɾλΠϓ̍ʹద͍ͯ͠ͳ͍ࣈλΠϓ̍Ͱग़ྗ͞Ε ͨՄೳੑ͕͋Δɻ ˔γεςϜશମͰɺεΫϦʔϯϦʔμΑΓى ͕ߴ͘ੑೳ͕ߴ͍ɻ 表4 提案システムとスクリーンリーダの比較結果
実験結果 ˔ఏҊख๏Ͱɺୈ̎ஈ֊·Ͱදࣔ͢Δͱɺࣈৄࡉ ಡΈͷग़ྗ͕͘ͳΔɻ ͕ͩɺඞͣ͠ୈ̎ஈ֊·ͰݟΔඞཁͳ͍ ࣮ࡍɺධՁऀ͕ݟͨจࣈఏҊख๏ͷํ͕͍ 表5 漢字詳細読みの平均文字数
出力例 表6 BCCWJを用いて提案システムが生成した漢字詳細読みと PC-Talker XPによる出力の例とその評価
まとめ ʻ·ͱΊʼ ˔ࣈͷີͱಉԻҟࣈͷใΛߟྀʹೖΕͨɺςΩετ ίʔύεΛ༻͍ͨࣈৄࡉಡΈͷࣗಈੜ๏ΛఏҊ ˔ఏҊख๏ʹΑΓੜ͞ΕͨࣈৄࡉಡΈ͕ɺεΫϦʔϯ Ϧʔμʹࡌ͞Ε͍ͯΔͷΑΓੑೳ͕ߴ͍ ʻࠓޙͷ՝ʼ ˔ൃԻใͷऔΓೖΕ
˔୯ޠ୯Ґͷઆ໌ಡΈͷੜ