Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストコーパスを用いた漢字詳細読みの自動生成
Search
kakubari
March 09, 2017
Technology
170
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
テキストコーパスを用いた漢字詳細読みの自動生成
長岡技術科学大学
自然言語処理研究室
学部3年 角張竜晴
kakubari
March 09, 2017
More Decks by kakubari
See All by kakubari
動詞クエリの語間の関係性に基づくクエリマイニング
kakubari
0
130
Neural Modeling of Multi-Predicate Interactions for Japanese Predicate Argument Structure Analysis
kakubari
1
190
Leveraging Crowdsourcing for Paraphrase Recognition
kakubari
0
110
Automatically Acquired Lexical Knowledge Improves Japanese Joint Morphological and Dependency Analysis
kakubari
0
110
Labeling the Semantic Roles of Commas
kakubari
0
99
Integrating Case Frame into Japanese to Chinese Hierarchical Phrase-based Translation Model
kakubari
0
130
Improving Chinese Semantic Role Labelingusing High-quality Surface and Deep Case Frames
kakubari
0
98
Exploring Verb Frames for Sentence Simplification in Hindi
kakubari
0
150
述語項構造と照応関係のアノテーション
kakubari
0
260
Other Decks in Technology
See All in Technology
Snowflakeと仲良くなる第一歩
coco_se
4
410
FinOps × AIエージェントで実現する コストインシデントの自動調査
oasis1994liveforever
0
110
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
Amazon Bedrock AgentCore ワークショップ JAWS UG TOHOKU / amazon-bedrock-agentcore-workshop-jawsug-tohoku-2026
gawa
9
630
ポケモンの型をTypeScriptの型システムで表現してみた
subroh0508
0
370
失敗を経て、Harness Engineering で 大切にしたいことを考える / Learning from Failure: What Matters in Harness Engineering
bitkey
PRO
1
290
On-behalf-of Token exchange with AgentCore Identity
hironobuiga
2
140
中期計画、2回作ってみた ~業務委託と正社員、両方の視点から~
demaecan
1
650
AI駆動開発が変える、大規模開発の前提 ーHuman in the Loop から Human on the Loop へ / AIE2026
visional_engineering_and_design
30
24k
非定型業務をAI slackbotで自動化する ~ 社内要望を自動壁打ちするbotを作った ~/automating-ad-hoc-work-with-ai-slackbot
shibayu36
0
580
フロンティアAIのゲート化と地政学リスク
nagatsu
0
110
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
700
Featured
See All Featured
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
170
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
480
Stop Working from a Prison Cell
hatefulcrawdad
274
21k
Un-Boring Meetings
codingconduct
0
310
Are puppies a ranking factor?
jonoalderson
1
3.5k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
280
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
Optimizing for Happiness
mojombo
378
71k
Making the Leap to Tech Lead
cromwellryan
135
9.9k
New Earth Scene 8
popppiees
3
2.3k
Transcript
Ԭ ٕ ज़ Պ ֶ େ ֶ ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ ֶ ෦ ֯ ு ཽ テキストコーパスを用いた漢字詳細読みの自動生成 川崎 博章, 笹野 遼平, 高村 大也, 奥村 学 ใॲཧֶձจࢽʢδϟʔφϧʣ ɹ7PMɹ/Pɹ %FD ਤදจΑΓҾ༻
概要 ˔εΫϦʔϯϦʔμͷࣈৄࡉಡΈͰɺԻʹΑΔઆ໌ͩ ͚ͰϢʔβʹࣈΛਖ਼͘͠ىͤ͞Δɻ ɹଟ͘ͷࣈʹಉԻҟࣈ͕ଘࡏ͍ͯ͠Δɻ ɾҰൠతʹɺlίχϡzͱ͍͏ಡΈͷࣈɺ ɹlߪೖz͔͠ͳ͍ͨΊɺlߪzlίχϡͷίzͰى Ͱ͖Δ ɾlίόΠzͱ͍͏ಡΈͷࣈɺlޯzlެചz͕ଘ ࡏ͢ΔͨΊ ɹlίόΠͷίz͔Βlߪz͕ى͠ʹ͍͘
ɹ ಉԻҟࣈͷใͱ୯ޠͷີΛߟྀʹೖΕͨίʔύεΛ ༻͍ͨࣈৄࡉಡΈͷࣗಈੜΛఏҊ
概要 ˔Θ͔ͬͨ͜ͱ ΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ੜ͞ΕΔࣈৄࡉಡΈͷ͞ΛطଘͷεΫϦʔϯ Ϧʔμͱಉఔʹ͍͑ͯΔ ࣗಈੜ͞ΕͨࣈৄࡉಡΈͷੑೳ͕طଘͷͷΑ Γߴ͍
はじめに ˔ຊޠʹฏԾ໊ɺยԾ໊ɺࣈͷ̏छྨ ɹɾฏԾ໊ͱยԾ໊̍ͭͷԻʹ̍ͭͷจࣈ ɹɾࣈಉԻҟࣈ͕ଘࡏ ࣈͷಡΈͷΈͰઆ໌͢Δͱɺᐆດੑ͕ଘࡏ͢Δ ͦͷͨΊɺઆ໌ରͷࣈͷԻಡΈ܇ಡΈɺߏཁ ૉͳಛ͕ར༻͞ΕΔɻ
はじめに ˔େنςΩετίʔύεΛར༻ͨ͠ࣈৄࡉಡΈͷ ࣗಈੜ๏ͷఏҊ ɾޠͷີ ɾಉԻҟࣈͷग़ݱʹؔ͢Δใ ˔ࣗಈԻҊΛ͏νέοτ༧γεςϜͰͷར༻ ɾΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ɾࣈىͷͨΊʹॏཁͳใΛૣΊʹग़ྗ͠ɺϢʔ βͷཁٻʹԠͯ͡ඞཁͳใΛՃ͍ͯ͘͠ߏ
従来の漢字詳細読みの分類 λΠϓ̍ɹରͷࣈΛؚΉ୯ޠͱͦͷಡΈ lίόΠʢߪങʣͷίz lߪz lώϣΧʢධՁʣͷΧz lՁz
λΠϓ̎ɹରͷࣈ͕ಠಛͳಡΈ lαΫϥʢࡩʣz lࡩz lϑλλϏʢ࠶ͼʣ αΠʢ࠶ʣz l࠶z λΠϓ̏ɹରࣈͷಛͱͦͷಡΈ lαϯζΠͷΧϫz lՏz lΧϯεδͷΠνz lҰz ຊจͰɺ౷ܭใΛར༻͢Δ͜ͱʹΑΓى͕ߴ ͍ࣈৄࡉಡΈͷੜ͕ՄೳͰ͋ΔλΠϓ̍ͰࢼΈΔɻ
既存の漢字詳細読みの問題点 ཁҼ̍ ɹlνϤΨϛͷϤzͱ͍͏ࣈৄࡉಡΈͰ༻͍ΒΕ͍ͯΔlઍࢴzͷΑ ͏ͳ͍ີͷ୯ޠͷଘࡏ ཁҼ̎ ɹlߪങzͱlޯzͷΑ͏ͳಉԻҟࣈͷଘࡏ ཁҼ̏ ɹlྤzͷΑ͏ͳ͍͠ࣈͷଘࡏ ཁҼ̍ͱཁҼ̎ɺࣈৄࡉಡΈͰ࠷దͳ୯ޠΛ༻͍Δ͜ͱͰରԠ
Ͱ͖Δͱߟ͑ΒΕΔɻཁҼ̏ະͷࣈΛى͢Δ͜ͱඇৗʹࠔ Ͱ͋Δɻ ࣈৄࡉಡΈʹΑΔରࣈͷىͷ্Λతͱ͠ɺཁҼ̍ͱ ཁҼ̎ʹযΛͯΔɻ
漢字詳細読みの自動生成 ˔̎ஈ֊Ͱߏ͞ΕΔࣈৄࡉಡΈͷࣗಈੜ๏ ɾୈ̍ஈ֊ͰlରͷࣈΛؚΉ୯ޠͱͦͷಡΈz ɹͦͷ͏͑ͰɺϢʔβ͕̍ͭͷࣈΛىͰ͖ͳ͍ ߹ʹୈ̎ஈ֊Ҡߦ͢Δɻ ɾୈ̎ஈ֊ͰɺΠϯλϥΫςΟϒʹ̎ͭͷผͷ ࣈৄࡉಡΈ
漢字詳細読みの自動生成 図1 提案システムの概要
第1段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭରͷࣈ ΛؚΉ୯ޠΛநग़͢ΔɻͦͷࡍɺlߴߍzͳͲͷରͷ ࣈͷಡΈΛෳ࣋ͭ୯ޠআ֎ɻ ᶄ֤୯ޠʹର͠ɺείΞΛҎԼͷࣜᾇΑΓܭࢉ͢Δɻ
第1段階の漢字詳細読み生成法 ᶅ࠷ߴ͍είΞͱͳΔ୯ޠΛ༻͍ͯɺࣈৄࡉಡΈ Λੜ͢Δɻੜͷࡍʹɺબͨ͠୯ޠͷಡΈͱɺͦ ͷ୯ޠதͷରͷࣈͷಡΈΛར༻͢Δɻ ࣜᾇͷЋ͕ ЋͰ͋Δͱɺີ߹͍ ЋͰ͋ΔͱɺಉԻҟࣈͷগͳ͞ Λॏཁࢹ͍ͯ͠Δɻ
第2段階の漢字詳細読み生成法 ɹୈ̍ஈ֊ͰɺରࣈΛؚΉ୯ޠ͕શͯಉԻҟࣈΛ࣋ ͭ߹ɺͦͷࣈΛಛఆͰ͖ΔࣈৄࡉಡΈΛੜ͢Δ͜ ͱ͕Ͱ͖ͳ͍ɻ ྫ͑ʜɹlՊz Ұൠతͳ୯ޠɹlՊֶzlڭՊzɺl୯Պz lՊֶzʹlԽֶz lڭՊzʹlڧԽz l୯ՊzʹlԽzl୯Ձz
ୈ̎ஈ֊Ͱɺୈ̍ஈ֊ͷ݁ՌͱΈ߹ΘͤΔ͜ͱͰɺ ࣈΛىͤ͞Δɻ
第2段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭઆ໌͍ͨ͠ ࣈΛؚΉ୯ޠΛநग़͢Δɻ ᶄநग़ͨ͠୯ޠͷͯ͢ʹείΞΛ͚ͭΔɻ
第2段階の漢字詳細読み生成法 ᶅ࠷ߴ͍είΞͷ୯ޠΛબͨ͠ޙɺ୯ޠX ͱX Λ༻͍ͯࣈৄࡉಡΈΛੜ͢Δɻ ɹࣈͷ֤߹ͤΛى͢Δ߹͍ɺͦͷ߹ͤʹ ؚ·ΕΔ̎୯ޠͷ͏ͪີͷ͍୯ޠͷग़ݱස NJO
D X D X ʹൺྫ͢Δͱߟ͑Δɻ ɹΑͬͯɺରࣈʹର͢ΔͦͷසΛɺશީิͷͦ ͷසͷͰׂͬͨΛىՄೳͳࣈͷᐆດੑͷগ ͳ͞ͱͯ͠༻͍ͯ͠Δɻ
実験 ˔࣮ݧઃఆ (PPHMFຊޠ/άϥϜίʔύε ಡച৽ฉίʔύε ݱຊޠॻ͖ݴ༿ۉߧίʔύε ɹ.F$BCΛ༻͍ͯɺ୯ޠׂͨ݁͠ՌΛఏҊख๏Ͱ
༻͍͍ͯΔ 1$5BMLFS91ɿൺֱରͷεΫϦʔϯϦʔμ
実験 ࣈৄࡉಡΈͷੑೳʹযΛͯΔͨΊɺ࣮ݧͰ (PPHMFίʔύεதʹݱΕΔग़ݱස্Ґޠͷ ࣈΛ༻͍ͨɻ ཁҼ̏ʹΑΔ͍͠ࣈͷଘࡏʹىҼ͢ΔΤϥʔΛ ͳΔ͘ແࢹ͢Δɻ ɹ্هݸͷࣈͷ߹ܭग़ݱසશग़ݱࣈͷ Ҏ্ΛΊ͍ͯΔͨΊɺ࣮༻্ͷ؍͔Βे
3つのコーパスの比較 ˔ఏҊख๏ʹదͨ͠ίʔύεΛௐࠪ ɹఏҊख๏λΠϓ̍Ͱࣗಈੜ͢ΔͨΊɺ͜ΕΒͷ ࣈৄࡉಡΈΛൺֱ͢Δɻ ɹͦͷͨΊʹɺग़ݱස্Ґݸͷࣈ͔Β1$ 5BMLFS91ʹΑΔࣈৄࡉಡΈ͕λΠϓ̍Ҏ֎ͷࣈ আ֎͠ɺͬͨݸͷࣈ͔Βແ࡞ҝʹ̍ݸ ͷࣈΛධՁͷͨΊʹબΜͩɻ
3つのコーパスの比較 ˔ධՁ ࣈৄࡉಡΈΛࢴʹҹࣈ͠ɺແ࡞ҝʹࠞͥɺ̔ਓͷ ධՁऀʹఏࣔ͢Δɻ ֤ࣈʹର͠ɺ̐ͭͷࣈৄࡉಡΈ͕ଘࡏ͢ΔͷͰɺ ֤ࣈৄࡉಡΈΛ̎ਓ͕ධՁ͢Δɻ ຊ࣮ݧͰɺࣈͷىͷՄ൱ʹΑΓධՁͨ͠ɻ
ɹBɿࣈΛى͠ɺਖ਼ղ ɹCɿࣈΛى͕ͨ͠ɺෆਖ਼ղ ɹDɿࣈΛى͠ͳ͔ͬͨɻ
実験結果 ˔ىʢ*3ʣ ɾ#$$8+Λ༻͍ͨख๏ͱ1$5BMLFS91͕࠷ߴ͍ ىΛୡ͍ͯ͠Δɻ ఏҊख๏Ͱ#$$8+Λ༻͍Δ 表1 3つのコーパスの比較の結果
提案手法とスクリーンリーダの比較 ˔ఏҊख๏Ͱ#$$8+͔Βੜͨ͠ࣈৄࡉಡΈΛλΠ ϓ̍Ͱग़ྗ͢Δɻ ˔༻͢Δࣈग़ݱස্Ґݸ͔Βແ࡞ҝʹ ݸͷࣈΛநग़ͨ͠ɻ ˔1$5BMLFS91શମͱͷൺֱΛߦ͏ͨΊʹɺεΫϦʔϯ Ϧʔμͷग़ྗλΠϓ̍ʹݶΒͳ͔ͬͨɻ
˔ͦΕͧΕͷ݁ՌΛݸͣͭΛਓͰධՁ͢Δɻ ɹ֤ৄࡉಡΈਓʹΑΓධՁ͞ΕΔɻ
提案手法とスクリーンリーダの比較 ˔ఏҊख๏ʹ͍ͭͯҎԼͷ̑ͭͷબࢶ͔Βɺదͳ ͷΛ̍ͭબΜͰΒ͏ɻ ɾୈ̍ஈ֊ͷࣈৄࡉಡΈͷΈΛΈͯɺ̍ͭͷࣈΛى ͨ͠ɻ Bɿਖ਼ղͩͬͨ Cɿෆਖ਼ղͩͬͨ ɾୈ̎ஈ֊ͷࣈৄࡉ·ͰΈͯɺ̍ͭͷࣈΛىͨ͠ɻ B`ɿਖ਼ղͩͬͨ C`ɿෆਖ਼ղͩͬͨ
DɿࣈΛى͢Δ͜ͱ͕Ͱ͖ͳ͔ͬͨ
提案手法とスクリーンリーダの比較 ˔1$5BMLFS91ʹ͍ͭͯ̏ͭͷબࢶ͔Βɺద ͳͷΛ̍ͭબΜͰΒ͏ ɹBɿᐆດੑͳ̍ͭ͘ͷࣈΛى͠ɺਖ਼ղ ɹCɿᐆດੑͳ̍ͭ͘ͷࣈΛى͕ͨ͠ɺෆਖ਼ղ ɹDɿࣈ̍ͭΛى͠ͳ͔ͬͨ
実験結果 ˔ද̍ΑΓى͕͘ͳͬͨཧ༝ ɾλΠϓ̍ʹద͍ͯ͠ͳ͍ࣈλΠϓ̍Ͱग़ྗ͞Ε ͨՄೳੑ͕͋Δɻ ˔γεςϜશମͰɺεΫϦʔϯϦʔμΑΓى ͕ߴ͘ੑೳ͕ߴ͍ɻ 表4 提案システムとスクリーンリーダの比較結果
実験結果 ˔ఏҊख๏Ͱɺୈ̎ஈ֊·Ͱදࣔ͢Δͱɺࣈৄࡉ ಡΈͷग़ྗ͕͘ͳΔɻ ͕ͩɺඞͣ͠ୈ̎ஈ֊·ͰݟΔඞཁͳ͍ ࣮ࡍɺධՁऀ͕ݟͨจࣈఏҊख๏ͷํ͕͍ 表5 漢字詳細読みの平均文字数
出力例 表6 BCCWJを用いて提案システムが生成した漢字詳細読みと PC-Talker XPによる出力の例とその評価
まとめ ʻ·ͱΊʼ ˔ࣈͷີͱಉԻҟࣈͷใΛߟྀʹೖΕͨɺςΩετ ίʔύεΛ༻͍ͨࣈৄࡉಡΈͷࣗಈੜ๏ΛఏҊ ˔ఏҊख๏ʹΑΓੜ͞ΕͨࣈৄࡉಡΈ͕ɺεΫϦʔϯ Ϧʔμʹࡌ͞Ε͍ͯΔͷΑΓੑೳ͕ߴ͍ ʻࠓޙͷ՝ʼ ˔ൃԻใͷऔΓೖΕ
˔୯ޠ୯Ґͷઆ໌ಡΈͷੜ