Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストコーパスを用いた漢字詳細読みの自動生成
Search
kakubari
March 09, 2017
Technology
0
170
テキストコーパスを用いた漢字詳細読みの自動生成
長岡技術科学大学
自然言語処理研究室
学部3年 角張竜晴
kakubari
March 09, 2017
Tweet
Share
More Decks by kakubari
See All by kakubari
動詞クエリの語間の関係性に基づくクエリマイニング
kakubari
0
110
Neural Modeling of Multi-Predicate Interactions for Japanese Predicate Argument Structure Analysis
kakubari
1
160
Leveraging Crowdsourcing for Paraphrase Recognition
kakubari
0
83
Automatically Acquired Lexical Knowledge Improves Japanese Joint Morphological and Dependency Analysis
kakubari
0
100
Labeling the Semantic Roles of Commas
kakubari
0
78
Integrating Case Frame into Japanese to Chinese Hierarchical Phrase-based Translation Model
kakubari
0
120
Improving Chinese Semantic Role Labelingusing High-quality Surface and Deep Case Frames
kakubari
0
90
Exploring Verb Frames for Sentence Simplification in Hindi
kakubari
0
130
述語項構造と照応関係のアノテーション
kakubari
0
230
Other Decks in Technology
See All in Technology
新規事業におけるGORM+SQLx併用アーキテクチャ
hacomono
PRO
0
320
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
2.8k
プロポーザルのコツ ~ Kaigi on Rails 2025 初参加で3名の登壇を実現 ~
naro143
1
250
20201008_ファインディ_品質意識を育てる役目は人かAIか___2_.pdf
findy_eventslides
2
650
エンタメとAIのための3Dパラレルワールド構築(GPU UNITE 2025 特別講演)
pfn
PRO
0
380
HR Force における DWH の併用事例 ~ サービス基盤としての BigQuery / 分析基盤としての Snowflake ~@Cross Data Platforms Meetup #2「BigQueryと愉快な仲間たち」
ryo_suzuki
0
230
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.2k
コンテキストエンジニアリング入門〜AI Coding Agent作りで学ぶ文脈設計〜
kworkdev
PRO
3
1.5k
やる気のない自分との向き合い方/How to Deal with Your Unmotivated Self
sanogemaru
1
520
このままAIが発展するだけでAGI達成可能な理由
frievea
0
110
Data Hubグループ 紹介資料
sansan33
PRO
0
2.2k
サイバーエージェント流クラウドコスト削減施策「みんなで金塊堀太郎」
kurochan
4
2k
Featured
See All Featured
Unsuck your backbone
ammeep
671
58k
Side Projects
sachag
455
43k
Writing Fast Ruby
sferik
629
62k
Why Our Code Smells
bkeepers
PRO
340
57k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
190
55k
Optimizing for Happiness
mojombo
379
70k
RailsConf 2023
tenderlove
30
1.2k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
The World Runs on Bad Software
bkeepers
PRO
72
11k
The Straight Up "How To Draw Better" Workshop
denniskardys
238
140k
The Invisible Side of Design
smashingmag
302
51k
Transcript
Ԭ ٕ ज़ Պ ֶ େ ֶ ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ ֶ ෦ ֯ ு ཽ テキストコーパスを用いた漢字詳細読みの自動生成 川崎 博章, 笹野 遼平, 高村 大也, 奥村 学 ใॲཧֶձจࢽʢδϟʔφϧʣ ɹ7PMɹ/Pɹ %FD ਤදจΑΓҾ༻
概要 ˔εΫϦʔϯϦʔμͷࣈৄࡉಡΈͰɺԻʹΑΔઆ໌ͩ ͚ͰϢʔβʹࣈΛਖ਼͘͠ىͤ͞Δɻ ɹଟ͘ͷࣈʹಉԻҟࣈ͕ଘࡏ͍ͯ͠Δɻ ɾҰൠతʹɺlίχϡzͱ͍͏ಡΈͷࣈɺ ɹlߪೖz͔͠ͳ͍ͨΊɺlߪzlίχϡͷίzͰى Ͱ͖Δ ɾlίόΠzͱ͍͏ಡΈͷࣈɺlޯzlެചz͕ଘ ࡏ͢ΔͨΊ ɹlίόΠͷίz͔Βlߪz͕ى͠ʹ͍͘
ɹ ಉԻҟࣈͷใͱ୯ޠͷີΛߟྀʹೖΕͨίʔύεΛ ༻͍ͨࣈৄࡉಡΈͷࣗಈੜΛఏҊ
概要 ˔Θ͔ͬͨ͜ͱ ΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ੜ͞ΕΔࣈৄࡉಡΈͷ͞ΛطଘͷεΫϦʔϯ Ϧʔμͱಉఔʹ͍͑ͯΔ ࣗಈੜ͞ΕͨࣈৄࡉಡΈͷੑೳ͕طଘͷͷΑ Γߴ͍
はじめに ˔ຊޠʹฏԾ໊ɺยԾ໊ɺࣈͷ̏छྨ ɹɾฏԾ໊ͱยԾ໊̍ͭͷԻʹ̍ͭͷจࣈ ɹɾࣈಉԻҟࣈ͕ଘࡏ ࣈͷಡΈͷΈͰઆ໌͢Δͱɺᐆດੑ͕ଘࡏ͢Δ ͦͷͨΊɺઆ໌ରͷࣈͷԻಡΈ܇ಡΈɺߏཁ ૉͳಛ͕ར༻͞ΕΔɻ
はじめに ˔େنςΩετίʔύεΛར༻ͨ͠ࣈৄࡉಡΈͷ ࣗಈੜ๏ͷఏҊ ɾޠͷີ ɾಉԻҟࣈͷग़ݱʹؔ͢Δใ ˔ࣗಈԻҊΛ͏νέοτ༧γεςϜͰͷར༻ ɾΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ɾࣈىͷͨΊʹॏཁͳใΛૣΊʹग़ྗ͠ɺϢʔ βͷཁٻʹԠͯ͡ඞཁͳใΛՃ͍ͯ͘͠ߏ
従来の漢字詳細読みの分類 λΠϓ̍ɹରͷࣈΛؚΉ୯ޠͱͦͷಡΈ lίόΠʢߪങʣͷίz lߪz lώϣΧʢධՁʣͷΧz lՁz
λΠϓ̎ɹରͷࣈ͕ಠಛͳಡΈ lαΫϥʢࡩʣz lࡩz lϑλλϏʢ࠶ͼʣ αΠʢ࠶ʣz l࠶z λΠϓ̏ɹରࣈͷಛͱͦͷಡΈ lαϯζΠͷΧϫz lՏz lΧϯεδͷΠνz lҰz ຊจͰɺ౷ܭใΛར༻͢Δ͜ͱʹΑΓى͕ߴ ͍ࣈৄࡉಡΈͷੜ͕ՄೳͰ͋ΔλΠϓ̍ͰࢼΈΔɻ
既存の漢字詳細読みの問題点 ཁҼ̍ ɹlνϤΨϛͷϤzͱ͍͏ࣈৄࡉಡΈͰ༻͍ΒΕ͍ͯΔlઍࢴzͷΑ ͏ͳ͍ີͷ୯ޠͷଘࡏ ཁҼ̎ ɹlߪങzͱlޯzͷΑ͏ͳಉԻҟࣈͷଘࡏ ཁҼ̏ ɹlྤzͷΑ͏ͳ͍͠ࣈͷଘࡏ ཁҼ̍ͱཁҼ̎ɺࣈৄࡉಡΈͰ࠷దͳ୯ޠΛ༻͍Δ͜ͱͰରԠ
Ͱ͖Δͱߟ͑ΒΕΔɻཁҼ̏ະͷࣈΛى͢Δ͜ͱඇৗʹࠔ Ͱ͋Δɻ ࣈৄࡉಡΈʹΑΔରࣈͷىͷ্Λతͱ͠ɺཁҼ̍ͱ ཁҼ̎ʹযΛͯΔɻ
漢字詳細読みの自動生成 ˔̎ஈ֊Ͱߏ͞ΕΔࣈৄࡉಡΈͷࣗಈੜ๏ ɾୈ̍ஈ֊ͰlରͷࣈΛؚΉ୯ޠͱͦͷಡΈz ɹͦͷ͏͑ͰɺϢʔβ͕̍ͭͷࣈΛىͰ͖ͳ͍ ߹ʹୈ̎ஈ֊Ҡߦ͢Δɻ ɾୈ̎ஈ֊ͰɺΠϯλϥΫςΟϒʹ̎ͭͷผͷ ࣈৄࡉಡΈ
漢字詳細読みの自動生成 図1 提案システムの概要
第1段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭରͷࣈ ΛؚΉ୯ޠΛநग़͢ΔɻͦͷࡍɺlߴߍzͳͲͷରͷ ࣈͷಡΈΛෳ࣋ͭ୯ޠআ֎ɻ ᶄ֤୯ޠʹର͠ɺείΞΛҎԼͷࣜᾇΑΓܭࢉ͢Δɻ
第1段階の漢字詳細読み生成法 ᶅ࠷ߴ͍είΞͱͳΔ୯ޠΛ༻͍ͯɺࣈৄࡉಡΈ Λੜ͢Δɻੜͷࡍʹɺબͨ͠୯ޠͷಡΈͱɺͦ ͷ୯ޠதͷରͷࣈͷಡΈΛར༻͢Δɻ ࣜᾇͷЋ͕ ЋͰ͋Δͱɺີ߹͍ ЋͰ͋ΔͱɺಉԻҟࣈͷগͳ͞ Λॏཁࢹ͍ͯ͠Δɻ
第2段階の漢字詳細読み生成法 ɹୈ̍ஈ֊ͰɺରࣈΛؚΉ୯ޠ͕શͯಉԻҟࣈΛ࣋ ͭ߹ɺͦͷࣈΛಛఆͰ͖ΔࣈৄࡉಡΈΛੜ͢Δ͜ ͱ͕Ͱ͖ͳ͍ɻ ྫ͑ʜɹlՊz Ұൠతͳ୯ޠɹlՊֶzlڭՊzɺl୯Պz lՊֶzʹlԽֶz lڭՊzʹlڧԽz l୯ՊzʹlԽzl୯Ձz
ୈ̎ஈ֊Ͱɺୈ̍ஈ֊ͷ݁ՌͱΈ߹ΘͤΔ͜ͱͰɺ ࣈΛىͤ͞Δɻ
第2段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭઆ໌͍ͨ͠ ࣈΛؚΉ୯ޠΛநग़͢Δɻ ᶄநग़ͨ͠୯ޠͷͯ͢ʹείΞΛ͚ͭΔɻ
第2段階の漢字詳細読み生成法 ᶅ࠷ߴ͍είΞͷ୯ޠΛબͨ͠ޙɺ୯ޠX ͱX Λ༻͍ͯࣈৄࡉಡΈΛੜ͢Δɻ ɹࣈͷ֤߹ͤΛى͢Δ߹͍ɺͦͷ߹ͤʹ ؚ·ΕΔ̎୯ޠͷ͏ͪີͷ͍୯ޠͷग़ݱස NJO
D X D X ʹൺྫ͢Δͱߟ͑Δɻ ɹΑͬͯɺରࣈʹର͢ΔͦͷසΛɺશީิͷͦ ͷසͷͰׂͬͨΛىՄೳͳࣈͷᐆດੑͷগ ͳ͞ͱͯ͠༻͍ͯ͠Δɻ
実験 ˔࣮ݧઃఆ (PPHMFຊޠ/άϥϜίʔύε ಡച৽ฉίʔύε ݱຊޠॻ͖ݴ༿ۉߧίʔύε ɹ.F$BCΛ༻͍ͯɺ୯ޠׂͨ݁͠ՌΛఏҊख๏Ͱ
༻͍͍ͯΔ 1$5BMLFS91ɿൺֱରͷεΫϦʔϯϦʔμ
実験 ࣈৄࡉಡΈͷੑೳʹযΛͯΔͨΊɺ࣮ݧͰ (PPHMFίʔύεதʹݱΕΔग़ݱස্Ґޠͷ ࣈΛ༻͍ͨɻ ཁҼ̏ʹΑΔ͍͠ࣈͷଘࡏʹىҼ͢ΔΤϥʔΛ ͳΔ͘ແࢹ͢Δɻ ɹ্هݸͷࣈͷ߹ܭग़ݱසશग़ݱࣈͷ Ҏ্ΛΊ͍ͯΔͨΊɺ࣮༻্ͷ؍͔Βे
3つのコーパスの比較 ˔ఏҊख๏ʹదͨ͠ίʔύεΛௐࠪ ɹఏҊख๏λΠϓ̍Ͱࣗಈੜ͢ΔͨΊɺ͜ΕΒͷ ࣈৄࡉಡΈΛൺֱ͢Δɻ ɹͦͷͨΊʹɺग़ݱස্Ґݸͷࣈ͔Β1$ 5BMLFS91ʹΑΔࣈৄࡉಡΈ͕λΠϓ̍Ҏ֎ͷࣈ আ֎͠ɺͬͨݸͷࣈ͔Βແ࡞ҝʹ̍ݸ ͷࣈΛධՁͷͨΊʹબΜͩɻ
3つのコーパスの比較 ˔ධՁ ࣈৄࡉಡΈΛࢴʹҹࣈ͠ɺແ࡞ҝʹࠞͥɺ̔ਓͷ ධՁऀʹఏࣔ͢Δɻ ֤ࣈʹର͠ɺ̐ͭͷࣈৄࡉಡΈ͕ଘࡏ͢ΔͷͰɺ ֤ࣈৄࡉಡΈΛ̎ਓ͕ධՁ͢Δɻ ຊ࣮ݧͰɺࣈͷىͷՄ൱ʹΑΓධՁͨ͠ɻ
ɹBɿࣈΛى͠ɺਖ਼ղ ɹCɿࣈΛى͕ͨ͠ɺෆਖ਼ղ ɹDɿࣈΛى͠ͳ͔ͬͨɻ
実験結果 ˔ىʢ*3ʣ ɾ#$$8+Λ༻͍ͨख๏ͱ1$5BMLFS91͕࠷ߴ͍ ىΛୡ͍ͯ͠Δɻ ఏҊख๏Ͱ#$$8+Λ༻͍Δ 表1 3つのコーパスの比較の結果
提案手法とスクリーンリーダの比較 ˔ఏҊख๏Ͱ#$$8+͔Βੜͨ͠ࣈৄࡉಡΈΛλΠ ϓ̍Ͱग़ྗ͢Δɻ ˔༻͢Δࣈग़ݱස্Ґݸ͔Βແ࡞ҝʹ ݸͷࣈΛநग़ͨ͠ɻ ˔1$5BMLFS91શମͱͷൺֱΛߦ͏ͨΊʹɺεΫϦʔϯ Ϧʔμͷग़ྗλΠϓ̍ʹݶΒͳ͔ͬͨɻ
˔ͦΕͧΕͷ݁ՌΛݸͣͭΛਓͰධՁ͢Δɻ ɹ֤ৄࡉಡΈਓʹΑΓධՁ͞ΕΔɻ
提案手法とスクリーンリーダの比較 ˔ఏҊख๏ʹ͍ͭͯҎԼͷ̑ͭͷબࢶ͔Βɺదͳ ͷΛ̍ͭબΜͰΒ͏ɻ ɾୈ̍ஈ֊ͷࣈৄࡉಡΈͷΈΛΈͯɺ̍ͭͷࣈΛى ͨ͠ɻ Bɿਖ਼ղͩͬͨ Cɿෆਖ਼ղͩͬͨ ɾୈ̎ஈ֊ͷࣈৄࡉ·ͰΈͯɺ̍ͭͷࣈΛىͨ͠ɻ B`ɿਖ਼ղͩͬͨ C`ɿෆਖ਼ղͩͬͨ
DɿࣈΛى͢Δ͜ͱ͕Ͱ͖ͳ͔ͬͨ
提案手法とスクリーンリーダの比較 ˔1$5BMLFS91ʹ͍ͭͯ̏ͭͷબࢶ͔Βɺద ͳͷΛ̍ͭબΜͰΒ͏ ɹBɿᐆດੑͳ̍ͭ͘ͷࣈΛى͠ɺਖ਼ղ ɹCɿᐆດੑͳ̍ͭ͘ͷࣈΛى͕ͨ͠ɺෆਖ਼ղ ɹDɿࣈ̍ͭΛى͠ͳ͔ͬͨ
実験結果 ˔ද̍ΑΓى͕͘ͳͬͨཧ༝ ɾλΠϓ̍ʹద͍ͯ͠ͳ͍ࣈλΠϓ̍Ͱग़ྗ͞Ε ͨՄೳੑ͕͋Δɻ ˔γεςϜશମͰɺεΫϦʔϯϦʔμΑΓى ͕ߴ͘ੑೳ͕ߴ͍ɻ 表4 提案システムとスクリーンリーダの比較結果
実験結果 ˔ఏҊख๏Ͱɺୈ̎ஈ֊·Ͱදࣔ͢Δͱɺࣈৄࡉ ಡΈͷग़ྗ͕͘ͳΔɻ ͕ͩɺඞͣ͠ୈ̎ஈ֊·ͰݟΔඞཁͳ͍ ࣮ࡍɺධՁऀ͕ݟͨจࣈఏҊख๏ͷํ͕͍ 表5 漢字詳細読みの平均文字数
出力例 表6 BCCWJを用いて提案システムが生成した漢字詳細読みと PC-Talker XPによる出力の例とその評価
まとめ ʻ·ͱΊʼ ˔ࣈͷີͱಉԻҟࣈͷใΛߟྀʹೖΕͨɺςΩετ ίʔύεΛ༻͍ͨࣈৄࡉಡΈͷࣗಈੜ๏ΛఏҊ ˔ఏҊख๏ʹΑΓੜ͞ΕͨࣈৄࡉಡΈ͕ɺεΫϦʔϯ Ϧʔμʹࡌ͞Ε͍ͯΔͷΑΓੑೳ͕ߴ͍ ʻࠓޙͷ՝ʼ ˔ൃԻใͷऔΓೖΕ
˔୯ޠ୯Ґͷઆ໌ಡΈͷੜ