Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テキストコーパスを用いた漢字詳細読みの自動生成

0027afdecf3ac9d5a586f60abcec41d8?s=47 kakubari
March 09, 2017

 テキストコーパスを用いた漢字詳細読みの自動生成

長岡技術科学大学
自然言語処理研究室
学部3年 角張竜晴

0027afdecf3ac9d5a586f60abcec41d8?s=128

kakubari

March 09, 2017
Tweet

Transcript

  1.          

     ௕ Ԭ ٕ ज़ Պ ֶ େ ֶ  ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ  ֶ ෦  ೥  ֯ ு ཽ ੖  テキストコーパスを用いた漢字詳細読みの自動生成 川崎 博章, 笹野 遼平, 高村 大也, 奥村 学 ৘ใॲཧֶձ࿦จࢽʢδϟʔφϧʣ ɹ7PMɹ/Pɹ %FD   ਤ΍ද͸࿦จΑΓҾ༻
  2. 概要 ˔εΫϦʔϯϦʔμͷ׽ࣈৄࡉಡΈͰɺԻ੠ʹΑΔઆ໌ͩ ͚Ͱ͸Ϣʔβʹ׽ࣈΛਖ਼͘͠૝ىͤ͞Δɻ ɹଟ͘ͷ׽ࣈʹ͸ಉԻҟࣈ͕ଘࡏ͍ͯ͠Δɻ ɾҰൠతʹ͸ɺlί΢χϡ΢zͱ͍͏ಡΈͷ׽ࣈ͸ɺ ɹlߪೖz͔͠ͳ͍ͨΊɺlߪz͸lί΢χϡ΢ͷί΢zͰ૝ى Ͱ͖Δ ɾlί΢όΠzͱ͍͏ಡΈͷ׽ࣈ͸ɺlޯ഑z΍lެചz͕ଘ ࡏ͢ΔͨΊ ɹlί΢όΠͷί΢z͔Βlߪz͕૝ى͠ʹ͍͘

    ɹ ಉԻҟࣈͷ৘ใͱ୯ޠͷ਌ີ౓ΛߟྀʹೖΕͨίʔύεΛ ༻͍ͨ׽ࣈৄࡉಡΈͷࣗಈੜ੒ΛఏҊ  
  3. 概要 ˔Θ͔ͬͨ͜ͱ —  ΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ὎ੜ੒͞ΕΔ׽ࣈৄࡉಡΈͷ௕͞ΛطଘͷεΫϦʔϯ Ϧʔμͱಉఔ౓ʹ཈͍͑ͯΔ  —  ࣗಈੜ੒͞Εͨ׽ࣈৄࡉಡΈͷੑೳ͕طଘͷ΋ͷΑ Γ΋ߴ͍

  4. はじめに ˔೔ຊޠʹ͸ฏԾ໊ɺยԾ໊ɺ׽ࣈͷ̏छྨ ɹɾฏԾ໊ͱยԾ໊͸̍ͭͷԻʹ̍ͭͷจࣈ ɹɾ׽ࣈ͸ಉԻҟࣈ͕ଘࡏ ὎׽ࣈͷಡΈͷΈͰઆ໌͢Δͱɺᐆດੑ͕ଘࡏ͢Δ  ͦͷͨΊɺઆ໌ର৅ͷ׽ࣈͷԻಡΈ΍܇ಡΈɺߏ੒ཁ ૉͳಛ௃͕ར༻͞ΕΔɻ  

  5. はじめに ˔େن໛ςΩετίʔύεΛར༻ͨ͠׽ࣈৄࡉಡΈͷ ࣗಈੜ੒๏ͷఏҊ ɾޠͷ਌ີ౓ ɾಉԻҟࣈͷग़ݱ਺ʹؔ͢Δ৘ใ  ˔ࣗಈԻ੠Ҋ಺Λ൐͏νέοτ༧໿γεςϜͰͷར༻ ɾΠϯλϥΫςΟϒͳཁૉΛऔΓೖΕΔ ɾ׽ࣈ૝ىͷͨΊʹॏཁͳ৘ใΛૣΊʹग़ྗ͠ɺϢʔ βͷཁٻʹԠͯ͡ඞཁͳ৘ใΛ௥Ճ͍ͯ͘͠ߏ଄

  6. 従来の漢字詳細読みの分類 λΠϓ̍ɹର৅ͷ׽ࣈΛؚΉ୯ޠͱͦͷಡΈ lί΢όΠʢߪങʣͷί΢z  ὎lߪz lώϣ΢ΧʢධՁʣͷΧz    ὎lՁz

    λΠϓ̎ɹର৅ͷ׽ࣈ͕ಠಛͳಡΈ lαΫϥʢࡩʣz     ὎lࡩz lϑλλϏʢ࠶ͼʣ αΠʢ࠶ʣz  ὎l࠶z λΠϓ̏ɹର৅׽ࣈͷಛ௃ͱͦͷಡΈ lαϯζΠͷΧϫz     ὎lՏz lΧϯε΢δͷΠνz   ὎lҰz  ὎ຊ࿦จͰ͸ɺ౷ܭ৘ใΛར༻͢Δ͜ͱʹΑΓ૝ى཰͕ߴ ͍׽ࣈৄࡉಡΈͷੜ੒͕ՄೳͰ͋ΔλΠϓ̍ͰࢼΈΔɻ
  7. 既存の漢字詳細読みの問題点 ཁҼ̍ ɹlνϤΨϛͷϤzͱ͍͏׽ࣈৄࡉಡΈͰ༻͍ΒΕ͍ͯΔlઍ୅ࢴzͷΑ ͏ͳ௿͍਌ີ౓ͷ୯ޠͷଘࡏ ཁҼ̎ ɹlߪങzͱlޯ഑zͷΑ͏ͳಉԻҟࣈͷଘࡏ ཁҼ̏ ɹlྤzͷΑ͏ͳ೉͍͠׽ࣈͷଘࡏ  ὎ཁҼ̍ͱཁҼ̎͸ɺ׽ࣈৄࡉಡΈͰ࠷దͳ୯ޠΛ༻͍Δ͜ͱͰରԠ

    Ͱ͖Δͱߟ͑ΒΕΔɻཁҼ̏͸ະ஌ͷ׽ࣈΛ૝ى͢Δ͜ͱ͸ඇৗʹࠔ ೉Ͱ͋Δɻ  ὎׽ࣈৄࡉಡΈʹΑΔର৅׽ࣈͷ૝ى཰ͷ޲্Λ໨తͱ͠ɺཁҼ̍ͱ ཁҼ̎ʹয఺Λ౰ͯΔɻ 
  8. 漢字詳細読みの自動生成 ˔̎ஈ֊Ͱߏ੒͞ΕΔ׽ࣈৄࡉಡΈͷࣗಈੜ੒๏ ɾୈ̍ஈ֊Ͱ͸lର৅ͷ׽ࣈΛؚΉ୯ޠͱͦͷಡΈz  ɹͦͷ͏͑ͰɺϢʔβ͕̍ͭͷ׽ࣈΛ૝ىͰ͖ͳ͍৔ ߹ʹ͸ୈ̎ஈ֊΁Ҡߦ͢Δɻ ɾୈ̎ஈ֊Ͱ͸ɺΠϯλϥΫςΟϒʹ̎ͭ໨ͷผͷ׽ ࣈৄࡉಡΈ

  9. 漢字詳細読みの自動生成 図1 提案システムの概要

  10. 第1段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭର৅ͷ׽ࣈ ΛؚΉ୯ޠΛநग़͢ΔɻͦͷࡍɺlߴߍzͳͲͷର৅ͷ ׽ࣈͷಡΈΛෳ਺࣋ͭ୯ޠ͸আ֎ɻ  ᶄ֤୯ޠʹର͠ɺείΞΛҎԼͷࣜᾇΑΓܭࢉ͢Δɻ 

  11. 第1段階の漢字詳細読み生成法 ᶅ࠷΋ߴ͍είΞͱͳΔ୯ޠΛ༻͍ͯɺ׽ࣈৄࡉಡΈ Λੜ੒͢Δɻੜ੒ͷࡍʹɺબ୒ͨ͠୯ޠͷಡΈͱɺͦ ͷ୯ޠதͷର৅ͷ׽ࣈͷಡΈΛར༻͢Δɻ  ࣜᾇͷЋ͕ ЋͰ͋Δͱɺ਌ີ౓౓߹͍  ЋͰ͋ΔͱɺಉԻҟࣈͷগͳ͞ Λॏཁࢹ͍ͯ͠Δɻ

  12. 第2段階の漢字詳細読み生成法 ɹୈ̍ஈ֊Ͱ͸ɺର৅׽ࣈΛؚΉ୯ޠ͕શͯಉԻҟࣈΛ࣋ ͭ৔߹ɺͦͷ׽ࣈΛಛఆͰ͖Δ׽ࣈৄࡉಡΈΛੜ੒͢Δ͜ ͱ͕Ͱ͖ͳ͍ɻ  ྫ͑͹ʜɹlՊz Ұൠతͳ୯ޠɹlՊֶz΍lڭՊzɺl୯Պz lՊֶzʹ͸lԽֶz lڭՊzʹ͸lڧԽz l୯Պzʹ͸l୸Խz΍l୯Ձz

     ὎ୈ̎ஈ֊Ͱ͸ɺୈ̍ஈ֊ͷ݁Ռͱ૊Έ߹ΘͤΔ͜ͱͰɺ ׽ࣈΛ૝ىͤ͞Δɻ
  13. 第2段階の漢字詳細読み生成法 ᶃίʔύε͔Βɺ̎จࣈҎ্ΛؚΈɺ͔ͭઆ໌͍ͨ͠ ׽ࣈΛؚΉ୯ޠΛநग़͢Δɻ  ᶄநग़ͨ͠୯ޠͷ૊͢΂ͯʹείΞΛ͚ͭΔɻ 

  14. 第2段階の漢字詳細読み生成法 ᶅ࠷΋ߴ͍είΞͷ୯ޠΛબ୒ͨ͠ޙɺ୯ޠX  ͱX  Λ༻͍ͯ׽ࣈৄࡉಡΈΛੜ੒͢Δɻ  ɹ׽ࣈͷ֤૊߹ͤΛ૝ى͢Δ౓߹͍͸ɺͦͷ૊߹ͤʹ ؚ·ΕΔ̎୯ޠͷ͏ͪ਌ີ౓ͷ௿͍୯ޠͷग़ݱස౓ NJO

    D X  D X  ʹൺྫ͢Δͱߟ͑Δɻ ɹΑͬͯɺର৅׽ࣈʹର͢Δͦͷස౓Λɺશީิͷͦ ͷස౓ͷ࿨Ͱׂͬͨ஋Λ૝ىՄೳͳ׽ࣈͷᐆດੑͷগ ͳ͞ͱͯ͠࢖༻͍ͯ͠Δɻ
  15. 実験 ˔࣮ݧઃఆ —  (PPHMF೔ຊޠ/άϥϜίʔύε —  ಡച৽ฉίʔύε —  ݱ୅೔ຊޠॻ͖ݴ༿ۉߧίʔύε  ɹ.F$BCΛ༻͍ͯɺ୯ޠ෼ׂͨ݁͠ՌΛఏҊख๏Ͱ

    ͸༻͍͍ͯΔ  —  1$5BMLFS91ɿൺֱର৅ͷεΫϦʔϯϦʔμ 
  16. 実験 ׽ࣈৄࡉಡΈͷੑೳʹয఺Λ౰ͯΔͨΊɺ࣮ݧͰ͸ (PPHMFίʔύεதʹݱΕΔग़ݱස౓্Ґޠͷ׽ ࣈΛ༻͍ͨɻ ὎ཁҼ̏ʹΑΔ೉͍͠׽ࣈͷଘࡏʹىҼ͢ΔΤϥʔΛ ͳΔ΂͘ແࢹ͢Δɻ  ɹ্هݸͷ׽ࣈͷ߹ܭग़ݱස౓͸શग़ݱ׽ࣈͷ Ҏ্Λ઎Ί͍ͯΔͨΊɺ࣮༻্ͷ؍఺͔Βे෼

  17. 3つのコーパスの比較 ˔ఏҊख๏ʹదͨ͠ίʔύεΛௐࠪ ɹఏҊख๏͸λΠϓ̍Ͱࣗಈੜ੒͢ΔͨΊɺ͜ΕΒͷ ׽ࣈৄࡉಡΈΛൺֱ͢Δɻ  ɹͦͷͨΊʹɺग़ݱස౓্Ґݸͷ׽ࣈ͔Β1$ 5BMLFS91ʹΑΔ׽ࣈৄࡉಡΈ͕λΠϓ̍Ҏ֎ͷ׽ࣈ ͸আ֎͠ɺ࢒ͬͨݸͷ׽ࣈ͔Βແ࡞ҝʹ̍ݸ ͷ׽ࣈΛධՁͷͨΊʹબΜͩɻ

  18. 3つのコーパスの比較 ˔ධՁ —  ׽ࣈৄࡉಡΈΛࢴʹҹࣈ͠ɺແ࡞ҝʹࠞͥɺ̔ਓͷ ධՁऀʹఏࣔ͢Δɻ —  ֤׽ࣈʹର͠ɺ̐ͭͷ׽ࣈৄࡉಡΈ͕ଘࡏ͢ΔͷͰɺ ֤׽ࣈৄࡉಡΈΛ̎ਓ͕ධՁ͢Δɻ —  ຊ࣮ݧͰ͸ɺ׽ࣈͷ૝ىͷՄ൱ʹΑΓධՁͨ͠ɻ

    ɹBɿ׽ࣈΛ૝ى͠ɺਖ਼ղ ɹCɿ׽ࣈΛ૝ى͕ͨ͠ɺෆਖ਼ղ ɹDɿ׽ࣈΛ૝ى͠ͳ͔ͬͨɻ 
  19. 実験結果 ˔૝ى཰ʢ*3ʣ   ɾ#$$8+Λ༻͍ͨख๏ͱ1$5BMLFS91͕࠷΋ߴ͍૝ ى཰Λୡ੒͍ͯ͠Δɻ ὎ఏҊख๏Ͱ͸#$$8+Λ༻͍Δ   表1 3つのコーパスの比較の結果

  20. 提案手法とスクリーンリーダの比較 ˔ఏҊख๏Ͱ͸#$$8+͔Βੜ੒ͨ͠׽ࣈৄࡉಡΈΛλΠ ϓ̍Ͱग़ྗ͢Δɻ  ˔࢖༻͢Δ׽ࣈ͸ग़ݱස౓্Ґݸ͔Βແ࡞ҝʹ ݸͷ׽ࣈΛநग़ͨ͠ɻ  ˔1$5BMLFS91શମͱͷൺֱΛߦ͏ͨΊʹɺεΫϦʔϯ Ϧʔμͷग़ྗ͸λΠϓ̍ʹݶΒͳ͔ͬͨɻ 

    ˔ͦΕͧΕͷ݁ՌΛݸͣͭΛਓͰධՁ͢Δɻ ɹ֤ৄࡉಡΈ͸ਓʹΑΓධՁ͞ΕΔɻ
  21. 提案手法とスクリーンリーダの比較 ˔ఏҊख๏ʹ͍ͭͯ͸ҎԼͷ̑ͭͷબ୒ࢶ͔Βɺద੾ͳ΋ ͷΛ̍ͭબΜͰ΋Β͏ɻ ɾୈ̍ஈ֊ͷ׽ࣈৄࡉಡΈͷΈΛΈͯɺ̍ͭͷ׽ࣈΛ૝ى ͨ͠ɻ Bɿਖ਼ղͩͬͨ Cɿෆਖ਼ղͩͬͨ ɾୈ̎ஈ֊ͷ׽ࣈৄࡉ·ͰΈͯɺ̍ͭͷ׽ࣈΛ૝ىͨ͠ɻ B`ɿਖ਼ղͩͬͨ C`ɿෆਖ਼ղͩͬͨ

    Dɿ׽ࣈΛ૝ى͢Δ͜ͱ͕Ͱ͖ͳ͔ͬͨ
  22. 提案手法とスクリーンリーダの比較 ˔1$5BMLFS91ʹ͍ͭͯ͸̏ͭͷબ୒ࢶ͔Βɺద੾ ͳ΋ͷΛ̍ͭબΜͰ΋Β͏ ɹBɿᐆດੑͳ̍ͭ͘ͷ׽ࣈΛ૝ى͠ɺਖ਼ղ ɹCɿᐆດੑͳ̍ͭ͘ͷ׽ࣈΛ૝ى͕ͨ͠ɺෆਖ਼ղ ɹDɿ׽ࣈ̍ͭΛ૝ى͠ͳ͔ͬͨ 

  23. 実験結果 ˔ද̍ΑΓ΋૝ى཰͕௿͘ͳͬͨཧ༝ ɾλΠϓ̍ʹద͍ͯ͠ͳ͍׽ࣈ΋λΠϓ̍Ͱग़ྗ͞Ε ͨՄೳੑ͕͋Δɻ ˔γεςϜશମͰ͸ɺεΫϦʔϯϦʔμΑΓ΋૝ى཰ ͕ߴ͘ੑೳ͕ߴ͍ɻ 表4 提案システムとスクリーンリーダの比較結果

  24. 実験結果 ˔ఏҊख๏Ͱ͸ɺୈ̎ஈ֊·Ͱදࣔ͢Δͱɺ׽ࣈৄࡉ ಡΈͷग़ྗ͕௕͘ͳΔɻ ὎͕ͩɺඞͣ͠΋ୈ̎ஈ֊·ͰݟΔඞཁ͸ͳ͍  ὎࣮ࡍɺධՁऀ͕ݟͨจࣈ਺͸ఏҊख๏ͷํ͕୹͍  表5 漢字詳細読みの平均文字数

  25. 出力例 表6 BCCWJを用いて提案システムが生成した漢字詳細読みと PC-Talker XPによる出力の例とその評価

  26. まとめ ʻ·ͱΊʼ ˔׽ࣈͷ਌ີ౓ͱಉԻҟࣈͷ৘ใΛߟྀʹೖΕͨɺςΩετ ίʔύεΛ༻͍ͨ׽ࣈৄࡉಡΈͷࣗಈੜ੒๏ΛఏҊ  ˔ఏҊख๏ʹΑΓੜ੒͞Εͨ׽ࣈৄࡉಡΈ͕ɺεΫϦʔϯ Ϧʔμʹ౥ࡌ͞Ε͍ͯΔ΋ͷΑΓੑೳ͕ߴ͍  ʻࠓޙͷ՝୊ʼ ˔ൃԻ৘ใͷऔΓೖΕ

    ˔୯ޠ୯Ґͷઆ໌ಡΈͷੜ੒