Save 37% off PRO during our Black Friday Sale! »

述語項構造と照応関係のアノテーション

 述語項構造と照応関係のアノテーション

長岡技術科学大学
自然言語処理研究室
角張竜晴

0027afdecf3ac9d5a586f60abcec41d8?s=128

kakubari

May 19, 2017
Tweet

Transcript

 1.     

   ௕ Ԭ ٕ ज़ Պ ֶ େ ֶ ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ ֶ ෦ ̐ ೥ ֯ ு ཽ ੖ 述語項構造と照応関係のアノテーション: NAISTテキストコーパス構築の経験から 飯田 龍・小町 守・井之上 直也・乾 健太郎・松本 裕治 自然言語処理, 7PM /P QQ@@ ਤ΍ද͸࿦จΑΓҾ༻ 1
 2. 研究の背景 ˔طଘͷίʔύε࡞੒Ͱಋೖ͞Ε͍ͯΔλά෇༩ͷج४ ɹݴޠͷҧ͍΍࠷ऴతʹग़ྗ͍ͨ͠ղੳ݁Ռ͕ҟͳΔͨΊɺ ͦͷ··ར༻Ͱ͖ͳ͍ɻ ɹ ˔ຊ࿦จͰͷݕ౼ ɹ˓طଘͷλά෇༩ͷ࢖༻Λۛຯ ɹ˓ड़ޠ߲ߏ଄ͱڞࢀরؔ܎ͷΞϊςʔγϣϯ ɹ˓λά෇༩ͷج४͕Ͳ͏͋Δ΂͖͔Λݕ౼ 

  ˔࡞ۀ݁ՌͰ͋Δ/"*45ςΩετίʔύε ɹIUUQDMOBJTUKQOMEBUBDPSQVT 2
 3. 照応・共参照 3 রԠɿ ɾ͋Δදݱ͕ಉҰจষ಺ͷଞͷදݱΛࢦ͢ػೳɻ ɾࢦ͢ଆͷදݱΛরԠࢺɺࢦ͞ΕΔଆͷදݱΛઌߦࢺͱ͍͏ɻ θϩরԠɿ ɾθϩ୅໊ࢺͱরԠؔ܎ͱͳΔ৔߹ɻ จ಺θϩরԠɿ ɾθϩ୅໊ࢺͱઌߦࢺ͕ಉҰจ಺ʹग़ݱ͍ͯ͠Δ৔߹ɻ จؒθϩরԠɿ

  ɾઌߦࢺ͕θϩ୅໊ࢺͱಉҰจষ಺ͷҟͳΔจষʹग़ݱ͍ͯ͠ Δ৔߹ɻ ڞࢀরɿ ɾೋͭʢ΋͘͠͸ͦΕҎ্ʣͷදݱ͕ݱ࣮ੈքʢ΋͘͠͸Ծ૝ ੈքʣʹ͓͍ͯಉҰͷ࣮ଶΛ͍ͯ͞͠Δ৔߹ɻ
 4. 照応・共参照のタグ付与に関する先行研究 4 ˔4PPOΒʢ4PPO /H BOE-JNʣ΍/HΒʢ/HBOE $BSEJFBʣ ໰୊ɿա৒ͳڞࢀরؔ܎͕λά෇༩͞Ε͍ͯΔɻ ˔"VUPNBUJD$POUFOU&YUSBDUJPO "$&

  %PEEJOHUPOFUBM  ɹఏҊɿա৒ͳڞࢀরؔ܎Λճආ͢ΔͨΊʹɺNFOUJPOʢݴٴʣ ͱFOUJUZʢ࣮ମʣͱ͍͏̎ͭͷ֓೦Λಋೖɻ ɹ໰୊ɿจষ಺ʹग़ݱ͢Δڞࢀরؔ܎ʹ໢ཏతʹλά͕෇༩͞Ε ͳ͍ɻ ˔ژ౎ίʔύεʢՏݪଞʣ ɹ܎Γड͚ͷ৘ใʹՃ͑ɺҰ෦ʹڞࢀরλά͕෇༩͞Ε͍ͯΔɻ
 5. 述語項構造のタグ付与に関する先行研究 5 ˔ඞਢ͕֨লུ͞ΕΔθϩরԠͷݱ৅͕සൟʹى͖Δɻ ɹɾจΛ௒͑ͯग़ݱ͍ͯ͠Δදݱ ɹɾจষ֎ͷཁૉ ɹ্هΛߟྀͯ͠ɺλά෇༩Λߦ͏ඞཁ͕͋Δɻ ژ౎ίʔύε ɾจؒθϩরԠɺ֎քরԠʹؔͯ͠΋λάΛ෇༩ ɾ֨ॿࢺ૬౰ͷද૚֨ʹՃ͑ɺχπΠςͷΑ͏ͳ࿈ޠ

  ΋Ұͭͷද૚֨ͱͯ͠ड़ޠͱ߲ͷؔ܎Λ෇༩ 
 6. 本研究のタグ付与の基準 6 /"*45ςΩετίʔύεͰ࠾༻͢Δλά෇༩ͷ࢓༷ ड़ޠ߲ߏ଄ʹ͍ͭͯ ɹड़ޠͷجຊܗʹͦͷ߲ͱͳΔදݱΛද૚֨ʢΨ֨ɺϮ֨ɺ χ֨ʣϨϕϧͰλά෇༩͢Δɻ  ࣄଶੑ໊ࢺʹ͍ͭͯ

  ɹड़ޠͱಉ༷ʹද૚֨ϨϕϧͰ߲Λ෇༩͢Δɻ  ڞࢀরؔ܎ʹ͍ͭͯ ɹ*3"ͷؔ܎ͷΈΛର৅ͱͯ͠ڞࢀরͷؔ܎Λೝఆ͢Δɻ 
 7. 述語と項のタグ付与 7 B͸ژ౎ίʔύεͷड़ޠ߲ߏ଄Ͱ͋Γɺ C͕ຊ࿦จͷड़ޠ߲ߏ଄Ͱ͋Δɻ ຊ࿦จͷಛ௃ ɾಈࢺͷݪܗʹରͯ͠λάΛ෇༩͢Δɻ ɾ֨ཁૉΛ૿΍͢ॿಈࢺʹରͯ͠΋λάΛ෇༩͢Δɻ

 8. タグ付与作業の結果(統計) 8 表3 述語と事態性名詞のタグの統計(NAISTテキストコーパスの全体)

 9. タグ付与作業の結果(統計) 9 ˔ड़ޠͷ߲ͷग़ݱՕॴ ɾϮ֨ɺχ֨ͷ΄ͱΜͲ͸܎Γؔ܎ ɾΨ֨ͷ໿ׂ̒͸θϩরԠͷؔ܎ ˔ࣄଶੑ໊ࢺͷ߲ͷग़ݱՕॴ ɾϮ֨ɺχ֨͸ಉҰจઅ಺ ɾΨ֨ͷ໿ׂ̔͸θϩরԠͷؔ܎ 

  ὎ड़ޠͱࣄଶੑ໊ࢺͷ߲ͷग़ݱՕॴ͸େ͖͘ҟͳΔ
 10. 作業者のタグ付与の一致率 10 表4 タグの一致率(報道30記事)

 11. タグ付与の問題点 11 ˔ड़ޠͷλά෇༩ͷ໰୊఺ ɹλά෇༩ͷର৅ͱͳΔड़ޠ͕ʮʙͱͯ͠ʯͷΑ͏ͳػೳ ޠ૬౰දݱͷ໰୊͕͋Δɻ ྫ͑͹ɾɾɾʮձࣾ"͕ձࣾ#Λࢠձࣾͱͯ͠ʯ ɾʮͱͯ͠ʯ͕z͋ΔҰͭͷଆ໘͔ΒͷՁ஋෇͚ɾҙຯ෇ ͚zɹͷػೳޠ૬౰දݱ ɾʮձࣾ"͕ձࣾ#Λࢠձࣾͱ͢Δʯͱղऍ

   ὎౔԰Βʢ౔԰ Ӊ௡࿊ দ٢ ࠤ౻ த઒ʣࢀߟ༧ ఆ
 12. タグ付与の問題点 12 ˔ࣄଶੑ໊ࢺλά෇༩ͷ໰୊఺ ɹࠓճ͸ɺࣄଶੑ໊ࢺ͕zίτzΛද͍ͯ͠Δ৔߹ͷΈ ʹλάΛ෇༩͍ͯ͠Δɻ ͕ͩɺࣄଶੑ໊ࢺͷதʹ͸ lίτzͱzϞϊzͷͲͪΒͱ΋ղऍͰ͖Δ΋ͷ͕͋Δɻ ྫ͑͹ɾɾɾใࠂ

  ɹɾίτɿใࠂ͢Δಈ࡞ ɹɾϞϊɿใࠂ͞ΕΔ݁Ռ
 13. 事態性名詞タグ付与の改善点 13 ˔मਖ਼఺̍ ϞϊΛࢦ͢දݱʹରͯ͠΋λάΛ෇༩͢Δɻ ˔मਖ਼఺̎ ϞϊͱίτΛࢦ͢දݱΛ۠ผ͢ΔͨΊɺϞϊͱ൑அ͠ ͨࠜڌ΋λά

 14. タグ付与の改善結果 14 ɾจষதͷ΄ͱΜͲͷαม໊ࢺ͕߲ͷ෇༩ର৅ɻ ɾ߲Λ͔࣋ͭ൱͔ͷҰக཰͸Ͱ͋ΓɺҎલͷ ΑΓ΋࡞ۀ඼࣭͕޲্ͨ͠ɻ ɾ߲͕Ұக͠ͳ͔ͬͨ΋ͷ͸ɺ࡞ۀऀ͕֨ύλʔϯΛ ૝ى͢Δ͜ͱ͕Ͱ͖ͳ͔ͬͨ৔߹͕ଟ͍ɻ 表6 名詞クラスのタグ付与の作業結果(報道50記事、サ変名詞665箇所)

 15. まとめ 15 ɾژ౎ίʔύεΛର৅ʹ͜Ε·Ͱʹͳ͍େن໛ͳ ड़ޠ߲ߏ଄ɾڞࢀরλά෇͖ίʔύεΛߏஙɻ ɾػցֶशͷ܇࿅ࣄྫͱ͢Δ৔߹͸ɺ෼໺ͷҧ͍ʹΑ Γద੾ʹղੳͰ͖ͳ͍৔߹͕͋ΔͨΊɺ͍͔ͭ͘ͷྖ Ҭʹ֦ுͯ͠λά෇༩Λߦ͏ඞཁ͕͋Δɻ