Pro Yearly is on sale from $80 to $50! »

述語項構造と照応関係のアノテーション

 述語項構造と照応関係のアノテーション

長岡技術科学大学
自然言語処理研究室
角張竜晴

0027afdecf3ac9d5a586f60abcec41d8?s=128

kakubari

May 19, 2017
Tweet

Transcript

  1.          

     ௕ Ԭ ٕ ज़ Պ ֶ େ ֶ  ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ  ֶ ෦ ̐ ೥  ֯ ு ཽ ੖  述語項構造と照応関係のアノテーション: NAISTテキストコーパス構築の経験から 飯田 龍・小町 守・井之上 直也・乾 健太郎・松本 裕治 自然言語処理, 7PM /P QQ@@  ਤ΍ද͸࿦จΑΓҾ༻ 1
  2. 研究の背景 ˔طଘͷίʔύε࡞੒Ͱಋೖ͞Ε͍ͯΔλά෇༩ͷج४ ɹݴޠͷҧ͍΍࠷ऴతʹग़ྗ͍ͨ͠ղੳ݁Ռ͕ҟͳΔͨΊɺ ͦͷ··ར༻Ͱ͖ͳ͍ɻ ɹ ˔ຊ࿦จͰͷݕ౼ ɹ˓طଘͷλά෇༩ͷ࢖༻Λۛຯ ɹ˓ड़ޠ߲ߏ଄ͱڞࢀরؔ܎ͷΞϊςʔγϣϯ ɹ˓λά෇༩ͷج४͕Ͳ͏͋Δ΂͖͔Λݕ౼ 

    ˔࡞ۀ݁ՌͰ͋Δ/"*45ςΩετίʔύε ɹIUUQDMOBJTUKQOMEBUBDPSQVT 2
  3. 照応・共参照 3 রԠɿ ɾ͋Δදݱ͕ಉҰจষ಺ͷଞͷදݱΛࢦ͢ػೳɻ ɾࢦ͢ଆͷදݱΛরԠࢺɺࢦ͞ΕΔଆͷදݱΛઌߦࢺͱ͍͏ɻ θϩরԠɿ ɾθϩ୅໊ࢺͱরԠؔ܎ͱͳΔ৔߹ɻ จ಺θϩরԠɿ ɾθϩ୅໊ࢺͱઌߦࢺ͕ಉҰจ಺ʹग़ݱ͍ͯ͠Δ৔߹ɻ จؒθϩরԠɿ

    ɾઌߦࢺ͕θϩ୅໊ࢺͱಉҰจষ಺ͷҟͳΔจষʹग़ݱ͍ͯ͠ Δ৔߹ɻ ڞࢀরɿ ɾೋͭʢ΋͘͠͸ͦΕҎ্ʣͷදݱ͕ݱ࣮ੈքʢ΋͘͠͸Ծ૝ ੈքʣʹ͓͍ͯಉҰͷ࣮ଶΛ͍ͯ͞͠Δ৔߹ɻ
  4. 照応・共参照のタグ付与に関する先行研究 4 ˔4PPOΒʢ4PPO /H BOE-JNʣ΍/HΒʢ/HBOE $BSEJFBʣ  ໰୊ɿա৒ͳڞࢀরؔ܎͕λά෇༩͞Ε͍ͯΔɻ  ˔"VUPNBUJD$POUFOU&YUSBDUJPO "$&

    %PEEJOHUPOFUBM   ɹఏҊɿա৒ͳڞࢀরؔ܎Λճආ͢ΔͨΊʹɺNFOUJPOʢݴٴʣ ͱFOUJUZʢ࣮ମʣͱ͍͏̎ͭͷ֓೦Λಋೖɻ ɹ໰୊ɿจষ಺ʹग़ݱ͢Δڞࢀরؔ܎ʹ໢ཏతʹλά͕෇༩͞Ε ͳ͍ɻ  ˔ژ౎ίʔύεʢՏݪଞʣ ɹ܎Γड͚ͷ৘ใʹՃ͑ɺҰ෦ʹڞࢀরλά͕෇༩͞Ε͍ͯΔɻ
  5. 述語項構造のタグ付与に関する先行研究 5 ˔ඞਢ͕֨লུ͞ΕΔθϩরԠͷݱ৅͕සൟʹى͖Δɻ ɹɾจΛ௒͑ͯग़ݱ͍ͯ͠Δදݱ ɹɾจষ֎ͷཁૉ ɹ্هΛߟྀͯ͠ɺλά෇༩Λߦ͏ඞཁ͕͋Δɻ  ژ౎ίʔύε ɾจؒθϩরԠɺ֎քরԠʹؔͯ͠΋λάΛ෇༩ ɾ֨ॿࢺ૬౰ͷද૚֨ʹՃ͑ɺχπΠςͷΑ͏ͳ࿈ޠ

    ΋Ұͭͷද૚֨ͱͯ͠ड़ޠͱ߲ͷؔ܎Λ෇༩ 
  6. 本研究のタグ付与の基準 6 /"*45ςΩετίʔύεͰ࠾༻͢Δλά෇༩ͷ࢓༷  ड़ޠ߲ߏ଄ʹ͍ͭͯ ɹड़ޠͷجຊܗʹͦͷ߲ͱͳΔදݱΛද૚֨ʢΨ֨ɺϮ֨ɺ χ֨ʣϨϕϧͰλά෇༩͢Δɻ   ࣄଶੑ໊ࢺʹ͍ͭͯ

    ɹड़ޠͱಉ༷ʹද૚֨ϨϕϧͰ߲Λ෇༩͢Δɻ   ڞࢀরؔ܎ʹ͍ͭͯ ɹ*3"ͷؔ܎ͷΈΛର৅ͱͯ͠ڞࢀরͷؔ܎Λೝఆ͢Δɻ 
  7. 述語と項のタグ付与 7 B͸ژ౎ίʔύεͷड़ޠ߲ߏ଄Ͱ͋Γɺ C͕ຊ࿦จͷड़ޠ߲ߏ଄Ͱ͋Δɻ  ຊ࿦จͷಛ௃ ɾಈࢺͷݪܗʹରͯ͠λάΛ෇༩͢Δɻ ɾ֨ཁૉΛ૿΍͢ॿಈࢺʹରͯ͠΋λάΛ෇༩͢Δɻ

  8. タグ付与作業の結果(統計) 8 表3 述語と事態性名詞のタグの統計(NAISTテキストコーパスの全体)

  9. タグ付与作業の結果(統計) 9 ˔ड़ޠͷ߲ͷग़ݱՕॴ ɾϮ֨ɺχ֨ͷ΄ͱΜͲ͸܎Γؔ܎ ɾΨ֨ͷ໿ׂ̒͸θϩরԠͷؔ܎  ˔ࣄଶੑ໊ࢺͷ߲ͷग़ݱՕॴ ɾϮ֨ɺχ֨͸ಉҰจઅ಺ ɾΨ֨ͷ໿ׂ̔͸θϩরԠͷؔ܎ 

    ὎ड़ޠͱࣄଶੑ໊ࢺͷ߲ͷग़ݱՕॴ͸େ͖͘ҟͳΔ
  10. 作業者のタグ付与の一致率 10 表4 タグの一致率(報道30記事)

  11. タグ付与の問題点 11 ˔ड़ޠͷλά෇༩ͷ໰୊఺ ɹλά෇༩ͷର৅ͱͳΔड़ޠ͕ʮʙͱͯ͠ʯͷΑ͏ͳػೳ ޠ૬౰දݱͷ໰୊͕͋Δɻ  ྫ͑͹ɾɾɾʮձࣾ"͕ձࣾ#Λࢠձࣾͱͯ͠ʯ ɾʮͱͯ͠ʯ͕z͋ΔҰͭͷଆ໘͔ΒͷՁ஋෇͚ɾҙຯ෇ ͚zɹͷػೳޠ૬౰දݱ ɾʮձࣾ"͕ձࣾ#Λࢠձࣾͱ͢Δʯͱղऍ

     ὎౔԰Βʢ౔԰ Ӊ௡࿊ দ٢ ࠤ౻ த઒ʣࢀߟ༧ ఆ
  12. タグ付与の問題点 12 ˔ࣄଶੑ໊ࢺλά෇༩ͷ໰୊఺ ɹࠓճ͸ɺࣄଶੑ໊ࢺ͕zίτzΛද͍ͯ͠Δ৔߹ͷΈ ʹλάΛ෇༩͍ͯ͠Δɻ  ͕ͩɺࣄଶੑ໊ࢺͷதʹ͸ lίτzͱzϞϊzͷͲͪΒͱ΋ղऍͰ͖Δ΋ͷ͕͋Δɻ  ྫ͑͹ɾɾɾใࠂ

    ɹɾίτɿใࠂ͢Δಈ࡞ ɹɾϞϊɿใࠂ͞ΕΔ݁Ռ
  13. 事態性名詞タグ付与の改善点 13 ˔मਖ਼఺̍ ϞϊΛࢦ͢දݱʹରͯ͠΋λάΛ෇༩͢Δɻ  ˔मਖ਼఺̎ ϞϊͱίτΛࢦ͢දݱΛ۠ผ͢ΔͨΊɺϞϊͱ൑அ͠ ͨࠜڌ΋λά

  14. タグ付与の改善結果 14 ɾจষதͷ΄ͱΜͲͷαม໊ࢺ͕߲ͷ෇༩ର৅ɻ ɾ߲Λ͔࣋ͭ൱͔ͷҰக཰͸Ͱ͋ΓɺҎલͷ ΑΓ΋࡞ۀ඼࣭͕޲্ͨ͠ɻ  ɾ߲͕Ұக͠ͳ͔ͬͨ΋ͷ͸ɺ࡞ۀऀ͕֨ύλʔϯΛ ૝ى͢Δ͜ͱ͕Ͱ͖ͳ͔ͬͨ৔߹͕ଟ͍ɻ 表6 名詞クラスのタグ付与の作業結果(報道50記事、サ変名詞665箇所)

  15. まとめ 15 ɾژ౎ίʔύεΛର৅ʹ͜Ε·Ͱʹͳ͍େن໛ͳ ड़ޠ߲ߏ଄ɾڞࢀরλά෇͖ίʔύεΛߏஙɻ  ɾػցֶशͷ܇࿅ࣄྫͱ͢Δ৔߹͸ɺ෼໺ͷҧ͍ʹΑ Γద੾ʹղੳͰ͖ͳ͍৔߹͕͋ΔͨΊɺ͍͔ͭ͘ͷྖ Ҭʹ֦ுͯ͠λά෇༩Λߦ͏ඞཁ͕͋Δɻ