述語項構造と照応関係のアノテーション

௕ Ԭ ٕ ज़ Պ ֶ େ ֶ ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ ֶ ෦ ̐ ೥ ֯ ு ཽ ੖ 述語項構造と照応関係のアノテーション： NAISTテキストコーパス構築の経験から飯田龍・小町守・井之上直也・乾健太郎・松本裕治自然言語処理, 7PM /P QQ@@ ਤ΍ද͸࿦จΑΓҾ༻ 1

研究の背景 ˔طଘͷίʔύε࡞੒Ͱಋೖ͞Ε͍ͯΔλά෇༩ͷج४ ɹݴޠͷҧ͍΍࠷ऴతʹग़ྗ͍ͨ͠ղੳ݁Ռ͕ҟͳΔͨΊɺ ͦͷ··ར༻Ͱ͖ͳ͍ɻ ɹ ˔ຊ࿦จͰͷݕ౼ ɹ˓طଘͷλά෇༩ͷ࢖༻Λۛຯ ɹ˓ड़ޠ߲ߏ଄ͱڞࢀরؔ܎ͷΞϊςʔγϣϯ ɹ˓λά෇༩ͷج४͕Ͳ͏͋Δ΂͖͔Λݕ౼
˔࡞ۀ݁ՌͰ͋Δ/"*45ςΩετίʔύε ɹIUUQDMOBJTUKQOMEBUBDPSQVT 2

照応・共参照 3 রԠɿ ɾ͋Δදݱ͕ಉҰจষ಺ͷଞͷදݱΛࢦ͢ػೳɻ ɾࢦ͢ଆͷදݱΛরԠࢺɺࢦ͞ΕΔଆͷදݱΛઌߦࢺͱ͍͏ɻ θϩরԠɿ ɾθϩ୅໊ࢺͱরԠؔ܎ͱͳΔ৔߹ɻ จ಺θϩরԠɿ ɾθϩ୅໊ࢺͱઌߦࢺ͕ಉҰจ಺ʹग़ݱ͍ͯ͠Δ৔߹ɻ จؒθϩরԠɿ
ɾઌߦࢺ͕θϩ୅໊ࢺͱಉҰจষ಺ͷҟͳΔจষʹग़ݱ͍ͯ͠ Δ৔߹ɻ ڞࢀরɿ ɾೋͭʢ΋͘͠͸ͦΕҎ্ʣͷදݱ͕ݱ࣮ੈքʢ΋͘͠͸Ծ૝ ੈքʣʹ͓͍ͯಉҰͷ࣮ଶΛ͍ͯ͞͠Δ৔߹ɻ

照応・共参照のタグ付与に関する先行研究 4 ˔4PPOΒʢ4PPO /H BOE-JNʣ΍/HΒʢ/HBOE $BSEJFBʣ 　໰୊ɿա৒ͳڞࢀরؔ܎͕λά෇༩͞Ε͍ͯΔɻ ˔"VUPNBUJD$POUFOU&YUSBDUJPO "$&
%PEEJOHUPOFUBM ɹఏҊɿա৒ͳڞࢀরؔ܎Λճආ͢ΔͨΊʹɺNFOUJPOʢݴٴʣ ͱFOUJUZʢ࣮ମʣͱ͍͏̎ͭͷ֓೦Λಋೖɻ ɹ໰୊ɿจষ಺ʹग़ݱ͢Δڞࢀরؔ܎ʹ໢ཏతʹλά͕෇༩͞Ε ͳ͍ɻ ˔ژ౎ίʔύεʢՏݪଞʣ ɹ܎Γड͚ͷ৘ใʹՃ͑ɺҰ෦ʹڞࢀরλά͕෇༩͞Ε͍ͯΔɻ

述語項構造のタグ付与に関する先行研究 5 ˔ඞਢ͕֨লུ͞ΕΔθϩরԠͷݱ৅͕සൟʹى͖Δɻ ɹɾจΛ௒͑ͯग़ݱ͍ͯ͠Δදݱ ɹɾจষ֎ͷཁૉ ɹ্هΛߟྀͯ͠ɺλά෇༩Λߦ͏ඞཁ͕͋Δɻ ژ౎ίʔύε ɾจؒθϩরԠɺ֎քরԠʹؔͯ͠΋λάΛ෇༩ ɾ֨ॿࢺ૬౰ͷද૚֨ʹՃ͑ɺχπΠςͷΑ͏ͳ࿈ޠ
΋Ұͭͷද૚֨ͱͯ͠ड़ޠͱ߲ͷؔ܎Λ෇༩

本研究のタグ付与の基準 6 /"*45ςΩετίʔύεͰ࠾༻͢Δλά෇༩ͷ࢓༷ ड़ޠ߲ߏ଄ʹ͍ͭͯ ɹड़ޠͷجຊܗʹͦͷ߲ͱͳΔදݱΛද૚֨ʢΨ֨ɺϮ֨ɺ χ֨ʣϨϕϧͰλά෇༩͢Δɻ ࣄଶੑ໊ࢺʹ͍ͭͯ
ɹड़ޠͱಉ༷ʹද૚֨ϨϕϧͰ߲Λ෇༩͢Δɻ ڞࢀরؔ܎ʹ͍ͭͯ ɹ*3"ͷؔ܎ͷΈΛର৅ͱͯ͠ڞࢀরͷؔ܎Λೝఆ͢Δɻ

述語と項のタグ付与 7 B͸ژ౎ίʔύεͷड़ޠ߲ߏ଄Ͱ͋Γɺ C͕ຊ࿦จͷड़ޠ߲ߏ଄Ͱ͋Δɻ ຊ࿦จͷಛ௃ ɾಈࢺͷݪܗʹରͯ͠λάΛ෇༩͢Δɻ ɾ֨ཁૉΛ૿΍͢ॿಈࢺʹରͯ͠΋λάΛ෇༩͢Δɻ

タグ付与作業の結果（統計） 8 表３　述語と事態性名詞のタグの統計（NAISTテキストコーパスの全体）

タグ付与作業の結果（統計） 9 ˔ड़ޠͷ߲ͷग़ݱՕॴ ɾϮ֨ɺχ֨ͷ΄ͱΜͲ͸܎Γؔ܎ ɾΨ֨ͷ໿ׂ̒͸θϩরԠͷؔ܎ ˔ࣄଶੑ໊ࢺͷ߲ͷग़ݱՕॴ ɾϮ֨ɺχ֨͸ಉҰจઅ಺ ɾΨ֨ͷ໿ׂ̔͸θϩরԠͷؔ܎
὎ड़ޠͱࣄଶੑ໊ࢺͷ߲ͷग़ݱՕॴ͸େ͖͘ҟͳΔ

作業者のタグ付与の一致率 10 表４　タグの一致率（報道３０記事）

タグ付与の問題点 11 ˔ड़ޠͷλά෇༩ͷ໰୊఺ ɹλά෇༩ͷର৅ͱͳΔड़ޠ͕ʮʙͱͯ͠ʯͷΑ͏ͳػೳ ޠ૬౰දݱͷ໰୊͕͋Δɻ ྫ͑͹ɾɾɾʮձࣾ"͕ձࣾ#Λࢠձࣾͱͯ͠ʯ ɾʮͱͯ͠ʯ͕z͋ΔҰͭͷଆ໘͔ΒͷՁ஋෇͚ɾҙຯ෇ ͚zɹͷػೳޠ૬౰දݱ ɾʮձࣾ"͕ձࣾ#Λࢠձࣾͱ͢Δʯͱղऍ
὎౔԰Βʢ౔԰ Ӊ௡࿊ দ٢ ࠤ౻ த઒ʣࢀߟ༧ ఆ

タグ付与の問題点 12 ˔ࣄଶੑ໊ࢺλά෇༩ͷ໰୊఺ ɹࠓճ͸ɺࣄଶੑ໊ࢺ͕zίτzΛද͍ͯ͠Δ৔߹ͷΈ ʹλάΛ෇༩͍ͯ͠Δɻ ͕ͩɺࣄଶੑ໊ࢺͷதʹ͸ lίτzͱzϞϊzͷͲͪΒͱ΋ղऍͰ͖Δ΋ͷ͕͋Δɻ ྫ͑͹ɾɾɾใࠂ
ɹɾίτɿใࠂ͢Δಈ࡞ ɹɾϞϊɿใࠂ͞ΕΔ݁Ռ

事態性名詞タグ付与の改善点 13 ˔मਖ਼఺̍ ϞϊΛࢦ͢දݱʹରͯ͠΋λάΛ෇༩͢Δɻ ˔मਖ਼఺̎ ϞϊͱίτΛࢦ͢දݱΛ۠ผ͢ΔͨΊɺϞϊͱ൑அ͠ ͨࠜڌ΋λά

タグ付与の改善結果 14 ɾจষதͷ΄ͱΜͲͷαม໊ࢺ͕߲ͷ෇༩ର৅ɻ ɾ߲Λ͔࣋ͭ൱͔ͷҰக཰͸Ͱ͋ΓɺҎલͷ ΑΓ΋࡞ۀ඼࣭͕޲্ͨ͠ɻ ɾ߲͕Ұக͠ͳ͔ͬͨ΋ͷ͸ɺ࡞ۀऀ͕֨ύλʔϯΛ ૝ى͢Δ͜ͱ͕Ͱ͖ͳ͔ͬͨ৔߹͕ଟ͍ɻ 表６　名詞クラスのタグ付与の作業結果（報道５０記事、サ変名詞６６５箇所）

まとめ 15 ɾژ౎ίʔύεΛର৅ʹ͜Ε·Ͱʹͳ͍େن໛ͳ ड़ޠ߲ߏ଄ɾڞࢀরλά෇͖ίʔύεΛߏஙɻ ɾػցֶशͷ܇࿅ࣄྫͱ͢Δ৔߹͸ɺ෼໺ͷҧ͍ʹΑ Γద੾ʹղੳͰ͖ͳ͍৔߹͕͋ΔͨΊɺ͍͔ͭ͘ͷྖ Ҭʹ֦ுͯ͠λά෇༩Λߦ͏ඞཁ͕͋Δɻ

述語項構造と照応関係のアノテーション

述語項構造と照応関係のアノテーション

kakubari

More Decks by kakubari

Other Decks in Technology

Featured

Transcript

照応・共参照 3 রԠɿ ɾ͋Δදݱ͕ಉҰจষ಺ͷଞͷදݱΛࢦ͢ػೳɻ ɾࢦ͢ଆͷදݱΛরԠࢺɺࢦ͞ΕΔଆͷදݱΛઌߦࢺͱ͍͏ɻ θϩরԠɿ ɾθϩ୅໊ࢺͱরԠؔ܎ͱͳΔ৔߹ɻ จ಺θϩরԠɿ ɾθϩ୅໊ࢺͱઌߦࢺ͕ಉҰจ಺ʹग़ݱ͍ͯ͠Δ৔߹ɻ จؒθϩরԠɿ

照応・共参照のタグ付与に関する先行研究 4 ˔4PPOΒʢ4PPO /H BOE-JNʣ΍/HΒʢ/HBOE $BSEJFBʣ 　໰୊ɿա৒ͳڞࢀরؔ܎͕λά෇༩͞Ε͍ͯΔɻ ˔"VUPNBUJD$POUFOU&YUSBDUJPO "$&

本研究のタグ付与の基準 6 /"*45ςΩετίʔύεͰ࠾༻͢Δλά෇༩ͷ࢓༷ ड़ޠ߲ߏ଄ʹ͍ͭͯ ɹड़ޠͷجຊܗʹͦͷ߲ͱͳΔදݱΛද૚֨ʢΨ֨ɺϮ֨ɺ χ֨ʣϨϕϧͰλά෇༩͢Δɻ ࣄଶੑ໊ࢺʹ͍ͭͯ

述語と項のタグ付与 7 B͸ژ౎ίʔύεͷड़ޠ߲ߏ଄Ͱ͋Γɺ C͕ຊ࿦จͷड़ޠ߲ߏ଄Ͱ͋Δɻ ຊ࿦จͷಛ௃ ɾಈࢺͷݪܗʹରͯ͠λάΛ෇༩͢Δɻ ɾ֨ཁૉΛ૿΍͢ॿಈࢺʹରͯ͠΋λάΛ෇༩͢Δɻ

タグ付与作業の結果（統計） 8 表３　述語と事態性名詞のタグの統計（NAISTテキストコーパスの全体）

タグ付与作業の結果（統計） 9 ˔ड़ޠͷ߲ͷग़ݱՕॴ ɾϮ֨ɺχ֨ͷ΄ͱΜͲ͸܎Γؔ܎ ɾΨ֨ͷ໿ׂ̒͸θϩরԠͷؔ܎ ˔ࣄଶੑ໊ࢺͷ߲ͷग़ݱՕॴ ɾϮ֨ɺχ֨͸ಉҰจઅ಺ ɾΨ֨ͷ໿ׂ̔͸θϩরԠͷؔ܎

作業者のタグ付与の一致率 10 表４　タグの一致率（報道３０記事）

タグ付与の問題点 12 ˔ࣄଶੑ໊ࢺλά෇༩ͷ໰୊఺ ɹࠓճ͸ɺࣄଶੑ໊ࢺ͕zίτzΛද͍ͯ͠Δ৔߹ͷΈ ʹλάΛ෇༩͍ͯ͠Δɻ ͕ͩɺࣄଶੑ໊ࢺͷதʹ͸ lίτzͱzϞϊzͷͲͪΒͱ΋ղऍͰ͖Δ΋ͷ͕͋Δɻ ྫ͑͹ɾɾɾใࠂ

事態性名詞タグ付与の改善点 13 ˔मਖ਼఺̍ ϞϊΛࢦ͢දݱʹରͯ͠΋λάΛ෇༩͢Δɻ ˔मਖ਼఺̎ ϞϊͱίτΛࢦ͢දݱΛ۠ผ͢ΔͨΊɺϞϊͱ൑அ͠ ͨࠜڌ΋λά

まとめ 15 ɾژ౎ίʔύεΛର৅ʹ͜Ε·Ͱʹͳ͍େن໛ͳ ड़ޠ߲ߏ଄ɾڞࢀরλά෇͖ίʔύεΛߏஙɻ ɾػցֶशͷ܇࿅ࣄྫͱ͢Δ৔߹͸ɺ෼໺ͷҧ͍ʹΑ Γద੾ʹղੳͰ͖ͳ͍৔߹͕͋ΔͨΊɺ͍͔ͭ͘ͷྖ Ҭʹ֦ுͯ͠λά෇༩Λߦ͏ඞཁ͕͋Δɻ