1 ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔ ʹ-ͳΔ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-அ ͕ ʹ-͋Δ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ Λ-ੜ͖ൈ͘ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-Δ Λ Λ-ม͑Δ Λ-ม͑Δ ʹ-ΊΔ ʹ-໘͢ ʹ ʹ-͍Δ ʹ-͍Δ ʹ-ඞཁ Λ-͏ Λ Ͱ-ى͜Δ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ ʹ-ଘࡏ ʹ-ଘࡏ ͷ-ʹཱͭ Λ-ਐ Λ ʹ-ΊΔ ʹ-ΊΔ ʹ-ཱͭ Λ-ར༻ Λ ʹ-ग़Δ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β ʹ-ඞཁ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ ϥΠϯͱൺֱͯ͠ߴ͍ਫ਼ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ ʹ Jaccard Λ༻͍ͨ߹ʹ࠷ߴͷਫ਼Λग़͍ͯ͠ Δɽ͜ͷ͜ͱ͔ΒɼఏҊख๏ͷํ໊͕ࢺʹରͯ͠ΑΓ ৗࣝͱͯ͠૬Ԡ͍͠༻ݴΛ༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ Ͱ͖ͨɽ͜ͷ݁Ռɼຊख๏໊ࢺʹର͢Δৗࣝू߹ ΛूΊΒΕΔ͚ͩͰͳ͘ɼྨࣅܭࢉख๏ͱͯ͠ ༗༻Ͱ͋Δ͜ͱΛ͍ࣔͯ͠Δɽ ද 2: ໊ࢺಉ࢜ͷྨࣅͷධՁ݁Ռ Jac Simp WJac ϕʔεϥΠϯ 1 ave 0.443 0.326 0.378 max 0.451 0.335 0.376 ϕʔεϥΠϯ 2 ave 0.480 0.442 0.371 max 0.481 0.446 0.364 ఏҊख๏ ave 0.607 0.499 0.582 max 0.591 0.461 0.558 ༻ͨ͠ݴޠ ʲ1ʳ നҪ ་ɼେࢁ ຊޠޠኮେܥ no.106ɼpp.47 ʲ2ʳ ౻ ɼլ ࢿݯڠձɽ ʲ3ʳ ౻ ɼদຊ Γड͚ղੳ”ɼ ࢀߟจݙ [1] K. Ahrens, S.F tual metaphors: pora driven ma ACL 2003 work Vol. 14, pp. 36–4 tics, 2003. [2] M. Hagiwara, Y study on effectiv 日本語Nグラム中で出現頻度上位90%を占める1,617個の名詞について,正解セット の相関を求める * ベースライン1:用言の削除を行わない手法 * ベースライン2:PMIスコアがβ=0以下の用言を削除 正解セットの類似度計算式は右下の通り 2. ໊ࢺ a ͱ໊ࢺ b ͕ྨࣅ͓͠Γɼ໊͔ͭࢺ b ͱ໊ࢺ c ྨࣅ͍ͯ͠Δ߹ɼ໊ࢺ a ͱ໊ࢺ c ·ͨྨࣅͨ͠ ໊ࢺͰ͋Δɽ Ծઆ (1) ΑΓɼ໊ࢺಉ࢜ͷྨࣅͦͷ໊ࢺಉ࢜ͷ ࣋ͭ༻ݴू߹ͷྨࣅͰଌΕΔ͜ͱʹͳΔɽߋʹɼ Γड͚ղੳޡΓʹΑͬͯ༩͞Εͨසͷ༻ݴʹ ΑΔӨڹΛ͑ΔͨΊʹɼղੳରͱͳΔ໊ࢺಉ͕࢜ ࣋ͭڞ௨ͨ͠༻ݴू߹ͷ͏ͪɼͦΕͧΕʹ͓͍ͯ࠷ max sim(wi, wj) = max 2d(wi,x, wj,y) d(wi,x)d(wj,y) (3) ͜͜Ͱ d(wi ) ͱɼ͔ࠜΒ wi ·Ͱͷਂ͞ɼd(wi , wj ) ͱɼ͔ࠜΒ໊ࢺ wi ͱ໊ࢺ wj ͕ڞ༗͢Δ্Ґ֓೦· Ͱͷਂ͞Λද͍ͯ͠Δɽ໊ࢺ wi ͱ໊ࢺ wj ͕ྨࣅͨ͠ ֓೦Λ͍࣋ͬͯΔ߹ɼ྆ sim ؔͷߴ͘ͳΔɽ 6.1 ൺֱख๏ ͱͷྨࣅू߹ SIMj ͷྨࣅߴ͘ͳΔɽ Ҏ্ͷߟ͑ํ͔Βɼൺֱ͢Δ 2 ͭͷ໊ࢺͱͦͷଞͷ ໊ࢺू߹ͱͷྨࣅΛܭࢉ͠ɼ྆ऀͷྨࣅू߹ͷ૬ ؔΛٻΊɼ͜ͷ૬ؔΛ྆ऀͷྨࣅͱ͢Δɽ 6 ධՁ ࡞໊ͨ͠ࢺͷৗࣝࣝϕʔεʹ͍ͭͯɼ໊ࢺʹର ͠ਖ਼͍͠ৗ͕ࣝ༩͞Εɼ໊ࢺಉ࢜ͷؔΛਖ਼͘͠ܭ ࢉͰ͖͍ͯΔ͔ධՁ͢ΔɽຊݚڀͰɼධՁηοτͱ ͯ͠ຊޠޠኮେܥதͰ “໊ࢺ-۩ମ” ʹϥϕϧ͚͞ Εɼߋʹຊޠ N-gram தͰग़ݱසͷ্Ґ 90 ˋΛ ΊΔ 1,617 ݸͷ໊ࢺΛ༻͍ͯɼධՁηοτͱਖ਼ղηο τʹ͓͚Δ໊֤ࢺؒͷྨࣅू߹ͷ૬ؔΛٻΊΔɽ ਖ਼ղηοτͱͯ͠ɼຊޠޠኮେܥதʹ͓͚Δ໊ࢺؒ ͷڑΛܭࢉͨ͠ɽ֓೦ x ∈ X Λ໊࣋ͭࢺ wi ͱɼ֓ ೦ y ∈ Y Λ໊࣋ͭࢺ wj ͷྨࣅҎԼͷࣜͰܭࢉ͞ ΕΔɽ ave sim(wi, wj) = 1 |XY | x∈X,y∈Y 2d(wi,x, wj,y) d(wi,x )d(wj,y ) (2) 類似度計算の評価 概念として適切な名詞の選定 日本語語彙大系中で “名詞-‐具体”でラベル付 けされている名詞12,042 語 常識として適切な用言の選定 0 10000 20000 30000 40000 0 5000 10000 係り元となる 概念の数が多い =削除用言 用言の係り元となる概念の数 用 言 異 数 特定の概念に対し高頻度で係る用言は,その 概念の常識である可能性が高いが,しかしそ の用言が多くの名詞に対し係る汎用的な用言 であった場合,常識として不適切とみなされ 削除される.ある用言がある概念にとって常 識か否かは,その概念に係る用言数に依存 する(下図参照). . 係り元となる概念の数が多い場合,特徴的な 出現分布になることを利用し,統計的情報を 用いて削除用言数を自動的に決定した(下 式) ༻ݮͷมԽ Fig. 4 Emergence distribution in the top N predicates ݁ՌΛਤ 5 ʹࣔ͢ɽN=1,000ʙ20,000 ͷؒʹ͓͍ͯ আ༻ݮྦྷతʹมԽ͠ɼN ͕ 20,000 Λ͑ͨ ஈ֊Ͱ΄ͱΜͲมԽ͠ͳ͘ͳ͍ͬͯΔ͜ͱ͕͔Δɽ ਤ 5 ଟ͘ͷ༻ݴͷΓݩͱͳΔ໊ࢺ্Ґ N ݅ʹ͓͚Δ আ༻ݴͷมԽ Fig. 5 The number of deleting predicates changes from N equals 1,000 to 70,000 ͜ͷ݁Ռ͔Βɼ໊֤ࢺʹ͓͚Δআ༻ݮΛܾఆ͢Δɽ N ΛมԽͤͨ͞߹ͷআ༻ݴͷมԽ͔Βۙࣅۂ ઢΛٻΊɼN=1,000ʙ20,000 ͷؒʹ͓͍ͯۙࣅۂ ઢͷ͔ࣜΒআ༻ݴΛܾఆ͢ΔʢখҎԼΓࣺ ͯʣ ɽআ༻ݴΛٻΊΔࣜΛҎԼʹࣔ͢ɽ y = 13135.0 × x−0.583 (1) ʹ-ͳΔɼ͕-͋ΔɼΛ-ݟΔɼΛ-දࣔɼͱ-ͳΔɼΛ-୳͢ɼΛ-ೖ ྗɼʹ-͋ΔɼΛ-༻ɼΛ-ՃɼΛ-ݕࡧɼʹ-ՃɼΛ-࣋ͭɼ Λ-ԡ͢ɼΛ-͏ɼʹ-ߦ͘ɼΛ-հɼ-¡/(˞Γड͚ղੳΤ ϥʔ), Λ-ొɼʹ-Δɼͷ- ͋ΔɼΛ-બɼΛ-ೖΕΔɼ͕- ͍ΔɼΛ-ॻ͘ɼʹ-ೖΕΔɼͰ-୳͢ɼ͕- ߴ͍ɼΛ-ಡΉɼΛ-࡞ Δɼʹ-ొɼΛ-͚ͭΔɼ͕-දࣔɼʹ-ೖΔɼΛ-ؚΉɼ͕-ग़Δɼ ͕-ͳΔɼΛ-ങ͏ɼͰ-ݕࡧɼΛ-ܝࡌ ਤ 6 ͯ͢ͷ໊ࢺʹର͢Δআ༻ݴ (ڞى͢Δ໊ࢺͷҟ ͳΓ͕ଟ͍ॱ) Fig. 6 The deleted predicates for all nouns ͬͯग़ݱ͢Δස͕ߴ͍΄Ͳɼͦͷ໊ࢺͷৗࣝͱ͠ ͯదͳ༻ݴͰ͋Δͱߟ͑ΒΕΔɽ 5. ֤֓೦ಉ࢜ͷྨࣅܭࢉ ৗࣝࣝϕʔεΛߏங͢ΔͨΊʹɼ֫ಘͨ͠ৗࣝΛ ༻໊͍ͯࢺʢ=ৗࣝ༩ͷରͱͳΔ֓೦ʣؒͷҙຯ తؔΛௐࠪ͢Δɽզʑ֓೦ؒʹݱΕΔੑ࣭ͱͯ͠ ҎԼͷ 2 ͭͷԾઆΛཱͯͨɽ ʢ 1 ʣ ໊ࢺରʹ༩͞ΕΔৗࣝू߹͕ྨࣅ͍ͯͨ͠ ߹ɼͦͷ໊ࢺରྨࣅͨ֓͠೦Λ࣋ͭɽ ʢ 2 ʣ ໊ࢺ a ͱ໊ࢺ b ͕ྨࣅ͓͠Γɼ໊͔ͭࢺ b ͱ ໊ࢺ c ྨࣅ͍ͯ͠Δ߹ɼ໊ࢺ a ͱ໊ࢺ c ·ͨ ྨࣅ໊ͨ͠ࢺʢ=֓೦ʣͰ͋Δɽ Ծઆ (1) ΑΓɼ֓೦ಉ࢜ͷྨࣅͦͷ֓೦ಉ࢜ͷ ࣋ͭ༻ݴू߹ͷྨࣅͰଌΕΔ͜ͱʹͳΔɽߋʹɼ 提案手法はベースラインと 比較して軒並み高い精度 → スコア関数によらず高 い精度が得られる → 一般的な類似度計算 手法として有用である. 概念間の類似度計算には, Jaccarad係数(Jac),Simpson係 数(Simp),重み付きJaccard係 数(WJac)を用いた. 類似度計算におけるノイズを抑えるために,解析対象とな る概念同士が持つ共通した常識集合のうち,それぞれにお いて最も頻度の低い用言以下の用言集合を削除する. その後,概念同士が類似している場合,両者の他概念との 類似度群が相関を持つことを利用し,両者の相関を類似度 として計算する. ද 1: ໊ࢺʹରͯ͠༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅) ໊ࢺɿੈͷத ໊ࢺɿಓ࿏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ʹ-ͳΔ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-அ ͕-அ ͕-அ ʹ-͋Δ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ-ؔ࿈ Λ-Δ Λ-ੜ͖ൈ͘ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-Δ Λ-Δ ʹ-໘͢ Λ-ม͑Δ Λ-ม͑Δ ʹ-ΊΔ ʹ-໘͢ ʹ-໘͢ Λ-ڬΉ ʹ-͍Δ ʹ-͍Δ ʹ-ඞཁ Λ-͏ Λ-͏ Λ-ਐ Ͱ-ى͜Δ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ-ڬΉ ͔Β-ग़ೖΓ ʹ-ଘࡏ ʹ-ଘࡏ ͷ-ʹཱͭ Λ-ਐ Λ-ਐ ʹ-͢ ʹ-ΊΔ ʹ-ΊΔ ʹ-ཱͭ Λ-ར༻ Λ-ར༻ Λ-ԣஅ ʹ-ग़Δ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β-ग़ೖΓ Λ-Δ ʹ-ඞཁ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ-͢ ͕-උ ϥΠϯͱൺֱͯ͠ߴ͍ਫ਼ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ ʹ Jaccard Λ༻͍ͨ߹ʹ࠷ߴͷਫ਼Λग़͍ͯ͠ Δɽ͜ͷ͜ͱ͔ΒɼఏҊख๏ͷํ໊͕ࢺʹରͯ͠ΑΓ ৗࣝͱͯ͠૬Ԡ͍͠༻ݴΛ༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ Ͱ͖ͨɽ͜ͷ݁Ռɼຊख๏໊ࢺʹର͢Δৗࣝू߹ ΛूΊΒΕΔ͚ͩͰͳ͘ɼྨࣅܭࢉख๏ͱͯ͠ ༗༻Ͱ͋Δ͜ͱΛ͍ࣔͯ͠Δɽ ද 2: ໊ࢺಉ࢜ͷྨࣅͷධՁ݁Ռ Jac Simp WJac ϕʔεϥΠϯ 1 ave 0.443 0.326 0.378 max 0.451 0.335 0.376 ϕʔεϥΠϯ 2 ave 0.480 0.442 0.371 max 0.481 0.446 0.364 ఏҊख๏ ave 0.607 0.499 0.582 max 0.591 0.461 0.558 ༻ͨ͠ݴޠࢿݯٴͼπʔϧ ʲ1ʳ നҪ ་ɼେࢁ ๕࢙ɼݪ ޛɼٶ࡚ ਖ਼߂ɼԣඌ তஉɼ “ ຊޠޠኮେܥʹ͍ͭͯ”ɼใॲཧݚڀใࠂ.IMɼvol.98ɼ no.106ɼpp.47-52ɼ1998. ʲ2ʳ ౻ ɼլ लਓɼ“Web ຊޠ N άϥϜ ୈҰ൛”ɼݴޠ ࢿݯڠձɽ ʲ3ʳ ౻ ɼদຊ ༟࣏ɼ“νϟϯΩϯάͷஈ֊ద༻ʹΑΔຊޠ Γड͚ղੳ”ɼvol.43ɼno.6ɼpp.1834–1842ɼ2002ɽ ࢀߟจݙ [1] K. Ahrens, S.F. Chung, and C.R. Huang. Concep- tual metaphors: Ontology-based representation and cor- pora driven mapping principles. In Proceedings of the ACL 2003 workshop on Lexicon and figurative language, Vol. 14, pp. 36–42. Association for Computational Linguis- tics, 2003. [2] M. Hagiwara, Y. Ogawa, and K. Toyama. A comparative study on effective context selection for distributional sim- 世の中 1: ໊ࢺʹରͯ͠༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅) ໊ࢺɿੈͷத ໊ࢺɿಓ࿏ ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-அ ͕-அ ͕-அ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ-ؔ࿈ Λ-Δ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-Δ Λ-Δ ʹ-໘͢ Λ-ม͑Δ ʹ-ΊΔ ʹ-໘͢ ʹ-໘͢ Λ-ڬΉ ʹ-͍Δ ʹ-ඞཁ Λ-͏ Λ-͏ Λ-ਐ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ-ڬΉ ͔Β-ग़ೖΓ ʹ-ଘࡏ ͷ-ʹཱͭ Λ-ਐ Λ-ਐ ʹ-͢ ʹ-ΊΔ ʹ-ཱͭ Λ-ར༻ Λ-ར༻ Λ-ԣஅ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β-ग़ೖΓ Λ-Δ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ-͢ ͕-උ ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ ߹ʹ࠷ߴͷਫ਼Λग़͍ͯ͠ ͷํ໊͕ࢺʹରͯ͠ΑΓ ༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ ໊ࢺʹର͢Δৗࣝू߹ ɼྨࣅܭࢉख๏ͱͯ͠ Δɽ ࣅͷධՁ݁Ռ Jac Simp WJac .443 0.326 0.378 .451 0.335 0.376 .480 0.442 0.371 .481 0.446 0.364 607 0.499 0.582 591 0.461 0.558 ༻ͨ͠ݴޠࢿݯٴͼπʔϧ ʲ1ʳ നҪ ་ɼେࢁ ๕࢙ɼݪ ޛɼٶ࡚ ਖ਼߂ɼԣඌ তஉɼ “ ຊޠޠኮେܥʹ͍ͭͯ”ɼใॲཧݚڀใࠂ.IMɼvol.98ɼ no.106ɼpp.47-52ɼ1998. ʲ2ʳ ౻ ɼլ लਓɼ“Web ຊޠ N άϥϜ ୈҰ൛”ɼݴޠ ࢿݯڠձɽ ʲ3ʳ ౻ ɼদຊ ༟࣏ɼ“νϟϯΩϯάͷஈ֊ద༻ʹΑΔຊޠ Γड͚ղੳ”ɼvol.43ɼno.6ɼpp.1834–1842ɼ2002ɽ ࢀߟจݙ [1] K. Ahrens, S.F. Chung, and C.R. Huang. Concep- tual metaphors: Ontology-based representation and cor- pora driven mapping principles. In Proceedings of the ACL 2003 workshop on Lexicon and figurative language, Vol. 14, pp. 36–42. Association for Computational Linguis- tics, 2003. [2] M. Hagiwara, Y. Ogawa, and K. Toyama. A comparative study on effective context selection for distributional sim- 道路 概念に対し付与される常識の例 概念間に類似度の付与