大規模常識知識ベース構築のための常識表現の自動獲得
本研究では,名詞を概念,名詞が格付きで係る用言を常識と定義し,大規模なWebテキストから自然言語処理の意味解析に利用可
能な常識知識ベースを自動的に構築することを目的とする.
ද 1: ໊ࢺʹରͯ͠༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ
໊ࢺɿੈͷத ໊ࢺ
ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔ
ʹ-ͳΔ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-அ ͕
ʹ-͋Δ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ
Λ-ੜ͖ൈ͘ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-Δ Λ
Λ-ม͑Δ Λ-ม͑Δ ʹ-ΊΔ ʹ-໘͢ ʹ
ʹ-͍Δ ʹ-͍Δ ʹ-ඞཁ Λ-͏ Λ
Ͱ-ى͜Δ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ
ʹ-ଘࡏ ʹ-ଘࡏ ͷ-ʹཱͭ Λ-ਐ Λ
ʹ-ΊΔ ʹ-ΊΔ ʹ-ཱͭ Λ-ར༻ Λ
ʹ-ग़Δ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β
ʹ-ඞཁ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ
ϥΠϯͱൺֱͯ͠ߴ͍ਫ਼ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ
ʹ Jaccard Λ༻͍ͨ߹ʹ࠷ߴͷਫ਼Λग़͍ͯ͠
Δɽ͜ͷ͜ͱ͔ΒɼఏҊख๏ͷํ໊͕ࢺʹରͯ͠ΑΓ
ৗࣝͱͯ͠૬Ԡ͍͠༻ݴΛ༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ
Ͱ͖ͨɽ͜ͷ݁Ռɼຊख๏໊ࢺʹର͢Δৗࣝू߹
ΛूΊΒΕΔ͚ͩͰͳ͘ɼྨࣅܭࢉख๏ͱͯ͠
༗༻Ͱ͋Δ͜ͱΛ͍ࣔͯ͠Δɽ
ද 2: ໊ࢺಉ࢜ͷྨࣅͷධՁ݁Ռ
Jac Simp WJac
ϕʔεϥΠϯ 1 ave 0.443 0.326 0.378
max 0.451 0.335 0.376
ϕʔεϥΠϯ 2 ave 0.480 0.442 0.371
max 0.481 0.446 0.364
ఏҊख๏ ave 0.607 0.499 0.582
max 0.591 0.461 0.558
༻ͨ͠ݴޠ
ʲ1ʳ നҪ ་ɼେࢁ
ຊޠޠኮେܥ
no.106ɼpp.47
ʲ2ʳ ౻ ɼլ
ࢿݯڠձɽ
ʲ3ʳ ౻ ɼদຊ
Γड͚ղੳ”ɼ
ࢀߟจݙ
[1] K. Ahrens, S.F
tual metaphors:
pora driven ma
ACL 2003 work
Vol. 14, pp. 36–4
tics, 2003.
[2] M. Hagiwara, Y
study on effectiv
日本語Nグラム中で出現頻度上位90%を占める1,617個の名詞について,正解セット
の相関を求める
*
ベースライン1:用言の削除を行わない手法
*
ベースライン2:PMIスコアがβ=0以下の用言を削除
正解セットの類似度計算式は右下の通り
2. ໊ࢺ a ͱ໊ࢺ b ͕ྨࣅ͓͠Γɼ໊͔ͭࢺ b ͱ໊ࢺ c
ྨࣅ͍ͯ͠Δ߹ɼ໊ࢺ a ͱ໊ࢺ c ·ͨྨࣅͨ͠
໊ࢺͰ͋Δɽ
Ծઆ (1) ΑΓɼ໊ࢺಉ࢜ͷྨࣅͦͷ໊ࢺಉ࢜ͷ
࣋ͭ༻ݴू߹ͷྨࣅͰଌΕΔ͜ͱʹͳΔɽߋʹɼ
Γड͚ղੳޡΓʹΑͬͯ༩͞Εͨසͷ༻ݴʹ
ΑΔӨڹΛ͑ΔͨΊʹɼղੳରͱͳΔ໊ࢺಉ͕࢜
࣋ͭڞ௨ͨ͠༻ݴू߹ͷ͏ͪɼͦΕͧΕʹ͓͍ͯ࠷
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
(3)
͜͜Ͱ d(wi
) ͱɼ͔ࠜΒ wi
·Ͱͷਂ͞ɼd(wi
, wj
)
ͱɼ͔ࠜΒ໊ࢺ wi
ͱ໊ࢺ wj
͕ڞ༗͢Δ্Ґ֓೦·
Ͱͷਂ͞Λද͍ͯ͠Δɽ໊ࢺ wi
ͱ໊ࢺ wj
͕ྨࣅͨ͠
֓೦Λ͍࣋ͬͯΔ߹ɼ྆ sim ؔͷߴ͘ͳΔɽ
6.1 ൺֱख๏
ͱͷྨࣅू߹ SIMj
ͷྨࣅߴ͘ͳΔɽ
Ҏ্ͷߟ͑ํ͔Βɼൺֱ͢Δ 2 ͭͷ໊ࢺͱͦͷଞͷ
໊ࢺू߹ͱͷྨࣅΛܭࢉ͠ɼ྆ऀͷྨࣅू߹ͷ૬
ؔΛٻΊɼ͜ͷ૬ؔΛ྆ऀͷྨࣅͱ͢Δɽ
6 ධՁ
࡞໊ͨ͠ࢺͷৗࣝࣝϕʔεʹ͍ͭͯɼ໊ࢺʹର
͠ਖ਼͍͠ৗ͕ࣝ༩͞Εɼ໊ࢺಉ࢜ͷؔΛਖ਼͘͠ܭ
ࢉͰ͖͍ͯΔ͔ධՁ͢ΔɽຊݚڀͰɼධՁηοτͱ
ͯ͠ຊޠޠኮେܥதͰ “໊ࢺ-۩ମ” ʹϥϕϧ͚͞
Εɼߋʹຊޠ N-gram தͰग़ݱසͷ্Ґ 90 ˋΛ
ΊΔ 1,617 ݸͷ໊ࢺΛ༻͍ͯɼධՁηοτͱਖ਼ղηο
τʹ͓͚Δ໊֤ࢺؒͷྨࣅू߹ͷ૬ؔΛٻΊΔɽ
ਖ਼ղηοτͱͯ͠ɼຊޠޠኮେܥதʹ͓͚Δ໊ࢺؒ
ͷڑΛܭࢉͨ͠ɽ֓೦ x ∈ X Λ໊࣋ͭࢺ wi
ͱɼ֓
೦ y ∈ Y Λ໊࣋ͭࢺ wj
ͷྨࣅҎԼͷࣜͰܭࢉ͞
ΕΔɽ
ave sim(wi, wj) =
1
|XY |
x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x
)d(wj,y
)
(2)
類似度計算の評価
概念として適切な名詞の選定
日本語語彙大系中で “名詞-‐具体”でラベル付
けされている名詞12,042
語
常識として適切な用言の選定
0
10000
20000
30000
40000
0
5000
10000
係り元となる
概念の数が多い
=削除用言
用言の係り元となる概念の数
用
言
異
数
特定の概念に対し高頻度で係る用言は,その
概念の常識である可能性が高いが,しかしそ
の用言が多くの名詞に対し係る汎用的な用言
であった場合,常識として不適切とみなされ
削除される.ある用言がある概念にとって常
識か否かは,その概念に係る用言数に依存
する(下図参照).
.
係り元となる概念の数が多い場合,特徴的な
出現分布になることを利用し,統計的情報を
用いて削除用言数を自動的に決定した(下
式)
༻ݮͷมԽ
Fig. 4 Emergence distribution in the top N predicates
݁ՌΛਤ 5 ʹࣔ͢ɽN=1,000ʙ20,000 ͷؒʹ͓͍ͯ
আ༻ݮྦྷతʹมԽ͠ɼN ͕ 20,000 Λ͑ͨ
ஈ֊Ͱ΄ͱΜͲมԽ͠ͳ͘ͳ͍ͬͯΔ͜ͱ͕͔Δɽ
ਤ 5 ଟ͘ͷ༻ݴͷΓݩͱͳΔ໊ࢺ্Ґ N ݅ʹ͓͚Δ
আ༻ݴͷมԽ
Fig. 5 The number of deleting predicates changes
from N equals 1,000 to 70,000
͜ͷ݁Ռ͔Βɼ໊֤ࢺʹ͓͚Δআ༻ݮΛܾఆ͢Δɽ
N ΛมԽͤͨ͞߹ͷআ༻ݴͷมԽ͔Βۙࣅۂ
ઢΛٻΊɼN=1,000ʙ20,000 ͷؒʹ͓͍ͯۙࣅۂ
ઢͷ͔ࣜΒআ༻ݴΛܾఆ͢ΔʢখҎԼΓࣺ
ͯʣ
ɽআ༻ݴΛٻΊΔࣜΛҎԼʹࣔ͢ɽ
y = 13135.0 × x−0.583 (1)
ʹ-ͳΔɼ͕-͋ΔɼΛ-ݟΔɼΛ-දࣔɼͱ-ͳΔɼΛ-୳͢ɼΛ-ೖ
ྗɼʹ-͋ΔɼΛ-༻ɼΛ-ՃɼΛ-ݕࡧɼʹ-ՃɼΛ-࣋ͭɼ
Λ-ԡ͢ɼΛ-͏ɼʹ-ߦ͘ɼΛ-հɼ-¡/(˞Γड͚ղੳΤ
ϥʔ), Λ-ొɼʹ-Δɼͷ- ͋ΔɼΛ-બɼΛ-ೖΕΔɼ͕-
͍ΔɼΛ-ॻ͘ɼʹ-ೖΕΔɼͰ-୳͢ɼ͕- ߴ͍ɼΛ-ಡΉɼΛ-࡞
Δɼʹ-ొɼΛ-͚ͭΔɼ͕-දࣔɼʹ-ೖΔɼΛ-ؚΉɼ͕-ग़Δɼ
͕-ͳΔɼΛ-ങ͏ɼͰ-ݕࡧɼΛ-ܝࡌ
ਤ 6 ͯ͢ͷ໊ࢺʹର͢Δআ༻ݴ (ڞى͢Δ໊ࢺͷҟ
ͳΓ͕ଟ͍ॱ)
Fig. 6 The deleted predicates for all nouns
ͬͯग़ݱ͢Δස͕ߴ͍΄Ͳɼͦͷ໊ࢺͷৗࣝͱ͠
ͯదͳ༻ݴͰ͋Δͱߟ͑ΒΕΔɽ
5. ֤֓೦ಉ࢜ͷྨࣅܭࢉ
ৗࣝࣝϕʔεΛߏங͢ΔͨΊʹɼ֫ಘͨ͠ৗࣝΛ
༻໊͍ͯࢺʢ=ৗࣝ༩ͷରͱͳΔ֓೦ʣؒͷҙຯ
తؔΛௐࠪ͢Δɽզʑ֓೦ؒʹݱΕΔੑ࣭ͱͯ͠
ҎԼͷ 2 ͭͷԾઆΛཱͯͨɽ
ʢ 1 ʣ ໊ࢺରʹ༩͞ΕΔৗࣝू߹͕ྨࣅ͍ͯͨ͠
߹ɼͦͷ໊ࢺରྨࣅͨ֓͠೦Λ࣋ͭɽ
ʢ 2 ʣ ໊ࢺ a ͱ໊ࢺ b ͕ྨࣅ͓͠Γɼ໊͔ͭࢺ b ͱ
໊ࢺ c ྨࣅ͍ͯ͠Δ߹ɼ໊ࢺ a ͱ໊ࢺ c ·ͨ
ྨࣅ໊ͨ͠ࢺʢ=֓೦ʣͰ͋Δɽ
Ծઆ (1) ΑΓɼ֓೦ಉ࢜ͷྨࣅͦͷ֓೦ಉ࢜ͷ
࣋ͭ༻ݴू߹ͷྨࣅͰଌΕΔ͜ͱʹͳΔɽߋʹɼ
提案手法はベースラインと
比較して軒並み高い精度
→ スコア関数によらず高
い精度が得られる
→ 一般的な類似度計算
手法として有用である.
概念間の類似度計算には,
Jaccarad係数(Jac),Simpson係
数(Simp),重み付きJaccard係
数(WJac)を用いた.
類似度計算におけるノイズを抑えるために,解析対象とな
る概念同士が持つ共通した常識集合のうち,それぞれにお
いて最も頻度の低い用言以下の用言集合を削除する.
その後,概念同士が類似している場合,両者の他概念との
類似度群が相関を持つことを利用し,両者の相関を類似度
として計算する.
ද 1: ໊ࢺʹରͯ͠༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅)
໊ࢺɿੈͷத ໊ࢺɿಓ࿏
ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏
ʹ-ͳΔ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-அ ͕-அ ͕-அ
ʹ-͋Δ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ-ؔ࿈ Λ-Δ
Λ-ੜ͖ൈ͘ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-Δ Λ-Δ ʹ-໘͢
Λ-ม͑Δ Λ-ม͑Δ ʹ-ΊΔ ʹ-໘͢ ʹ-໘͢ Λ-ڬΉ
ʹ-͍Δ ʹ-͍Δ ʹ-ඞཁ Λ-͏ Λ-͏ Λ-ਐ
Ͱ-ى͜Δ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ-ڬΉ ͔Β-ग़ೖΓ
ʹ-ଘࡏ ʹ-ଘࡏ ͷ-ʹཱͭ Λ-ਐ Λ-ਐ ʹ-͢
ʹ-ΊΔ ʹ-ΊΔ ʹ-ཱͭ Λ-ར༻ Λ-ར༻ Λ-ԣஅ
ʹ-ग़Δ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β-ग़ೖΓ Λ-Δ
ʹ-ඞཁ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ-͢ ͕-උ
ϥΠϯͱൺֱͯ͠ߴ͍ਫ਼ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ
ʹ Jaccard Λ༻͍ͨ߹ʹ࠷ߴͷਫ਼Λग़͍ͯ͠
Δɽ͜ͷ͜ͱ͔ΒɼఏҊख๏ͷํ໊͕ࢺʹରͯ͠ΑΓ
ৗࣝͱͯ͠૬Ԡ͍͠༻ݴΛ༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ
Ͱ͖ͨɽ͜ͷ݁Ռɼຊख๏໊ࢺʹର͢Δৗࣝू߹
ΛूΊΒΕΔ͚ͩͰͳ͘ɼྨࣅܭࢉख๏ͱͯ͠
༗༻Ͱ͋Δ͜ͱΛ͍ࣔͯ͠Δɽ
ද 2: ໊ࢺಉ࢜ͷྨࣅͷධՁ݁Ռ
Jac Simp WJac
ϕʔεϥΠϯ 1 ave 0.443 0.326 0.378
max 0.451 0.335 0.376
ϕʔεϥΠϯ 2 ave 0.480 0.442 0.371
max 0.481 0.446 0.364
ఏҊख๏ ave 0.607 0.499 0.582
max 0.591 0.461 0.558
༻ͨ͠ݴޠࢿݯٴͼπʔϧ
ʲ1ʳ നҪ ་ɼେࢁ ๕࢙ɼݪ ޛɼٶ࡚ ਖ਼߂ɼԣඌ তஉɼ “
ຊޠޠኮେܥʹ͍ͭͯ”ɼใॲཧݚڀใࠂ.IMɼvol.98ɼ
no.106ɼpp.47-52ɼ1998.
ʲ2ʳ ౻ ɼլ लਓɼ“Web ຊޠ N άϥϜ ୈҰ൛”ɼݴޠ
ࢿݯڠձɽ
ʲ3ʳ ౻ ɼদຊ ༟࣏ɼ“νϟϯΩϯάͷஈ֊ద༻ʹΑΔຊޠ
Γड͚ղੳ”ɼvol.43ɼno.6ɼpp.1834–1842ɼ2002ɽ
ࢀߟจݙ
[1] K. Ahrens, S.F. Chung, and C.R. Huang. Concep-
tual metaphors: Ontology-based representation and cor-
pora driven mapping principles. In Proceedings of the
ACL 2003 workshop on Lexicon and figurative language,
Vol. 14, pp. 36–42. Association for Computational Linguis-
tics, 2003.
[2] M. Hagiwara, Y. Ogawa, and K. Toyama. A comparative
study on effective context selection for distributional sim-
世の中
1: ໊ࢺʹରͯ͠༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅)
໊ࢺɿੈͷத ໊ࢺɿಓ࿏
ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏
ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-அ ͕-அ ͕-அ
ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ-ؔ࿈ Λ-Δ
Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-Δ Λ-Δ ʹ-໘͢
Λ-ม͑Δ ʹ-ΊΔ ʹ-໘͢ ʹ-໘͢ Λ-ڬΉ
ʹ-͍Δ ʹ-ඞཁ Λ-͏ Λ-͏ Λ-ਐ
Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ-ڬΉ ͔Β-ग़ೖΓ
ʹ-ଘࡏ ͷ-ʹཱͭ Λ-ਐ Λ-ਐ ʹ-͢
ʹ-ΊΔ ʹ-ཱͭ Λ-ར༻ Λ-ར༻ Λ-ԣஅ
ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β-ग़ೖΓ Λ-Δ
ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ-͢ ͕-උ
ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ
߹ʹ࠷ߴͷਫ਼Λग़͍ͯ͠
ͷํ໊͕ࢺʹରͯ͠ΑΓ
༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ
໊ࢺʹର͢Δৗࣝू߹
ɼྨࣅܭࢉख๏ͱͯ͠
Δɽ
ࣅͷධՁ݁Ռ
Jac Simp WJac
.443 0.326 0.378
.451 0.335 0.376
.480 0.442 0.371
.481 0.446 0.364
607 0.499 0.582
591 0.461 0.558
༻ͨ͠ݴޠࢿݯٴͼπʔϧ
ʲ1ʳ നҪ ་ɼେࢁ ๕࢙ɼݪ ޛɼٶ࡚ ਖ਼߂ɼԣඌ তஉɼ “
ຊޠޠኮେܥʹ͍ͭͯ”ɼใॲཧݚڀใࠂ.IMɼvol.98ɼ
no.106ɼpp.47-52ɼ1998.
ʲ2ʳ ౻ ɼլ लਓɼ“Web ຊޠ N άϥϜ ୈҰ൛”ɼݴޠ
ࢿݯڠձɽ
ʲ3ʳ ౻ ɼদຊ ༟࣏ɼ“νϟϯΩϯάͷஈ֊ద༻ʹΑΔຊޠ
Γड͚ղੳ”ɼvol.43ɼno.6ɼpp.1834–1842ɼ2002ɽ
ࢀߟจݙ
[1] K. Ahrens, S.F. Chung, and C.R. Huang. Concep-
tual metaphors: Ontology-based representation and cor-
pora driven mapping principles. In Proceedings of the
ACL 2003 workshop on Lexicon and figurative language,
Vol. 14, pp. 36–42. Association for Computational Linguis-
tics, 2003.
[2] M. Hagiwara, Y. Ogawa, and K. Toyama. A comparative
study on effective context selection for distributional sim-
道路
概念に対し付与される常識の例
概念間に類似度の付与