常識表現となり得る用言の自動選定の検討
目的:
本研究では自然言語処理で利用可
能な常識知識ベースを構築すること
を目的とする.その構築にあたり,常
識として適切な用言(動詞,形容詞,
サ変名詞)を選定する.
常識表現の自動選定:
まず,Web日本語Nグラムの7グラム中で共起する名詞と動作性表現のペアを抽出する.次に,共起する用言の
異なり数が多い順に名詞をソートし,上位N件毎に用言の出現パターンを調査する.
TF(a,n) =
log
2
n
a,n
+1
( )
log
2
n
k,n
k
∑
( )
n=1,000
(x=0~1,000,
y=1~2,256)
出現名詞数が多い
出現名詞数が少ない
共起する用言の異なり数上位1000件及び全ての名詞における用言の出現分
布を左図に示す(横軸:用言の出現名詞数,縦軸:用言の異なり数 (対数))
.本
研究では,出現名詞数が多い用言を常識として不適切なものとして除外する.
Nの変化に伴う削除用言数の変化を左図下に示す,削除される用言数は階段
状に変化しており,グラフ上の特異点から,名詞毎の削除用言数が決定される.
n=655,038
(x=0~116,746,
y=1~1724)
Nの増加に伴い,出
現名詞数が多い用
言が少なくなる
各名詞に対する用言(=常識)の付与:
名詞nに対する用言nを,Harman正規化した
TF値で重み付けする.計算式を下式に示す.
いぬ 小学校
散歩 入学
しつける 教育
病気 卒業
つれる 授業
くらす 受験
訓練 かよう
ほえる 学習
かわいい 指導
常識の定義:
名詞と文中で共起して,その名詞を特徴づける用言の集合を,その名詞
に対する常識と定義する.常識は以下の性質を持つ.
1.
名詞nとの共起頻度が高いほど,その常識である可能性が高い.
2.
どのような名詞とも共起する用言は,常識として不適切.
3.
用言aが名詞nの常識として適切か否かは,その名詞と共起する用言の
異なり数に依存する.
名詞に付与される用言の例を
左図に示す.結果から,名詞
の常識として適切な用言が付
与されている事が分かる.
x=0~4,000,
y=10~10,000(対数)
階段的に
減少