まず,Web日本語Nグラムの7グラム中で共起する名詞と動作性表現のペアを抽出する.次に,共起する用言の 異なり数が多い順に名詞をソートし,上位N件毎に用言の出現パターンを調査する. TF(a,n) = log 2 n a,n +1 ( ) log 2 n k,n k ∑ ( ) n=1,000 (x=0~1,000, y=1~2,256) 出現名詞数が多い 出現名詞数が少ない 共起する用言の異なり数上位1000件及び全ての名詞における用言の出現分 布を左図に示す(横軸:用言の出現名詞数,縦軸:用言の異なり数 (対数)) .本 研究では,出現名詞数が多い用言を常識として不適切なものとして除外する. Nの変化に伴う削除用言数の変化を左図下に示す,削除される用言数は階段 状に変化しており,グラフ上の特異点から,名詞毎の削除用言数が決定される. n=655,038 (x=0~116,746, y=1~1724) Nの増加に伴い,出 現名詞数が多い用 言が少なくなる 各名詞に対する用言(=常識)の付与: 名詞nに対する用言nを,Harman正規化した TF値で重み付けする.計算式を下式に示す. いぬ 小学校 散歩 入学 しつける 教育 病気 卒業 つれる 授業 くらす 受験 訓練 かよう ほえる 学習 かわいい 指導 常識の定義: 名詞と文中で共起して,その名詞を特徴づける用言の集合を,その名詞 に対する常識と定義する.常識は以下の性質を持つ. 1. 名詞nとの共起頻度が高いほど,その常識である可能性が高い. 2. どのような名詞とも共起する用言は,常識として不適切. 3. 用言aが名詞nの常識として適切か否かは,その名詞と共起する用言の 異なり数に依存する. 名詞に付与される用言の例を 左図に示す.結果から,名詞 の常識として適切な用言が付 与されている事が分かる. x=0~4,000, y=10~10,000(対数) 階段的に 減少