常識表現となり得る用言の自動選定の検討

常識表現となり得る用言の自動選定の検討真嘉比愛，山本和英長岡技術科学大学電気系

研究の概要 •  常識知識ベース構築にあたり，常識として適切な用言の選定方法を提案 – 名詞と共起する用言の異なり数に着目 – 用言の出現頻度上位N件毎に，名詞に対する削除用言を決定
– ベースラインと比較して，適切な用言が付与されていることを確認 •  [課題] 共起する用言の少ない名詞に対しての常識付与方法

研究の目的 •  自然言語処理で利用可能な常識知識ベースを構築名詞と共起する用言　→ 常識と定義・
動詞・形容詞・サ変名詞名詞“犬”が持つ常識動詞吠えるしつける走るサ変名詞散歩，病気，訓練，飼育形容詞かわいいたのしいいとしい

既存知識ベースとの違い既存の上位オントロジー　e.g. SUMO，
OpenCyc 利点: 厳密に定義された常識を利用できる欠点: 実際の語彙表現との乖離が激しい各Conceptに対し，様々な関係で結ばれる語や文を付与　e.g. ConceptNet 利点: 自然言語処理のタスクに適用しやすい欠点: 大半が人手で集められているため，網羅性が低い

常識がもつ性質次の3つの性質を仮定： 1.  用言aと名詞nとの共起頻度が高いほど，用言aは名詞nの常識である可能性が高い 2.  どのような名詞とも共起する用言aは，常識
として不適切 3.  用言aが名詞nの常識として適切か否かは，その名詞と共起する用言の異なり数に依存する

常識の自動選定 Step.1 • Web日本語Nグラム中で共起する名詞と用言のペアを抽出 Step.2 • 共起する用言の異なり数が多い順に名詞をソート • 上位N件毎に用言の出現分布を調査 Step.3 • 出現名詞数が多い用言を常識として不適切とみなし削除

名詞と用言のペアを抽出 •  Web日本語Nグラム – 200億文中から，出現頻度20回以上の文を抽出 – 7グラム総数: 570,204,252個 • 
抽出した用言と名詞のペア – 605,363,630対 (異なり数: 29,434,191対) •  名詞の異なり数: 655,038語 •  用言の異なり数: 26,455語

名詞と共起する用言の異なり数上位 N 件における用言の出現分布出現名詞数が多い出現名詞数が少ない用言の出現名詞数 (N=1000) 用言の異なり数

名詞と共起する用言の異なり数上位 N 件における用言の出現分布 Nの増加に伴い，出現名詞数の多い用言が少なくなる
用言の出現名詞数 (N=10000) 用言の異なり数

用言の出現分布に基づく削除範囲の決定出現名詞数が多い場合，用言の異なり数が加速度的に増加　＝その範囲内の用言を除外の対象とする

Nの変化に伴う削除用言数の変化削除される用言数は階段状に変化グラフの特異点から，名詞ごとの削除用言数を決定（N=700，1100，1600， 2500，3600） Nの値は1000〜4500まで100刻みに変化

各名詞に対する削除用言数 •  削除用言 –  わかる，もつ，みる，なる，ない，とる，できる，つく，しる，くる，おもう，おおい，いる，いう，ある，良い，入る，でる，つくる，つかう，きく，かく，おこなう，紹介，よい，ゆく，たつ，たかい，おる，いい，関係，やる，かける
1: ໊֤ࢺʹର͢Δ࡟আ༻ݴ਺ (N=ڞى͢Δ༻ݴͷ ͳΓ਺) ର৅ͱͳΔ໊ࢺͷൣғ ࡟আ਺ N≤700 427 700<N≤1,100 267 1,100<N≤1,600 143 1,600<N≤2,500 73 ͦΕҎ֎ 33 ྫ͑͹ɼN=1,000 ͷ໊ࢺʹ͍ͭͯ͸ 227 ݸͷ༻ݴ͕ আର৅ͱͳΔɽͨͩ͠ N=3,600 ͷࡍʹ࡟আ͞ΕΔ ݸͷ༻ݴ͸ɼର৅ͱͳΔ໊ࢺΛબ͹ͳ͍༻ݴ͕ଟ 4 4.1 ෇ ͢Δɽ (1) (2) (3) N=3600における 33個の用言は，対象となる名詞を選ばない =常識として不適切

各名詞に対する常識の付与 •  名詞nに対する用言aを，Harman正規化した TF値で重み付け TF(a,n) = log 2 (n a,n
+1) log 2 ( n k,n k ∑ ) 以下の3つのbaselineと比較　・用言は削除せず，Harman正規化したTFで重み付けした場合　・ TF-‐IDFに則って重み付けした場合　・ N≦700で削除される用言をすべて削除した場合：名詞：用言：名詞に対する用言の出現回数 n a n a,n

名詞に付与される用言の例 (1/2) ද 2: ໊ࢺʹରͯ͠෇༩͞ΕΔ༻ݴͷҧ͍ ໊ࢺɿ͍͵ baseline1 baseline2 baseline3 ఏҊख๏
baseline1 ͔͏ ͔͏ ۬Θͳ͍ ࢄา ೖֶ ͳΔ Ұॹ ࣂΘͳ͍ ͚ͭ͠Δ ڭҭ ͍Δ ੜ׆ ͔Έ͜Ζ͢ පؾ ͋Δ ͋Δ ൢച ๸͑ͳ͍ ͭΕΔ ͳΔ ੜ׆ ͨͷ͍͠ ༀࡴ ͘Β͢ ଔۀ ΈΔ ΍͍͢ ܨཹ ܇࿅ तۀ ͳ͍ Θ͔Δ ܇࿅ ΄͑Δ डݧ ͍͏ ొ࿥ ΍͚ͤ͜Δ ͔Θ͍͍ ͔Α͏ Ұॹ େ͖͍ ͔·ͳ͍ հޢ ֶश Ͱ͖Δ ͔Μ͕͑Δ ୅ࢀ ࣂҭ ࢦಋ

名詞に付与される用言の例 (2/2) → 提案手法は，常識として適切な用言が付与されている ෇༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅) ໊ࢺɿখֶߍ ఏҊख๏
baseline1 baseline2 baseline3 ఏҊख๏ ࢄา ೖֶ बֶ ཭೚ ೖֶ ͚ͭ͠Δ ڭҭ ೖֶ ܇ಋ ڭҭ පؾ ͋Δ ෇ଐ Ί͟Ίͳ͍ ଔۀ ͭΕΔ ͳΔ ࢀ؍ ͔͍͞͠ तۀ ͘Β͢ ଔۀ څ৯ Ճݮ৐আ डݧ ܇࿅ तۀ डݧ ͦ͹ͩͭ ͔Α͏ ΄͑Δ डݧ तۀ ՎΘ͢ ֶश ͔Θ͍͍ ͔Α͏ ୲೚ ΍Γ௚͞ͳ͍ ࢦಋ հޢ ֶश ଔۀ ͷͼΏ͘ ґཔ ࣂҭ ࢦಋ ͔Α͏ ࣮ݧ बֶ

付与失敗例について •  文中で名詞と共起しても，ほとんど関係がない –  名詞に係っている用言のみを利用 •  接尾辞的な使われ方をする名詞（e.g.月）
•  曖昧性のある名詞 –  文中で共起する他名詞との関係性を考慮 •  名詞同士の関係性を定義する名詞（e.g. 原因） –  常識を付与する対象として適切かどうか議論する必要がある　　→　常識を付与する対象の名詞をどのように制限していくか

常識表現となり得る用言の自動選定の検討

常識表現となり得る用言の自動選定の検討

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript