Upgrade to Pro — share decks privately, control downloads, hide ads and more …

常識表現となり得る用言の自動選定の検討

 常識表現となり得る用言の自動選定の検討

真嘉比 愛, 山本和英. 常識表現となり得る用言の自動選定の検討. 言語処理学会第19回年次大会, pp.822-825 (2013.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 研究の概要 •  常識知識ベース構築にあたり,常識として適 切な用言の選定方法を提案   – 名詞と共起する用言の異なり数に着目   – 用言の出現頻度上位N件毎に,名詞に対する削 除用言を決定  

    – ベースラインと比較して,適切な用言が付与され ていることを確認   •  [課題]  共起する用言の少ない名詞に対して の常識付与方法
  2. 研究の目的 •  自然言語処理で利用可能な常識知識ベースを構築 名詞と共起する用言    →  常識と定義      ・

    動詞      ・ 形容詞    ・ サ変名詞                         名詞“犬”が持つ常識 動詞   吠える   しつける   走る   サ変名詞   散歩,病気,訓練,飼育 形容詞   かわいい   たのしい   いとしい
  3. 既存知識ベースとの違い 既存の   上位オントロジー    e.g.  SUMO,      

                     OpenCyc   利点:  厳密に定義された常識 を利用できる     欠点:  実際の語彙表現との乖 離が激しい 各Conceptに対し,   様々な関係で結 ばれる語や文を 付与    e.g.  ConceptNet   利点:  自然言語処理のタス クに適用しやすい     欠点:  大半が人手で集めら れているため,網羅性が低 い
  4. 名詞と用言のペアを抽出 •  Web日本語Nグラム   – 200億文中から,出現頻度20回以上の文を抽出   – 7グラム総数:  570,204,252個   • 

    抽出した用言と名詞のペア   – 605,363,630対  (異なり数:  29,434,191対)   •  名詞の異なり数:  655,038語   •  用言の異なり数:  26,455語  
  5. 各名詞に対する削除用言数   •  削除用言   –  わかる,もつ,みる,なる,ない,とる,できる,つく,しる,くる,おもう, おおい,いる,いう,ある,良い,入る,でる,つくる,つかう,きく,かく, おこなう,紹介,よい,ゆく,たつ,たかい,おる,いい,関係,やる,か ける

    1: ໊֤ࢺʹର͢Δ࡟আ༻ݴ਺ (N=ڞى͢Δ༻ݴͷ ͳΓ਺) ର৅ͱͳΔ໊ࢺͷൣғ ࡟আ਺ N≤700 427 700<N≤1,100 267 1,100<N≤1,600 143 1,600<N≤2,500 73 ͦΕҎ֎ 33 ྫ͑͹ɼN=1,000 ͷ໊ࢺʹ͍ͭͯ͸ 227 ݸͷ༻ݴ͕ আର৅ͱͳΔɽͨͩ͠ N=3,600 ͷࡍʹ࡟আ͞ΕΔ ݸͷ༻ݴ͸ɼର৅ͱͳΔ໊ࢺΛબ͹ͳ͍༻ݴ͕ଟ 4 4.1 ෇ ͢Δɽ (1) (2) (3) N=3600における   33個の用言は,対 象となる名詞を選 ばない   =常識として不適切
  6. 各名詞に対する常識の付与 •  名詞nに対する用言aを,Harman正規化した TF値で重み付け TF(a,n) = log 2 (n a,n

    +1) log 2 ( n k,n k ∑ ) 以下の3つのbaselineと比較    ・ 用言は削除せず,Harman正規化したTFで重み付けした場合    ・  TF-­‐IDFに則って重み付けした場合    ・  N≦700で削除される用言をすべて削除した場合 :名詞   :用言   :名詞に対する   用言の出現回数 n a n a,n
  7. 名詞に付与される用言の例  (1/2) ද 2: ໊ࢺʹରͯ͠෇༩͞ΕΔ༻ݴͷҧ͍ ໊ࢺɿ͍͵ baseline1 baseline2 baseline3 ఏҊख๏

    baseline1 ͔͏ ͔͏ ۬Θͳ͍ ࢄา ೖֶ ͳΔ Ұॹ ࣂΘͳ͍ ͚ͭ͠Δ ڭҭ ͍Δ ੜ׆ ͔Έ͜Ζ͢ පؾ ͋Δ ͋Δ ൢച ๸͑ͳ͍ ͭΕΔ ͳΔ ੜ׆ ͨͷ͍͠ ༀࡴ ͘Β͢ ଔۀ ΈΔ ΍͍͢ ܨཹ ܇࿅ तۀ ͳ͍ Θ͔Δ ܇࿅ ΄͑Δ डݧ ͍͏ ొ࿥ ΍͚ͤ͜Δ ͔Θ͍͍ ͔Α͏ Ұॹ େ͖͍ ͔·ͳ͍ հޢ ֶश Ͱ͖Δ ͔Μ͕͑Δ ୅ࢀ ࣂҭ ࢦಋ
  8. 名詞に付与される用言の例  (2/2) →  提案手法は,常識として適切な用言が付与されている ෇༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅) ໊ࢺɿখֶߍ ఏҊख๏

    baseline1 baseline2 baseline3 ఏҊख๏ ࢄา ೖֶ बֶ ཭೚ ೖֶ ͚ͭ͠Δ ڭҭ ೖֶ ܇ಋ ڭҭ පؾ ͋Δ ෇ଐ Ί͟Ίͳ͍ ଔۀ ͭΕΔ ͳΔ ࢀ؍ ͔͍͞͠ तۀ ͘Β͢ ଔۀ څ৯ Ճݮ৐আ डݧ ܇࿅ तۀ डݧ ͦ͹ͩͭ ͔Α͏ ΄͑Δ डݧ तۀ ՎΘ͢ ֶश ͔Θ͍͍ ͔Α͏ ୲೚ ΍Γ௚͞ͳ͍ ࢦಋ հޢ ֶश ଔۀ ͷͼΏ͘ ґཔ ࣂҭ ࢦಋ ͔Α͏ ࣮ݧ बֶ
  9. 付与失敗例について •  文中で名詞と共起しても,ほとんど関係がない   –  名詞に係っている用言のみを利用   •  接尾辞的な使われ方をする名詞(e.g.月)  

    •  曖昧性のある名詞   –  文中で共起する他名詞との関係性を考慮   •  名詞同士の関係性を定義する名詞(e.g.  原因)   –  常識を付与する対象として適切かどうか議論する必 要がある     → 常識を付与する対象の名詞をどのように        制限していくか