Upgrade to Pro — share decks privately, control downloads, hide ads and more …

クエリと説明文の関係を表す記述要素辞書の構築

 クエリと説明文の関係を表す記述要素辞書の構築

久保木 武承, 山本和英. クエリと説明文の関係を表す記述要素辞書の構築. 電子情報通信学会 テキストマイニングシンポジウム, 信学技報, vol. 112, no. 196, NLC2012-22, pp.67-72 (2012.8)

自然言語処理研究室

August 31, 2012
Tweet

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 辞書構築上の課題 8 要職, 出来, 系譜, 街並み, きっかけ, つづり方, 雇人, コンサルティ

    ング, 作意, 縁, 便法, 生いさき, 原義, 戸長, 理解, つき合い, 民業, 家宝, 薬種, 認定, 捨値, 身構え, 性分, 縁由, ご利益, 絵柄, 演題, 曾祖父, 伝達, もの言い, 経閉期, 足代 , 測度, 縁者, 収集, 感性, 棟梁, 加減, 頻度, アイテム , 矛先, オーナー, 近況, レベル, 倅, 確度, 設題, 終期, 機運, 基本給, 帰結, 身の上, 有り金 , 礼儀, 感 想, 父君, 標目, 社風, 作り方, 案件, 景品, 積載, 仮名, 染上り, 音 響, 大姉, 光量, 浮き名, 嫁御, 潮位, 工数, 需給, 意訳, さじ加減, リスク, 延日数, 歳費, 原由, 精粗, 基底, フレーバー, 要領, … 課題:これらの語だけが満たす性質とは? 適当に選んだ名詞群から記述要素を選ぶとして……
  2. p まずは記述要素のみの辞書を作ろう 本研究の狙い 9 目標1  記述要素となり得る語がどの程度あるのか把握 する Ø  そもそも把握可能な数? Ø  それとも話題語ごとに毎回集めてこなくてはならないもの?

    目標2  記述要素が満たすべき性質を明らかにする Ø  これが明らかになれば、例え話題語ごとに集めてこなくては ならなくとも自動取得の可能性が残せる
  3. p  一名の人手作業により、名詞群から記述要素にな り得る語を選別 1.IPADICから記述要素になり得る名詞群にあたる品詞 の細分類を選択
 (IPADICが日本語の言語処理で一般的に使われる辞書で あるため、網羅性を期待してこれを用いた) Step 1 12

    名詞の細分類  一般, 数, 固有名詞, 形容動詞語幹, 非自立, サ 変接続, 副詞可能, 代名詞, ナイ形容詞語幹 今回は一般, サ変接続, ナイ形容詞語幹の 3種類を用いることにした
  4. Step 1 14 種類 語数 抽出語数 名詞-一般 60818 3230(5%) 名詞-サ変接続

    12146 437(4%) 名詞-ナイ形容詞語幹 42 7(16%) 合計 73006 3674(5%) 結論:記述要素になり得る語数が少ない事から、記述要 素になる語は何らかの条件を持った特定の語群である p  一名の人手作業により、名詞群から記述要素にな り得る語を選別 分類結果
  5. l  記述要素が話題語の特徴や性質を包含しているこ とを保証する性質 Ø  その話題語が"生来保有している、あるいは持つ事が 確定している"特徴、性質、機能、属性、事柄などであ る 包含性(必要な性質) 18 (包含性を持つ語à記述要素たり得る)

    花瓶の色à生来保有している性質 自衛隊の装備à生来保有することが確定している特徴 (包含性をもたない語) ヨドバシカメラの広告à生来持つ性質とは言えない
  6. 文接続性(必要な性質) 19 l  “話題語の記述要素とは”のあとに文章が接続され る性質 Ø  “話題語の記述要素とは”のあとに文が続く Ø  形容表現のみ(「雨脚が“強い”」など)は除く
 「話題語と文の関係を表す語」という機能を果たさない

    (文接続性を持つà記述要素たり得る語) 画風>いわき絵のぼりの画風とは江戸時代の浮世絵、 特に歌川派の影響が強いと言われています。 (文接続性を持たない) パソコンの型名à名詞一語で表現可能。説明文が続か ない
  7. l  性質判定結果 p  非該当=上記いずれにも分類されない名詞 Ø  純粋に記述要素と言えたのは1664個だった Ø  非安定要素、抽象要素、具体要素、純粋属性 「記述要素に対して余分な性質を持つその他の要素」を設定 記述要素辞書

    27   包含性 文接続性 実在性 固有性 抽象性 非安定性 個数 記述要素 • • × × × × 1664(45%) 非安定要素 • • × × × • 222(6%) 抽象要素 • • × × • - 140(4%) 具体要素 • • • × × - 47(1%) 純粋属性 • - × • × - 795(22%) 全語数             3674 非該当             806(22%)
  8. 記述要素 28   包含性 文接続性 実在性 固有性 抽象性 非安定性 個数

    記述要素 • • × × × × 1664 アーキテクチャ, 因習, 原因, 客層, 業務, 国柄, オリジナリティ, 外 観, 会規, 外形, 剪定, 外見, 戒告, 解決, 外需, 会則, 解除, 害毒, 解消, 改正, 解析, 外聞, 涯分, 解法, 改定, 役目, … u  記述要素の果たす必要最低限の性質を持ち、かつ曖昧な語 を取り除いたもの=記述要素の核となる語群 u  このような性質をもつ語は元々の名詞群73006語の2% (話題語) ローパスフィルター (記述要素)役目 (例文)ローパスフィルターの役目は、モアレや偽色の原因となる細 かい模様を、撮像素子に入射してくる前にある程度ぼかしてしまお うというものです
  9. u  記述要素に対して非安定性の性質を持つもの u  ここに属する語は説明文中に記述要素を確定させる特定 の語=キーワードを持ちにくいため、キーワードを用いて 記述要素を付与する先行研究とは別の手法が必要 非安定要素 29 工夫 ,

    悪因 , 悪材料 , 悪条件 , アウトプット , 悪例 , 出力 ,塩梅, 言い回し, 言回し, 印象, 言いよう, 言い様, 意趣, 異説, 意想, …   包含性 文接続性 実在性 固有性 抽象性 非安定性 個数 非安定要素 • • × × × • 222 (話題語) 日本 (記述要素)印象 (例文)日本の印象は、住空間の狭さと、物価の高さをマイナスに感 じているということが伺える。
  10. u  記述要素のうちでも話題語に対する説明範囲が広い u  ここに属する語はいずれも話題語が決まればその話題語 における説明であればまず付与できてしまい「どんな説明 がされているのか」を知りたい時は利用価値が低い 抽象要素 30 含意, 考え方,

    局面, プラン, 基軸, 基調, 基本, 言説, 言論, 梗概, 講説, 意, 細則, 雑題, 実質, 主意, 概説, 総論, 主旨, 主題, …   包含性 文接続性 実在性 固有性 抽象性 非安定性 個数 抽象要素 • • × × • - 140(4%) (話題語) オリンピック (記述要素)主旨 (例文)オリンピックの主旨はスポーツを通じて心身の成長を促し、 世界の相互交流と平和を目指す―ということになってはいるが、近 代に入ると打って変わり、一大ビジネスチャンスとしての側面が強 まっている。
  11. u  記述要素の性質を満たしつつも実在性を保有する語群 u  ここに属する語は、話題語の性質でなく「話題語+具体要 素=別話題語」となる 具体要素 31 資財, 下地, ターゲット,

    対価, 蓄え, 貯え, 着衣, 直系, 付き物, 取り 分, 取分, 標的, 物証, 核, ボーナス, 基礎, 骨組, 土台, 的, …   包含性 文接続性 実在性 固有性 抽象性 非安定性 個数 具体要素 • • • × × - 47(1%) (話題語)釈迦 (記述要素)着衣 (例文)釈迦の着衣は截金文様 (きりかねもんよう)で装飾され、画 面中央に光が集まる効果的手法がとられている。
  12. u  属性として最低限の要件を満たした語 u  記述要素と区別することで  「語と語の関係を表す純粋属性」  「語と文の関係を表す記述要素」 という性質の違いで関係付与手法を分けて構築可能 純粋属性 32 音調,

    公課, 呼び名, 色つや, カロリー, 本名, 学力, 春期, 課目, け た数, 兵員, 戸数, 定年, 常得意, 年産, 原価, 当字 , 国籍, …   包含性 文接続性 実在性 固有性 抽象性 非安定性 個数 純粋属性 • - × • × - 795(22%) (話題語)豆腐 (記述要素)カロリー (例文)豆腐のカロリーは100gで72kcal、特に絹ごし豆腐のカロリー は100gでなんと56kcal
  13. 35

  14. 記述要素の特徴 36 l  属性 Ø  自然言語処理で言う属性は定義が曖昧 1.  概念間の関係名としてとにかく列挙したり(Catherine[2007]) 2.  (対象,

    属性, 属性値)の対として抽出できるものであったり(小 林[2005]) 3.  先にタスクを決めてそこに必要(と思われる)属性を自分で設 定したり(西村[2007]) では、記述要素はどう違う?
  15. 記述要素の特徴 37 l  記述要素=話題語と説明「文」の関係名 Ø  属性よりも具体的なタスク設定 •  属性が「概念間の関係」であったり「あるパタンでとれるもの」 であるのに対して、記述要素は「話題語と説明文」と事前に扱 う単位が決まっている

    Ø  関係名を付与するというタスクを明確に分別可能 •  語と語で関係を与えたいのか パターンを使う、頻出する対のみ使う、等 •  語と文で関係を与えたいのか キーワードの有無で判定、等
  16. 抽出数対比-品詞分類 38 種類 語数 抽出語数 記述要素 名詞-一般 60818 3230(-57588) 1340(-1890)

    名詞-サ変接続 12146 437(-11709) 319(-118) 名詞-ナイ形容詞語 幹 42 7(-35) 5(-2) 合計 73006 3674(-69332) 1664(-2010)