Upgrade to Pro — share decks privately, control downloads, hide ads and more …

構文片の改良と評判分析への適用

 構文片の改良と評判分析への適用

瀧川 和樹, 山本 和英. 構文片の改良と評判分析への適用. 言語処理学会第17回年次大会, pp.111-114 (2011.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 2 研究背景~処理単位の問題~ „ 単語集合 … 1単語では意味がわからない要素が存在 ex.) 「かける」という単語 „ 単語n-gram

    … 意味のない要素(不要なデータ)が大量に生成されてしまう ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」 単語の意味を保持できる処理単位の必要性 言語処理における主な処理単位
  2. 3 研究背景~処理単位の問題~ „ 単語集合 … 1単語では意味がわからない要素が存在 ex.) 「かける」という単語 „ 単語n-gram

    … 意味のない要素(不要なデータ)が大量に生成されてしまう ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」 単語の意味を保持できる処理単位の必要性 言語処理における主な処理単位 “構文片”を提案
  3. 6 似た意味の要素が別物として扱われる (過疎性の問題) 要素 出現頻度 騒音が大きい 3 騒音も大きい 4 大きい騒音

    2 スコアが別々に カウントされる 影響大 統計をとるとき 辞書として使用するとき 研究背景~構文片の問題(1)~
  4. 7 満足することができる 形式名詞の影響で 意味を持たない要素が生成される 研究背景~構文片の問題(2)~ 満足する → こと こと-が →

    できる 修飾関係とは言いづらい 意味が通じない 意味を持った要素を扱うという目的に反する
  5. 9 名詞(-格助詞) → 形容詞 形容詞 → 名詞 要素に含まれる内容語が全て一致している 名詞(-格助詞) →

    動詞 動詞 → 名詞 子供-が → 喜んでいる 喜んでいる → 子供 騒音-が → うるさい うるさい → 騒音 or (i) (ii) 提案手法~同類表現の汎化~
  6. 10 提案手法~形式名詞への対処~ 満足することができる 満足する → こと こと-が → できる 修飾関係とは言いづらい

    意味が通じない 「こと」が実質機能的表現(形式名詞) として扱われていることが問題
  7. 12 評判分析への適用 „ 青木ら[08]の手法をベースに „ 1文を肯定 / 否定 / その他

    に分類 1. 評判表現 – 極性のスコア の対を辞書に登録 評判表現:構文片 2. 入力文の各要素に極性スコアを付与 3. 極性スコアの総和から文を分類
  8. 13 ファンの騒音が大きい ファン-の → 騒音 騒音-が → 大きい 大きい →

    騒音:否定 抽出された構文片 マッチング ファン-の → 騒音 騒音-が → 大きい:否定 構文片の極性 入力文:否定 文分類 入力文 辞書
  9. 14 ファンの騒音が大きい ファン-の → 騒音 騒音-が → 大きい 大きい →

    騒音:否定 抽出された構文片 マッチング ファン-の → 騒音 騒音-が → 大きい:否定 構文片の極性 入力文:否定 辞書 文分類 入力文
  10. 15 ファンの騒音が大きい 大きい → 騒音:否定 マッチング ファン-の → 騒音 騒音-が

    → 大きい:否定 構文片の極性 入力文:否定 辞書 文分類 入力文 ファン-の → 騒音 騒音-が → 大きい 抽出された構文片
  11. 16 評判分析に適用させる理由 „ 辞書を用いて極性スコアを与える手法である …「大きい → 騒音」から「騒音-が → 大きい」にスコア を付与できる

    …同類表現の汎化によりマッチングの向上が期待 „ 意味をもたない要素の極性付加を減少できる …「こと-ができる:肯定表現」とはならないはず …形式名詞への対処により改善可能
  12. 17 肯定文 肯定文 否定文 否定文 辞書の生成~種辞書~ 構文片 肯定 否定 サイズ-が

    → 大きい 5 1 対応-が → 遅い 0 8 優しい → 色 3 0 ・ ・ 構文片に極性をスコアとして付与 構文片を抽出 種辞書 教師データを用意 極性は出現確率から計算 (藤村ら[04])
  13. 19 肯定文 肯定文 否定文 否定文 大規模 コーパス 種辞書 新しい教師データ 構文片

    肯定 否定 ノイズ-が → 激しい 0 3 継続-は → 難しい 0 4 デザイン → 美しい 8 0 ・ ・ 構文片を抽出 拡張辞書 辞書の生成~拡張辞書~
  14. 20 肯定文 肯定文 否定文 否定文 大規模 コーパス 種辞書 新しい教師データ 辞書の拡張

    構文片 肯定 否定 ノイズ-が → 激しい 0 3 継続-は → 難しい 0 4 デザイン → 美しい 8 0 ・ ・ 構文片を抽出 拡張辞書
  15. 21 評価実験 „ 収集したデータ:肯定1,966文 否定1,019文 „ 拡張辞書用の大規模コーパス:約21万文 „ 以下の手法で実験 1.

    同類表現の汎化のみを反映 2. 形式名詞の対処のみを反映 3. 1. と 2. を組み合わせた手法 4. ベースライン:どちらも使用しない従来の構文片
  16. 24 考察 ~形式名詞の対処~ „ 従来の構文片による辞書 なる-と → 思う:肯定表現 正確に表現の極性を扱えている „本手法による辞書

    邪魔になる-と → 思う:否定表現 プレゼントになる-と → 思う:肯定表現 この表現は本来極性を持たない
  17. 25 処理単位 再現率(%) 適合率(%) 単語2-gram 78.8 79.9 単語3-gram 75.3 78.0

    同類表現のみ 49.8 77.1 単語2-gram、単語3-gram に対して再現率が大きく劣る 考察~その他の処理単位との比較~