構文片の改良と評判分析への適用

構文片の改良と評判分析への適用瀧川和樹山本和英長岡技術科学大学電気系 {takigawa,yamamoto}@jnlp.org

2 研究背景～処理単位の問題～単語集合１単語では意味がわからない要素が存在 ex.) 「かける」という単語単語n-gram
意味のない要素(不要なデータ)が大量に生成されてしまう ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」単語の意味を保持できる処理単位の必要性言語処理における主な処理単位

3 研究背景～処理単位の問題～単語集合１単語では意味がわからない要素が存在 ex.) 「かける」という単語単語n-gram
意味のない要素(不要なデータ)が大量に生成されてしまう ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」単語の意味を保持できる処理単位の必要性言語処理における主な処理単位 “構文片”を提案

4 意味を持った要素を扱うことが目的係り受けの対から生成最近まわりの騒音がとても大きい最近→大きいまわりの→騒音騒音が→大きいとても→大きい
構文片研究背景～構文片とは～

5 n-gramと比べ文構造が保持されている他の処理単位と同様、統計もとりやすい係り受けの対であるため、抽出が容易構文解析器を用いることで抽出可能語義曖昧性に対応できる
「迷惑-を→かける」「洋服-を→かける」研究背景～構文片のメリット～

6 似た意味の要素が別物として扱われる（過疎性の問題）要素出現頻度騒音が大きい３騒音も大きい４大きい騒音
２スコアが別々にカウントされる影響大統計をとるとき辞書として使用するとき研究背景～構文片の問題(1)～

7 満足することができる形式名詞の影響で意味を持たない要素が生成される研究背景～構文片の問題(2)～満足する → ことこと-が →
できる修飾関係とは言いづらい意味が通じない意味を持った要素を扱うという目的に反する

8 提案手法～同類表現の汎化～構文片の中には似た意味の要素(同類表現) が存在同類表現をルールに基づき汎化要素出現頻度騒音が大きい３
騒音も大きい４大きい騒音２スコアが別々にカウントされる

9 名詞(-格助詞) → 形容詞形容詞 → 名詞要素に含まれる内容語が全て一致している名詞(-格助詞) →
動詞動詞 → 名詞子供-が → 喜んでいる喜んでいる → 子供騒音-が → うるさいうるさい → 騒音 or (i) (ii) 提案手法～同類表現の汎化～

10 提案手法～形式名詞への対処～満足することができる満足する → ことこと-が → できる修飾関係とは言いづらい
意味が通じない「こと」が実質機能的表現(形式名詞) として扱われていることが問題

11 「こと」のような機能的に扱われる単語(形式名詞)を収集これらの単語がある場合、直前の内容語の機能表現として扱う提案手法～形式名詞への対処～満足することができる満足する
→ ことこと-が → できる満足すること-が → できる

12 評判分析への適用青木ら[08]の手法をベースに１文を肯定 / 否定 / その他
に分類 1. 評判表現 – 極性のスコアの対を辞書に登録評判表現：構文片 2. 入力文の各要素に極性スコアを付与 3. 極性スコアの総和から文を分類

13 ファンの騒音が大きいファン-の → 騒音騒音-が → 大きい大きい →
騒音:否定抽出された構文片マッチングファン-の → 騒音騒音-が → 大きい：否定構文片の極性入力文：否定文分類入力文辞書

14 ファンの騒音が大きいファン-の → 騒音騒音-が → 大きい大きい →
騒音:否定抽出された構文片マッチングファン-の → 騒音騒音-が → 大きい：否定構文片の極性入力文：否定辞書文分類入力文

15 ファンの騒音が大きい大きい → 騒音:否定マッチングファン-の → 騒音騒音-が
→ 大きい：否定構文片の極性入力文：否定辞書文分類入力文ファン-の → 騒音騒音-が → 大きい抽出された構文片

16 評判分析に適用させる理由辞書を用いて極性スコアを与える手法である「大きい → 騒音」から「騒音-が → 大きい」にスコアを付与できる
同類表現の汎化によりマッチングの向上が期待意味をもたない要素の極性付加を減少できる「こと-ができる：肯定表現」とはならないはず形式名詞への対処により改善可能

17 肯定文肯定文否定文否定文辞書の生成～種辞書～構文片肯定否定サイズ-が
→ 大きい 5 1 対応-が → 遅い 0 8 優しい → 色 3 0 ・・構文片に極性をスコアとして付与構文片を抽出種辞書教師データを用意極性は出現確率から計算 (藤村ら[04])

18 評価表現：多ければ多いほど良い教師データが大量に必要となる人手で教師データを作るのはコスト大教師データを自動生成する必要性この教師データから作成した辞書：拡張辞書辞書の生成～拡張辞書～

19 肯定文肯定文否定文否定文大規模コーパス種辞書新しい教師データ構文片
肯定否定ノイズ-が → 激しい 0 3 継続-は → 難しい 0 4 デザイン → 美しい 8 0 ・・構文片を抽出拡張辞書辞書の生成～拡張辞書～

20 肯定文肯定文否定文否定文大規模コーパス種辞書新しい教師データ辞書の拡張
構文片肯定否定ノイズ-が → 激しい 0 3 継続-は → 難しい 0 4 デザイン → 美しい 8 0 ・・構文片を抽出拡張辞書

21 評価実験収集したデータ：肯定1,966文否定1,019文拡張辞書用の大規模コーパス：約21万文以下の手法で実験 1.
同類表現の汎化のみを反映 2. 形式名詞の対処のみを反映 3. 1. と 2. を組み合わせた手法 4. ベースライン:どちらも使用しない従来の構文片

22 実験結果適合率：すべての手法でベースラインより向上再現率(2)以外はベースラインより向上処理単位再現率(%) 適合率(%) (1) 同類表現のみ 49.8
77.1 (2) 形式名詞のみ 44.6 77.3 (3) (1)+(2) 47.7 78.7 (4) ベースライン 47.1 75.5

23 考察～同類表現の汎化～再現率がベースラインより向上大規模データから得た新たな教師データが増加拡張辞書の規模が増加約14,000文(約5.7%)増加従来の構文片：246,477文
汎化を使用：260,438文

24 考察～形式名詞の対処～従来の構文片による辞書なる-と → 思う：肯定表現正確に表現の極性を扱えている本手法による辞書
邪魔になる-と → 思う：否定表現プレゼントになる-と → 思う：肯定表現この表現は本来極性を持たない

25 処理単位再現率(%) 適合率(%) 単語2-gram 78.8 79.9 単語3-gram 75.3 78.0
同類表現のみ 49.8 77.1 単語2-gram、単語3-gram に対して再現率が大きく劣る考察～その他の処理単位との比較～

26 まとめ構文片の改良のため２つの手法を提案改良を行った構文片を評判分析に適用従来の構文片よりも適合率・再現率ともに向上課題
単語2-gramなどよりも再現率が劣るさらに再現率を向上させる必要がある

27 提案手法の効果同類表現の汎化要素の異なり数がどれだけ減少したかを検証新聞コーパス一年分(約294万分)に対して実験要素の異なり数汎化前約1092万汎化後
約734万減少数約358万 30%以上異なり数が減少

構文片の改良と評判分析への適用

構文片の改良と評判分析への適用

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

構文片の改良と評判分析への適用瀧川和樹山本和英長岡技術科学大学電気系 {takigawa,yamamoto}@jnlp.org

2 研究背景～処理単位の問題～単語集合１単語では意味がわからない要素が存在 ex.) 「かける」という単語単語n-gram

3 研究背景～処理単位の問題～単語集合１単語では意味がわからない要素が存在 ex.) 「かける」という単語単語n-gram

4 意味を持った要素を扱うことが目的係り受けの対から生成最近まわりの騒音がとても大きい最近→大きいまわりの→騒音騒音が→大きいとても→大きい

5 n-gramと比べ文構造が保持されている他の処理単位と同様、統計もとりやすい係り受けの対であるため、抽出が容易構文解析器を用いることで抽出可能語義曖昧性に対応できる

6 似た意味の要素が別物として扱われる（過疎性の問題）要素出現頻度騒音が大きい３騒音も大きい４大きい騒音

7 満足することができる形式名詞の影響で意味を持たない要素が生成される研究背景～構文片の問題(2)～満足する → ことこと-が →

8 提案手法～同類表現の汎化～構文片の中には似た意味の要素(同類表現) が存在同類表現をルールに基づき汎化要素出現頻度騒音が大きい３

9 名詞(-格助詞) → 形容詞形容詞 → 名詞要素に含まれる内容語が全て一致している名詞(-格助詞) →

10 提案手法～形式名詞への対処～満足することができる満足する → ことこと-が → できる修飾関係とは言いづらい

11 「こと」のような機能的に扱われる単語(形式名詞)を収集これらの単語がある場合、直前の内容語の機能表現として扱う提案手法～形式名詞への対処～満足することができる満足する

12 評判分析への適用青木ら[08]の手法をベースに１文を肯定 / 否定 / その他

13 ファンの騒音が大きいファン-の → 騒音騒音-が → 大きい大きい →

14 ファンの騒音が大きいファン-の → 騒音騒音-が → 大きい大きい →

15 ファンの騒音が大きい大きい → 騒音:否定マッチングファン-の → 騒音騒音-が

16 評判分析に適用させる理由辞書を用いて極性スコアを与える手法である「大きい → 騒音」から「騒音-が → 大きい」にスコアを付与できる

17 肯定文肯定文否定文否定文辞書の生成～種辞書～構文片肯定否定サイズ-が

18 評価表現：多ければ多いほど良い教師データが大量に必要となる人手で教師データを作るのはコスト大教師データを自動生成する必要性この教師データから作成した辞書：拡張辞書辞書の生成～拡張辞書～

19 肯定文肯定文否定文否定文大規模コーパス種辞書新しい教師データ構文片

20 肯定文肯定文否定文否定文大規模コーパス種辞書新しい教師データ辞書の拡張

21 評価実験収集したデータ：肯定1,966文否定1,019文拡張辞書用の大規模コーパス：約21万文以下の手法で実験 1.

22 実験結果適合率：すべての手法でベースラインより向上再現率(2)以外はベースラインより向上処理単位再現率(%) 適合率(%) (1) 同類表現のみ 49.8

23 考察～同類表現の汎化～再現率がベースラインより向上大規模データから得た新たな教師データが増加拡張辞書の規模が増加約14,000文(約5.7%)増加従来の構文片：246,477文

24 考察～形式名詞の対処～従来の構文片による辞書なる-と → 思う：肯定表現正確に表現の極性を扱えている本手法による辞書

25 処理単位再現率(%) 適合率(%) 単語2-gram 78.8 79.9 単語3-gram 75.3 78.0

26 まとめ構文片の改良のため２つの手法を提案改良を行った構文片を評判分析に適用従来の構文片よりも適合率・再現率ともに向上課題

27 提案手法の効果同類表現の汎化要素の異なり数がどれだけ減少したかを検証新聞コーパス一年分(約294万分)に対して実験要素の異なり数汎化前約1092万汎化後