Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文片の改良と評判分析への適用
Search
自然言語処理研究室
March 31, 2011
Research
0
52
構文片の改良と評判分析への適用
瀧川 和樹, 山本 和英. 構文片の改良と評判分析への適用. 言語処理学会第17回年次大会, pp.111-114 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
65
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
HP (Hitto Point: 筆頭ポイント)
tanichu
0
720
CASCON 2023 Most Influential Paper Award Talk
tsantalis
0
120
Trezor Safe 3 ファーストインプレッション
toshihr
0
190
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
130
プロシェアリング白書2024_PROSHARING_REPORT_2024
circulation
0
630
論文紹介 DSRNet: Single Image Reflection Separation via Component Synergy (ICCV 2023)
tattaka
0
180
Refactoring Mining - The key to unlock software evolution
tsantalis
0
260
Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations
rudorudo11
0
160
東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
aya_se
12
6.5k
Generative AI - practice and theory
gpeyre
1
570
20240209 データを肴に熊本の交通を考える会「車1割削減、渋滞半減、公共交通2倍」をめざし世界に学ぼう
trafficbrain
0
830
「EBPMエコシステム」の可能性
daimoriwaki
0
200
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
40
4.4k
Building Adaptive Systems
keathley
31
1.9k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
9
8.3k
Web development in the modern age
philhawksworth
202
10k
Rebuilding a faster, lazier Slack
samanthasiow
73
8.2k
Clear Off the Table
cherdarchuk
84
310k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
2
3.4k
Six Lessons from altMBA
skipperchong
21
3k
Docker and Python
trallard
34
2.7k
Adopting Sorbet at Scale
ufuk
68
8.6k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
18
6.9k
Reflections from 52 weeks, 52 projects
jeffersonlam
345
19k
Transcript
構文片の改良と 評判分析への適用 瀧川和樹 山本和英 長岡技術科学大学 電気系 {takigawa,yamamoto}@jnlp.org
2 研究背景~処理単位の問題~ 単語集合 1単語では意味がわからない要素が存在 ex.) 「かける」という単語 単語n-gram
意味のない要素(不要なデータ)が大量に生成されてしまう ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」 単語の意味を保持できる処理単位の必要性 言語処理における主な処理単位
3 研究背景~処理単位の問題~ 単語集合 1単語では意味がわからない要素が存在 ex.) 「かける」という単語 単語n-gram
意味のない要素(不要なデータ)が大量に生成されてしまう ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」 単語の意味を保持できる処理単位の必要性 言語処理における主な処理単位 “構文片”を提案
4 意味を持った要素を扱うことが目的 係り受けの対から生成 最近まわりの騒音がとても大きい 最近→大きい まわりの→騒音 騒音が→大きい とても→大きい
構文片 研究背景~構文片とは~
5 n-gramと比べ文構造が保持されている 他の処理単位と同様、統計もとりやすい 係り受けの対であるため、抽出が容易 構文解析器を用いることで抽出可能 語義曖昧性に対応できる
「迷惑-を→かける」「洋服-を→かける」 研究背景~構文片のメリット~
6 似た意味の要素が別物として扱われる (過疎性の問題) 要素 出現頻度 騒音が大きい 3 騒音も大きい 4 大きい騒音
2 スコアが別々に カウントされる 影響大 統計をとるとき 辞書として使用するとき 研究背景~構文片の問題(1)~
7 満足することができる 形式名詞の影響で 意味を持たない要素が生成される 研究背景~構文片の問題(2)~ 満足する → こと こと-が →
できる 修飾関係とは言いづらい 意味が通じない 意味を持った要素を扱うという目的に反する
8 提案手法~同類表現の汎化~ 構文片の中には似た意味の要素(同類表現) が存在 同類表現をルールに基づき汎化 要素 出現頻度 騒音が大きい 3
騒音も大きい 4 大きい騒音 2 スコアが別々に カウントされる
9 名詞(-格助詞) → 形容詞 形容詞 → 名詞 要素に含まれる内容語が全て一致している 名詞(-格助詞) →
動詞 動詞 → 名詞 子供-が → 喜んでいる 喜んでいる → 子供 騒音-が → うるさい うるさい → 騒音 or (i) (ii) 提案手法~同類表現の汎化~
10 提案手法~形式名詞への対処~ 満足することができる 満足する → こと こと-が → できる 修飾関係とは言いづらい
意味が通じない 「こと」が実質機能的表現(形式名詞) として扱われていることが問題
11 「こと」のような機能的に扱われる単語(形式 名詞)を収集 これらの単語がある場合、直前の内容語の 機能表現として扱う 提案手法~形式名詞への対処~ 満足することができる 満足する
→ こと こと-が → できる 満足すること-が → できる
12 評判分析への適用 青木ら[08]の手法をベースに 1文を肯定 / 否定 / その他
に分類 1. 評判表現 – 極性のスコア の対を辞書に登録 評判表現:構文片 2. 入力文の各要素に極性スコアを付与 3. 極性スコアの総和から文を分類
13 ファンの騒音が大きい ファン-の → 騒音 騒音-が → 大きい 大きい →
騒音:否定 抽出された構文片 マッチング ファン-の → 騒音 騒音-が → 大きい:否定 構文片の極性 入力文:否定 文分類 入力文 辞書
14 ファンの騒音が大きい ファン-の → 騒音 騒音-が → 大きい 大きい →
騒音:否定 抽出された構文片 マッチング ファン-の → 騒音 騒音-が → 大きい:否定 構文片の極性 入力文:否定 辞書 文分類 入力文
15 ファンの騒音が大きい 大きい → 騒音:否定 マッチング ファン-の → 騒音 騒音-が
→ 大きい:否定 構文片の極性 入力文:否定 辞書 文分類 入力文 ファン-の → 騒音 騒音-が → 大きい 抽出された構文片
16 評判分析に適用させる理由 辞書を用いて極性スコアを与える手法である 「大きい → 騒音」から「騒音-が → 大きい」にスコア を付与できる
同類表現の汎化によりマッチングの向上が期待 意味をもたない要素の極性付加を減少できる 「こと-ができる:肯定表現」とはならないはず 形式名詞への対処により改善可能
17 肯定文 肯定文 否定文 否定文 辞書の生成~種辞書~ 構文片 肯定 否定 サイズ-が
→ 大きい 5 1 対応-が → 遅い 0 8 優しい → 色 3 0 ・ ・ 構文片に極性をスコアとして付与 構文片を抽出 種辞書 教師データを用意 極性は出現確率から計算 (藤村ら[04])
18 評価表現:多ければ多いほど良い 教師データが大量に必要となる 人手で教師データを作るのはコスト大 教師データを自動生成する必要性 この教師データから作成した辞書:拡張辞書 辞書の生成~拡張辞書~
19 肯定文 肯定文 否定文 否定文 大規模 コーパス 種辞書 新しい教師データ 構文片
肯定 否定 ノイズ-が → 激しい 0 3 継続-は → 難しい 0 4 デザイン → 美しい 8 0 ・ ・ 構文片を抽出 拡張辞書 辞書の生成~拡張辞書~
20 肯定文 肯定文 否定文 否定文 大規模 コーパス 種辞書 新しい教師データ 辞書の拡張
構文片 肯定 否定 ノイズ-が → 激しい 0 3 継続-は → 難しい 0 4 デザイン → 美しい 8 0 ・ ・ 構文片を抽出 拡張辞書
21 評価実験 収集したデータ:肯定1,966文 否定1,019文 拡張辞書用の大規模コーパス:約21万文 以下の手法で実験 1.
同類表現の汎化のみを反映 2. 形式名詞の対処のみを反映 3. 1. と 2. を組み合わせた手法 4. ベースライン:どちらも使用しない従来の構文片
22 実験結果 適合率:すべての手法でベースラインより向上 再現率(2)以外はベースラインより向上 処理単位 再現率(%) 適合率(%) (1) 同類表現のみ 49.8
77.1 (2) 形式名詞のみ 44.6 77.3 (3) (1)+(2) 47.7 78.7 (4) ベースライン 47.1 75.5
23 考察 ~同類表現の汎化~ 再現率がベースラインより向上 大規模データから得た新たな教師データが増加 拡張辞書の規模が増加 約14,000文(約5.7%)増加 従来の構文片 :246,477文
汎化を使用 :260,438文
24 考察 ~形式名詞の対処~ 従来の構文片による辞書 なる-と → 思う:肯定表現 正確に表現の極性を扱えている 本手法による辞書
邪魔になる-と → 思う:否定表現 プレゼントになる-と → 思う:肯定表現 この表現は本来極性を持たない
25 処理単位 再現率(%) 適合率(%) 単語2-gram 78.8 79.9 単語3-gram 75.3 78.0
同類表現のみ 49.8 77.1 単語2-gram、単語3-gram に対して再現率が大きく劣る 考察~その他の処理単位との比較~
26 まとめ 構文片の改良のため2つの手法を提案 改良を行った構文片を評判分析に適用 従来の構文片よりも適合率・再現率ともに向上 課題
単語2-gramなどよりも再現率が劣る さらに再現率を向上させる必要がある
27 提案手法の効果 同類表現の汎化 要素の異なり数がどれだけ減少したかを検証 新聞コーパス一年分(約294万分)に対して実験 要素の異なり数 汎化前 約1092万 汎化後
約734万 減少数 約358万 30%以上異なり数が減少