Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文片の改良と評判分析への適用
Search
自然言語処理研究室
March 31, 2011
Research
0
66
構文片の改良と評判分析への適用
瀧川 和樹, 山本 和英. 構文片の改良と評判分析への適用. 言語処理学会第17回年次大会, pp.111-114 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
510
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
480
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
470
SREはサイバネティクスの夢をみるか? / Do SREs Dream of Cybernetics?
yuukit
3
290
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
satai
3
650
Attaques quantiques sur Bitcoin : comment se protéger ?
rlifchitz
0
110
ドメイン知識がない領域での自然言語処理の始め方
hargon24
1
230
Remote sensing × Multi-modal meta survey
satai
4
670
ACL読み会2025: Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
110
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1.2k
さまざまなAgent FrameworkとAIエージェントの評価
ymd65536
1
380
20251023_くまもと21の会例会_「車1割削減、渋滞半減、公共交通2倍」をめざして.pdf
trafficbrain
0
150
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
630
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Between Models and Reality
mayunak
1
150
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
0
48
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
sira's awesome portfolio website redesign presentation
elsirapls
0
99
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
220
The Curse of the Amulet
leimatthew05
0
6.5k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
We Are The Robots
honzajavorek
0
130
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
76
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Transcript
構文片の改良と 評判分析への適用 瀧川和樹 山本和英 長岡技術科学大学 電気系 {takigawa,yamamoto}@jnlp.org
2 研究背景~処理単位の問題~ 単語集合 1単語では意味がわからない要素が存在 ex.) 「かける」という単語 単語n-gram
意味のない要素(不要なデータ)が大量に生成されてしまう ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」 単語の意味を保持できる処理単位の必要性 言語処理における主な処理単位
3 研究背景~処理単位の問題~ 単語集合 1単語では意味がわからない要素が存在 ex.) 「かける」という単語 単語n-gram
意味のない要素(不要なデータ)が大量に生成されてしまう ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」 単語の意味を保持できる処理単位の必要性 言語処理における主な処理単位 “構文片”を提案
4 意味を持った要素を扱うことが目的 係り受けの対から生成 最近まわりの騒音がとても大きい 最近→大きい まわりの→騒音 騒音が→大きい とても→大きい
構文片 研究背景~構文片とは~
5 n-gramと比べ文構造が保持されている 他の処理単位と同様、統計もとりやすい 係り受けの対であるため、抽出が容易 構文解析器を用いることで抽出可能 語義曖昧性に対応できる
「迷惑-を→かける」「洋服-を→かける」 研究背景~構文片のメリット~
6 似た意味の要素が別物として扱われる (過疎性の問題) 要素 出現頻度 騒音が大きい 3 騒音も大きい 4 大きい騒音
2 スコアが別々に カウントされる 影響大 統計をとるとき 辞書として使用するとき 研究背景~構文片の問題(1)~
7 満足することができる 形式名詞の影響で 意味を持たない要素が生成される 研究背景~構文片の問題(2)~ 満足する → こと こと-が →
できる 修飾関係とは言いづらい 意味が通じない 意味を持った要素を扱うという目的に反する
8 提案手法~同類表現の汎化~ 構文片の中には似た意味の要素(同類表現) が存在 同類表現をルールに基づき汎化 要素 出現頻度 騒音が大きい 3
騒音も大きい 4 大きい騒音 2 スコアが別々に カウントされる
9 名詞(-格助詞) → 形容詞 形容詞 → 名詞 要素に含まれる内容語が全て一致している 名詞(-格助詞) →
動詞 動詞 → 名詞 子供-が → 喜んでいる 喜んでいる → 子供 騒音-が → うるさい うるさい → 騒音 or (i) (ii) 提案手法~同類表現の汎化~
10 提案手法~形式名詞への対処~ 満足することができる 満足する → こと こと-が → できる 修飾関係とは言いづらい
意味が通じない 「こと」が実質機能的表現(形式名詞) として扱われていることが問題
11 「こと」のような機能的に扱われる単語(形式 名詞)を収集 これらの単語がある場合、直前の内容語の 機能表現として扱う 提案手法~形式名詞への対処~ 満足することができる 満足する
→ こと こと-が → できる 満足すること-が → できる
12 評判分析への適用 青木ら[08]の手法をベースに 1文を肯定 / 否定 / その他
に分類 1. 評判表現 – 極性のスコア の対を辞書に登録 評判表現:構文片 2. 入力文の各要素に極性スコアを付与 3. 極性スコアの総和から文を分類
13 ファンの騒音が大きい ファン-の → 騒音 騒音-が → 大きい 大きい →
騒音:否定 抽出された構文片 マッチング ファン-の → 騒音 騒音-が → 大きい:否定 構文片の極性 入力文:否定 文分類 入力文 辞書
14 ファンの騒音が大きい ファン-の → 騒音 騒音-が → 大きい 大きい →
騒音:否定 抽出された構文片 マッチング ファン-の → 騒音 騒音-が → 大きい:否定 構文片の極性 入力文:否定 辞書 文分類 入力文
15 ファンの騒音が大きい 大きい → 騒音:否定 マッチング ファン-の → 騒音 騒音-が
→ 大きい:否定 構文片の極性 入力文:否定 辞書 文分類 入力文 ファン-の → 騒音 騒音-が → 大きい 抽出された構文片
16 評判分析に適用させる理由 辞書を用いて極性スコアを与える手法である 「大きい → 騒音」から「騒音-が → 大きい」にスコア を付与できる
同類表現の汎化によりマッチングの向上が期待 意味をもたない要素の極性付加を減少できる 「こと-ができる:肯定表現」とはならないはず 形式名詞への対処により改善可能
17 肯定文 肯定文 否定文 否定文 辞書の生成~種辞書~ 構文片 肯定 否定 サイズ-が
→ 大きい 5 1 対応-が → 遅い 0 8 優しい → 色 3 0 ・ ・ 構文片に極性をスコアとして付与 構文片を抽出 種辞書 教師データを用意 極性は出現確率から計算 (藤村ら[04])
18 評価表現:多ければ多いほど良い 教師データが大量に必要となる 人手で教師データを作るのはコスト大 教師データを自動生成する必要性 この教師データから作成した辞書:拡張辞書 辞書の生成~拡張辞書~
19 肯定文 肯定文 否定文 否定文 大規模 コーパス 種辞書 新しい教師データ 構文片
肯定 否定 ノイズ-が → 激しい 0 3 継続-は → 難しい 0 4 デザイン → 美しい 8 0 ・ ・ 構文片を抽出 拡張辞書 辞書の生成~拡張辞書~
20 肯定文 肯定文 否定文 否定文 大規模 コーパス 種辞書 新しい教師データ 辞書の拡張
構文片 肯定 否定 ノイズ-が → 激しい 0 3 継続-は → 難しい 0 4 デザイン → 美しい 8 0 ・ ・ 構文片を抽出 拡張辞書
21 評価実験 収集したデータ:肯定1,966文 否定1,019文 拡張辞書用の大規模コーパス:約21万文 以下の手法で実験 1.
同類表現の汎化のみを反映 2. 形式名詞の対処のみを反映 3. 1. と 2. を組み合わせた手法 4. ベースライン:どちらも使用しない従来の構文片
22 実験結果 適合率:すべての手法でベースラインより向上 再現率(2)以外はベースラインより向上 処理単位 再現率(%) 適合率(%) (1) 同類表現のみ 49.8
77.1 (2) 形式名詞のみ 44.6 77.3 (3) (1)+(2) 47.7 78.7 (4) ベースライン 47.1 75.5
23 考察 ~同類表現の汎化~ 再現率がベースラインより向上 大規模データから得た新たな教師データが増加 拡張辞書の規模が増加 約14,000文(約5.7%)増加 従来の構文片 :246,477文
汎化を使用 :260,438文
24 考察 ~形式名詞の対処~ 従来の構文片による辞書 なる-と → 思う:肯定表現 正確に表現の極性を扱えている 本手法による辞書
邪魔になる-と → 思う:否定表現 プレゼントになる-と → 思う:肯定表現 この表現は本来極性を持たない
25 処理単位 再現率(%) 適合率(%) 単語2-gram 78.8 79.9 単語3-gram 75.3 78.0
同類表現のみ 49.8 77.1 単語2-gram、単語3-gram に対して再現率が大きく劣る 考察~その他の処理単位との比較~
26 まとめ 構文片の改良のため2つの手法を提案 改良を行った構文片を評判分析に適用 従来の構文片よりも適合率・再現率ともに向上 課題
単語2-gramなどよりも再現率が劣る さらに再現率を向上させる必要がある
27 提案手法の効果 同類表現の汎化 要素の異なり数がどれだけ減少したかを検証 新聞コーパス一年分(約294万分)に対して実験 要素の異なり数 汎化前 約1092万 汎化後
約734万 減少数 約358万 30%以上異なり数が減少