Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文片の改良と評判分析への適用
Search
自然言語処理研究室
March 31, 2011
Research
0
63
構文片の改良と評判分析への適用
瀧川 和樹, 山本 和英. 構文片の改良と評判分析への適用. 言語処理学会第17回年次大会, pp.111-114 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
340
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
97
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
190
Other Decks in Research
See All in Research
論文紹介:Not All Tokens Are What You Need for Pretraining
kosuken
0
170
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
15
7.9k
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.3k
2021年度-基盤研究B-研究計画調書
trycycle
PRO
0
290
A scalable, annual aboveground biomass product for monitoring carbon impacts of ecosystem restoration projects
satai
4
230
まずはここから:Overleaf共同執筆・CopilotでAIコーディング入門・Codespacesで独立環境
matsui_528
2
480
カスタマーサクセスの視点からAWS Summitの展示を考える~製品開発で活用できる勘所~
masakiokuda
2
190
EarthSynth: Generating Informative Earth Observation with Diffusion Models
satai
3
250
Vision and LanguageからのEmbodied AIとAI for Science
yushiku
PRO
1
530
[論文紹介] Intuitive Fine-Tuning
ryou0634
0
110
2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」
taiji_suzuki
25
18k
AIグラフィックデザインの進化:断片から統合(One Piece)へ / From Fragment to One Piece: A Survey on AI-Driven Graphic Design
shunk031
0
430
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
95
14k
The Invisible Side of Design
smashingmag
301
51k
What's in a price? How to price your products and services
michaelherold
246
12k
A Tale of Four Properties
chriscoyier
160
23k
Six Lessons from altMBA
skipperchong
28
4k
The Pragmatic Product Professional
lauravandoore
36
6.9k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
Unsuck your backbone
ammeep
671
58k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.7k
Faster Mobile Websites
deanohume
309
31k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Transcript
構文片の改良と 評判分析への適用 瀧川和樹 山本和英 長岡技術科学大学 電気系 {takigawa,yamamoto}@jnlp.org
2 研究背景~処理単位の問題~ 単語集合 1単語では意味がわからない要素が存在 ex.) 「かける」という単語 単語n-gram
意味のない要素(不要なデータ)が大量に生成されてしまう ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」 単語の意味を保持できる処理単位の必要性 言語処理における主な処理単位
3 研究背景~処理単位の問題~ 単語集合 1単語では意味がわからない要素が存在 ex.) 「かける」という単語 単語n-gram
意味のない要素(不要なデータ)が大量に生成されてしまう ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」 単語の意味を保持できる処理単位の必要性 言語処理における主な処理単位 “構文片”を提案
4 意味を持った要素を扱うことが目的 係り受けの対から生成 最近まわりの騒音がとても大きい 最近→大きい まわりの→騒音 騒音が→大きい とても→大きい
構文片 研究背景~構文片とは~
5 n-gramと比べ文構造が保持されている 他の処理単位と同様、統計もとりやすい 係り受けの対であるため、抽出が容易 構文解析器を用いることで抽出可能 語義曖昧性に対応できる
「迷惑-を→かける」「洋服-を→かける」 研究背景~構文片のメリット~
6 似た意味の要素が別物として扱われる (過疎性の問題) 要素 出現頻度 騒音が大きい 3 騒音も大きい 4 大きい騒音
2 スコアが別々に カウントされる 影響大 統計をとるとき 辞書として使用するとき 研究背景~構文片の問題(1)~
7 満足することができる 形式名詞の影響で 意味を持たない要素が生成される 研究背景~構文片の問題(2)~ 満足する → こと こと-が →
できる 修飾関係とは言いづらい 意味が通じない 意味を持った要素を扱うという目的に反する
8 提案手法~同類表現の汎化~ 構文片の中には似た意味の要素(同類表現) が存在 同類表現をルールに基づき汎化 要素 出現頻度 騒音が大きい 3
騒音も大きい 4 大きい騒音 2 スコアが別々に カウントされる
9 名詞(-格助詞) → 形容詞 形容詞 → 名詞 要素に含まれる内容語が全て一致している 名詞(-格助詞) →
動詞 動詞 → 名詞 子供-が → 喜んでいる 喜んでいる → 子供 騒音-が → うるさい うるさい → 騒音 or (i) (ii) 提案手法~同類表現の汎化~
10 提案手法~形式名詞への対処~ 満足することができる 満足する → こと こと-が → できる 修飾関係とは言いづらい
意味が通じない 「こと」が実質機能的表現(形式名詞) として扱われていることが問題
11 「こと」のような機能的に扱われる単語(形式 名詞)を収集 これらの単語がある場合、直前の内容語の 機能表現として扱う 提案手法~形式名詞への対処~ 満足することができる 満足する
→ こと こと-が → できる 満足すること-が → できる
12 評判分析への適用 青木ら[08]の手法をベースに 1文を肯定 / 否定 / その他
に分類 1. 評判表現 – 極性のスコア の対を辞書に登録 評判表現:構文片 2. 入力文の各要素に極性スコアを付与 3. 極性スコアの総和から文を分類
13 ファンの騒音が大きい ファン-の → 騒音 騒音-が → 大きい 大きい →
騒音:否定 抽出された構文片 マッチング ファン-の → 騒音 騒音-が → 大きい:否定 構文片の極性 入力文:否定 文分類 入力文 辞書
14 ファンの騒音が大きい ファン-の → 騒音 騒音-が → 大きい 大きい →
騒音:否定 抽出された構文片 マッチング ファン-の → 騒音 騒音-が → 大きい:否定 構文片の極性 入力文:否定 辞書 文分類 入力文
15 ファンの騒音が大きい 大きい → 騒音:否定 マッチング ファン-の → 騒音 騒音-が
→ 大きい:否定 構文片の極性 入力文:否定 辞書 文分類 入力文 ファン-の → 騒音 騒音-が → 大きい 抽出された構文片
16 評判分析に適用させる理由 辞書を用いて極性スコアを与える手法である 「大きい → 騒音」から「騒音-が → 大きい」にスコア を付与できる
同類表現の汎化によりマッチングの向上が期待 意味をもたない要素の極性付加を減少できる 「こと-ができる:肯定表現」とはならないはず 形式名詞への対処により改善可能
17 肯定文 肯定文 否定文 否定文 辞書の生成~種辞書~ 構文片 肯定 否定 サイズ-が
→ 大きい 5 1 対応-が → 遅い 0 8 優しい → 色 3 0 ・ ・ 構文片に極性をスコアとして付与 構文片を抽出 種辞書 教師データを用意 極性は出現確率から計算 (藤村ら[04])
18 評価表現:多ければ多いほど良い 教師データが大量に必要となる 人手で教師データを作るのはコスト大 教師データを自動生成する必要性 この教師データから作成した辞書:拡張辞書 辞書の生成~拡張辞書~
19 肯定文 肯定文 否定文 否定文 大規模 コーパス 種辞書 新しい教師データ 構文片
肯定 否定 ノイズ-が → 激しい 0 3 継続-は → 難しい 0 4 デザイン → 美しい 8 0 ・ ・ 構文片を抽出 拡張辞書 辞書の生成~拡張辞書~
20 肯定文 肯定文 否定文 否定文 大規模 コーパス 種辞書 新しい教師データ 辞書の拡張
構文片 肯定 否定 ノイズ-が → 激しい 0 3 継続-は → 難しい 0 4 デザイン → 美しい 8 0 ・ ・ 構文片を抽出 拡張辞書
21 評価実験 収集したデータ:肯定1,966文 否定1,019文 拡張辞書用の大規模コーパス:約21万文 以下の手法で実験 1.
同類表現の汎化のみを反映 2. 形式名詞の対処のみを反映 3. 1. と 2. を組み合わせた手法 4. ベースライン:どちらも使用しない従来の構文片
22 実験結果 適合率:すべての手法でベースラインより向上 再現率(2)以外はベースラインより向上 処理単位 再現率(%) 適合率(%) (1) 同類表現のみ 49.8
77.1 (2) 形式名詞のみ 44.6 77.3 (3) (1)+(2) 47.7 78.7 (4) ベースライン 47.1 75.5
23 考察 ~同類表現の汎化~ 再現率がベースラインより向上 大規模データから得た新たな教師データが増加 拡張辞書の規模が増加 約14,000文(約5.7%)増加 従来の構文片 :246,477文
汎化を使用 :260,438文
24 考察 ~形式名詞の対処~ 従来の構文片による辞書 なる-と → 思う:肯定表現 正確に表現の極性を扱えている 本手法による辞書
邪魔になる-と → 思う:否定表現 プレゼントになる-と → 思う:肯定表現 この表現は本来極性を持たない
25 処理単位 再現率(%) 適合率(%) 単語2-gram 78.8 79.9 単語3-gram 75.3 78.0
同類表現のみ 49.8 77.1 単語2-gram、単語3-gram に対して再現率が大きく劣る 考察~その他の処理単位との比較~
26 まとめ 構文片の改良のため2つの手法を提案 改良を行った構文片を評判分析に適用 従来の構文片よりも適合率・再現率ともに向上 課題
単語2-gramなどよりも再現率が劣る さらに再現率を向上させる必要がある
27 提案手法の効果 同類表現の汎化 要素の異なり数がどれだけ減少したかを検証 新聞コーパス一年分(約294万分)に対して実験 要素の異なり数 汎化前 約1092万 汎化後
約734万 減少数 約358万 30%以上異なり数が減少