繰り返し学習を用いた話題に順応する意見文抽出

1 繰り返し学習を用いた話題に順応する意見文抽出長岡技術科学大学電気系峠泰成大橋一輝山本
和英

2 はじめに ▪ Web から大量の情報を取得可能に  Blog 、 Web 掲示板
、アクセス解析 etc ▪ 企業 → 自社製品の評判、新製品開発の情報収集一般 → 自分の欲しい製品の評判興味や関心などの情報を抽出したい個人の持つ意見情報の抽出に注目

3 Web 掲示板からの意見文抽出 ▪ Web 掲示板 → 意見情報を大量に保持例 )
 エンジンも静かでスポーティでいい  最悪なのは、リア、あんな安っぽいリアはない ▪ 問題点  大量の掲示板の書き込みを読むこと  多くの時間やコストがかかる Web 掲示板から意見文を自動取得

4 関連研究 ▪ 立石ら (2004) Web 掲示板から対象 ( 製品名 )
、属性 ( 特徴、性質 ) 、評価の 3 つ組表現を取得し、対象の意見情報を抽出する手法 ▪ 藤村ら (2004) 肯定・否定のタグつき掲示板文書を学習し、単語を分類することにより意見情報を取得する手法 ▪ 提案手法では  ドメイン依存の辞書を作成しない  同ドメインの書き込みを学習することで、話題に順応する単語データを作成し意見文抽出

5 意見文の定義 ▪ 意見文の定義  個人による評価や意見を含んでいる文例 )  エスティマの乗り心地は良いです。
 荷物もたっぷり積めるし、燃費も良いです。  とにかく静かです。 ▪ Web 掲示板での意見文の特徴  対象、属性、評価の組み合わせで表現される場合が多い  表記揺れが多い ( エスティマ = アエラス )  主語になる単語が省略されることが多い

6 提案手法 ▪ 入力： Web 掲示板 → 出力：
意見文のみ  意見文判別の値を単語単位で付与 - この値によるスコアで意見文を判別例）エンジンも静かでスポーティーでいい 0.441 0.19 0.733 0.143 0.162 0.143 0.445 ▪ 手法のメイン  学習を用いた単語データの作成 - 意見文を判別するための単語の影響値 - 同ドメインの掲示板文書の学習

7 提案手法 ( 学習部の処理の流れ ) 繰り返し学習

8 単語データ作成 ▪ 単語データとは • 単語が意見文を判別するための影響値の集合 ▪ 初期単語データの作成人手により意見文か否かのタグが付与されたデータを用いる →
ベースとなる単語データを作成単語意見文意見文でない単語スコア良い 15 4 0.789 快適 10 2 0.833 家族 2 25 0.074 電話 4 9 0.307

9 単語データの作成  単語スコアの算出 ➢ 意見文判別のための単語のもつスコア ▪ 初期単語データのみの意見文抽出の問題  ドメイン特有の単語に対応できない
 データ量の不足 ▪ 学習によりドメインに順応する単語データを作成　　→　取得したいドメインの書き込みを学習 W s ：意見文で単語 W i が出現する確率 P p P n ：意見文以外で単語 W i が出現する確率 W s w i = P p w i  P p w i P n w i 

10 単語・文への重みづけ

11 単語・文への重みづけ ▪ 学習データ作成  ドメインに順応するために掲示板の書き込みを学習 ➔ ドメイン依存の単語に対してスコア付与するため ▪ 単語へのスコア付与
 初期単語データを用いて入力文の単語へスコア付与 ▪ 信頼性の高い学習データを得るために → 単語・文に対して重みを加え意見文判別の情報を得る  重みには、評価表現や主題などを考慮

12 評価表現への重みづけ ▪ 意見文を判別するために評価表現は大きな手がかり ▪ 評価表現とは  軽い
、安っぽいなど、人の評価が含まれている表現 ▪ 評価表現への重み  人手により一般的な評価表現を収集し辞書を作成  510 表現 ▪ しかし、これだけの評価表現では数が少ない

13 評価表現への重みづけ ▪ 汎化規則によりさらに評価表現に重みを加える  動詞 + やすい、名詞
+ 的など  20 の規則を作成 ▪ 評価表現に関しては次の重みを表現に与える  評価表現辞書の表現 → 2 倍  汎化規則による表現 → 1.5 倍

14 強調表現への重みづけ ▪ 意見文判別に、表現を強調するような単語を考慮  強調表現とは ➔ 副詞のように表現を強調する単語例 )
ちょっと足が堅い快適セダンですね。 TTE はとっても魅力的ですね。強調表現の数 - 副詞を中心に 75 表現を人手により収集  強調表現： 1.5 倍の重みを与える

15 文末表現への重みづけ ▪ 意見文を判別する際に文末表現を考慮 ▪ 文末表現の特徴  「でしょうか〜
? 」・・・疑問表現  「のはず」・・・推定表現〜 → これらを含んでいる文は、意見文にはなりにくい ▪ 文末表現： 23 表現 ▪ 文末表現に対しては、それぞれ重みを設定している

16 主題に対する重みづけ ▪ 入力文に主題が含まれるかどうかで、文に対し重みを加える例 ) { CD } 主題
の使い勝手もなかなか良いですよ。  対象掲示板から主題を自動抽出する ▪ 主題の自動抽出 → 掲示板の話題 ( 製品名 etc) と主題候補  主題候補：未知語、名詞、記号列 ( アルファベット ) ▪ 主題抽出：検索エンジン "Google” を使用話題と主題候補の関連度 R RKey,Word= 2⋅HKey,Word HKeyHWord H(*) ： Google による単語の検索結果数

17 主題に対する重みづけ ▪ 関連度の傾向  0.1 < R 1 <
1 ・・・製品名、会社名など対象表現が多い  0.01 < R 2 < 0.1 ・・・属性表現が多い → 主題候補の関連度が 0.01 以上を主題として採用 ▪ 主題への重み  主題の出現の仕方により重みを加える表現倍率 1.0 0.8 主題なし、評価表現あり 0.5 主題あり、評価表現なし 0.2 主題、評価表現なし 0.1 R 1　、R 2　、評価表現いずれも含む R 2　、評価表現を含む

18 学習データの作成　→　単語データの追加

19 意見文スコアの計算 ▪ 重みを考慮し、単語データを用いて意見文スコアを算出 ▪ 文 s の意見文スコア S(s) ▪
新出の単語 → 単語データのすべての単語の平均値を付与 S  s= ∑ i W s w i  Average W s ：単語スコア Average ：単語データの平均値を単語数分与えた時の総和入力文意見文スコア静かなのも手伝って、スピード感が殆んどないです。 2.009 ペイントシーラントいいですねぇ 1.924 今あるストックを提示して貰えば話が早そうですね 1.120 0.816 それともステレオとの組み合わせで決まるのですか?

20 繰り返し学習 ▪ 意見文スコアから意見文を推定  意見文として信頼性の高い上位 5% は意見文　学習 
意見文として信頼性の低い下位 50% は非意見文 ▪ 学習データを用いて再計算し、単語データに追加　 or 更新  同ドメインの単語を学習 → ドメイン依存の問題を解決 ▪ 学習方法  すべてのデータをまとめて学習  少しずつ繰り返し学習 }

21 評価実験 ( 実験データ ) ▪ 作成した単語データが意見文判別する値を付与できるか評価 ▪ 評価用データ Yahoo!
掲示板：車のドメインの書き込み  学習データ： 5 つの話題についての書き込みデータ  評価データ：学習データとは別の書き込みデータ 1064 文 ( 意見文： 150 , 意見文でない： 914) 書き込みA 10476文書き込みB 12792文書き込みC 12738文書き込みD 15740文書き込みE 12017文

22 評価実験 ( 実験方法 ) ▪ 学習方法を変えて、単語データの単語が意見文を判別する値を獲得できているかを評価 ▪ 学習方法
 方法 1 : 5 つの書き込みを 1 回で学習し単語データ作成  方法 2 : 単語データの単語の増加量が大きくなる順に 1 つずつ学習し、単語データを作成  方法 3 : 単語データの単語の増加量が小さくなる順に 1 つずつ学習し、単語データを作成 ▪ 評価実験では重みは考慮せず、単語データのスコア付与のみ

23 実験結果 ( 方法 1) ▪ 方法 1  5
つの書き込みを 1 度に学習する方法  初期単語データに比べ、意見文が上位に集まる結果プロットの見方・右から上位 10% ずつ・適合率、再現率ともに　初期単語データより向上 → 学習データの自動作成　に有効性がみられる

24 実験結果 ( 方法 1) ▪ ドメイン依存の辞書を作成しなくとも良いか ?  単語データにより評価
1. 総単語数 - 初期単語データ： 7895 単語 - 方法 1 ： 17424 単語 2. 獲得主題数 ( 評価データ中 → 195) - 初期単語データ： 123 単語 ( 63% ) - 方法 1 ： 171 単語 ( 87% )

25 実験結果 ( 方法 2) ▪ 方法 2  単語データの単語数の増加が大きくなる順に学習
 精度は向上するが、 3 回目以降は精度が下がる傾向

26 実験結果 ( 方法 3) ▪ 方法 3  単語データの単語数の増加が小さくなる順に学習
 方法 2 と同様、ある回数以上は精度が下がる傾向

27 考察 ( 学習について ) ▪ 学習データの信頼性の問題  意見文スコアの上位 5%
と下位 50% を学習データに採用 → すべてが正解ではないため、誤った学習データを含む ▪ 上位 5% では、約 2 割程度が誤りデータ → この２割を学習することで精度が低下  実際の意見文は全体の１～３割程度  意見文となる学習データを増やすことで新しい語彙を獲得　　　　　　→　上位の正解率の向上が必要

28 考察 ( 学習について ) ▪ 下位 50% の学習 
重みにより下位 50% 中に意見文が誤って学習  特に主題への重みづけ例 ) 「静かです。」「良いですね。」 → 主題が文中にないため、意見文ではないとして学習問題解決主題を推定するには → 照応解析が必要主題と評価表現のみでの重みづけではなく、意見文スコアの値も考慮して学習データを作成

29 考察 ( 学習について ) ▪ 単語データの単語スコア算出  現在は意見文になるデータのみを考慮 
意見文とならないデータも考慮した値での検討 → 情報量 ( 情報利得比 ) などの値  単語単位の扱いだけではなく、共起性による意見文の特徴 ▪ 初期単語データ  タグつきデータの内容に依存する可能性 ➔ 初期単語データによらないスコア付与の検討

30 考察 ( 抽出精度について ) ▪ 評価実験によって得られた結果  意見文スコアの上位 10%
の抽出精度 → 少しずつ単語データの量を増やす方法 2 が良い結果  欠点ある回数以上の学習は精度の低下 → 過学習、ノイズデータの学習が原因 - 少量の学習を繰り返し、最適な単語データの作成 ▪ 今は単語データによるスコア付与のみ  学習データの作成同様に、重みをおりまぜ取得へ  重みの最適な値の検討

31 まとめ ▪ Web 掲示板からの意見文抽出手法を提案  単語データ作成のための単語への重みづけ  単語データをドメインに順応していくための学習 →
少量の学習データを学習していく手法が良い ▪ 課題  学習データの信頼性の向上  主題などヒューリスティックな重みづけの改善  初期単語データの自動作成  重みづけ知識の語彙の増加

32 おわり

繰り返し学習を用いた話題に順応する意見文抽出

繰り返し学習を用いた話題に順応する意見文抽出

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

1 繰り返し学習を用いた話題に順応する意見文抽出長岡技術科学大学電気系峠泰成大橋一輝山本

2 はじめに ▪ Web から大量の情報を取得可能に  Blog 、 Web 掲示板

3 Web 掲示板からの意見文抽出 ▪ Web 掲示板 → 意見情報を大量に保持例 )

4 関連研究 ▪ 立石ら (2004) Web 掲示板から対象 ( 製品名 )

5 意見文の定義 ▪ 意見文の定義  個人による評価や意見を含んでいる文例 )  エスティマの乗り心地は良いです。

6 提案手法 ▪ 入力： Web 掲示板 → 出力：

7 提案手法 ( 学習部の処理の流れ ) 繰り返し学習

8 単語データ作成 ▪ 単語データとは • 単語が意見文を判別するための影響値の集合 ▪ 初期単語データの作成人手により意見文か否かのタグが付与されたデータを用いる →

9 単語データの作成  単語スコアの算出 ➢ 意見文判別のための単語のもつスコア ▪ 初期単語データのみの意見文抽出の問題  ドメイン特有の単語に対応できない

10 単語・文への重みづけ

11 単語・文への重みづけ ▪ 学習データ作成  ドメインに順応するために掲示板の書き込みを学習 ➔ ドメイン依存の単語に対してスコア付与するため ▪ 単語へのスコア付与

12 評価表現への重みづけ ▪ 意見文を判別するために評価表現は大きな手がかり ▪ 評価表現とは  軽い

13 評価表現への重みづけ ▪ 汎化規則によりさらに評価表現に重みを加える  動詞 + やすい、名詞

14 強調表現への重みづけ ▪ 意見文判別に、表現を強調するような単語を考慮  強調表現とは ➔ 副詞のように表現を強調する単語例 )

15 文末表現への重みづけ ▪ 意見文を判別する際に文末表現を考慮 ▪ 文末表現の特徴  「でしょうか〜

16 主題に対する重みづけ ▪ 入力文に主題が含まれるかどうかで、文に対し重みを加える例 ) { CD } 主題

17 主題に対する重みづけ ▪ 関連度の傾向  0.1 < R 1 <

18 学習データの作成　→　単語データの追加

19 意見文スコアの計算 ▪ 重みを考慮し、単語データを用いて意見文スコアを算出 ▪ 文 s の意見文スコア S(s) ▪

20 繰り返し学習 ▪ 意見文スコアから意見文を推定  意見文として信頼性の高い上位 5% は意見文　学習 

21 評価実験 ( 実験データ ) ▪ 作成した単語データが意見文判別する値を付与できるか評価 ▪ 評価用データ Yahoo!

22 評価実験 ( 実験方法 ) ▪ 学習方法を変えて、単語データの単語が意見文を判別する値を獲得できているかを評価 ▪ 学習方法

23 実験結果 ( 方法 1) ▪ 方法 1  5

24 実験結果 ( 方法 1) ▪ ドメイン依存の辞書を作成しなくとも良いか ?  単語データにより評価

25 実験結果 ( 方法 2) ▪ 方法 2  単語データの単語数の増加が大きくなる順に学習

26 実験結果 ( 方法 3) ▪ 方法 3  単語データの単語数の増加が小さくなる順に学習

27 考察 ( 学習について ) ▪ 学習データの信頼性の問題  意見文スコアの上位 5%

28 考察 ( 学習について ) ▪ 下位 50% の学習 

29 考察 ( 学習について ) ▪ 単語データの単語スコア算出  現在は意見文になるデータのみを考慮 

30 考察 ( 抽出精度について ) ▪ 評価実験によって得られた結果  意見文スコアの上位 10%

31 まとめ ▪ Web 掲示板からの意見文抽出手法を提案  単語データ作成のための単語への重みづけ  単語データをドメインに順応していくための学習 →

32 おわり