文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張

長岡技術科学大学 B4 三上侑城文献紹介 2015年5月19日日本語語義曖昧性解消のための訓練データの自動拡張自然言語処理研究室 1

出典日本語語義曖昧性解消のための訓練データの自動拡張藤田早苗, Kevin Duh, 藤野昭典, 平
博順, 進藤裕之自然言語処理 Vol.18 (2011) No.3 P273-291 2

概要 様々なコーパスを利用して、訓練データの自動拡張を試みた。 訓練データの自動取得により79.5%の精度を得ることが出来た。 更に、追加する訓練データの上限を制御したところ、最高80.0%の精度が得られた。 3

語義曖昧性解消(WSD) 様々な手法が提案されてきたが、一般に教師あり学習法による精度が高い。 そこで本稿でも教師あり学習法をベースとして実験を行った。 4

語義曖昧性解消(WSD) 配布された訓練データは各対象語につき 50例ずつしかなく、未知語義も存在する。 このような未知語義は、訓練データのみを用いた学習では推測できない。 本稿では、訓練データの自動取得による精度向上を試みた。 5

訓練データの自動取得 定義文中から比較的抽出しやすい例文に着目し、例文を用いた訓練データの獲得を行う。 また、既存のコーパスの利用も考える。 6

配布訓練データ 対象コーパスの分野が多岐にわたる特徴がある。 訓練データは、白書、新聞、本・雑誌の分野からなる。 評価データは更にヤフー知恵袋のデータが含まれている。 7

配布訓練データ 本データには岩波国語辞典の語義を元に語義IDが付与されている。 岩波国語辞典に定義されていない新語義も付与されており、それらを推定することも課題の一つ。 対象語は50語で、辞典に定義された語義数は219となった。 8

岩波国語辞典の例 9

訓練データの例 10

岩波国語辞典の例文 例文を抽出するには、「」で囲まれた部分を抽出し、“ー”の部分を見出し語にする。 こうして抽出した例文は形態素解析器 MecabのUniDicバージョンで解析する。 11

Lexeedと檜 言語資源として、更に基本語意味データベース「Lexeed」及び、センスバンク「檜」を利用する。 Lexeedは日本人に最も馴染み深い 28270語が収録された辞書である。 Lexeedによって語義付与されたセンスバンクが「檜」である。 12

Lexeedと檜 檜に付与された語義数 Lexeedと岩波国語辞典の語義は、類似度が高い物同士がリンクされている。 檜にあるLexeedの語義を岩波国語辞典に置き換えて訓練データとして利用。 13

Lexeedと檜 例として、岩波国語辞典の「とる」の語義文は「数える. 測る.」であり、Lexeedの語義文「数える.測定する.」と非常に似ておりリンクされている。 このリンクを用いることで、Lexeedの例文を岩波国語辞典の訓練データに追加出来る。 14

現代日本語書き言葉均衡コーパス 現代日本書き言葉均衡コーパス (BCCWJ)のデータから岩波国語辞典の例文を利用し、訓練データを獲得する。 例文を完全に含む文を抽出し、形態素解析を行い、該当する例文の語義IDを付与する。 (例：「にとって」を含む文章) 15

未知語義数 辞書に定義された全語義は219語義だが、評価データに出現する語義は、新語義を除くと142語義となった。 16

獲得データサイズ 17

実験 学習器には最大エントロピーモデルを使用した。これはSVMより精度が良かったためである。 文章単位でトピック分類を行った。 18

配布データのみ利用結果 対象語を難易度毎に分けて傾向を分析した。高難易度:diff、中難易度:mid 低難易度:easy 19

配布データのみ利用結果 基本素性：BL トピック数：TPx Bag-of-words：BOW 20

自動取得も利用した結果 白書：OW , 本・雑誌：PB ヤフー知恵袋：OC 現代日本書き言葉均衡コーパス：BCCWJ 日本経済新聞：NIK , 毎日新：MAI
語義文：LD , 例文:LEX 京大コーパス：KC 21

自動取得も利用した結果 22

自動取得も利用した結果 難易度別に傾向が異なることがわかる。 低難易度の場合は、訓練データを追加すると精度が低下傾向にある。しかし、高難易度では精度が上昇傾向になる。 23

過学習 今までは各コーパスを可能な限り追加して学習したが、過学習していないか調べるために、追加する文字と精度の関連を調べた。 24

過学習 25

過学習 難易度によって精度の上下がある。 低難易度では訓練データを追加するほど精度が減少するが、高難易度では、訓練データを追加するほど精度が向上した。 中・高難易度のものだけに上限を付けた場合には全体精度が80%を超えた。 26

まとめ 訓練データの自動拡張によって語義曖昧性解消の精度向上方法について述べた。 自動的に訓練データに追加し、精度向上に寄与できることを示した。 難易度に基づいて分析した結果、低難易度では訓練データを追加せず、中・高難易度では追加した方が良い事が分った。 27

ご視聴ありがとうございました 28

文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張

文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張

MIKAMI-YUKI

More Decks by MIKAMI-YUKI

Other Decks in Education

Featured

Transcript

長岡技術科学大学 B4 三上侑城文献紹介 2015年5月19日日本語語義曖昧性解消のための訓練データの自動拡張自然言語処理研究室 1

出典日本語語義曖昧性解消のための訓練データの自動拡張藤田早苗, Kevin Duh, 藤野昭典, 平

概要 様々なコーパスを利用して、訓練データの自動拡張を試みた。 訓練データの自動取得により79.5%の精度を得ることが出来た。 更に、追加する訓練データの上限を制御したところ、最高80.0%の精度が得られた。 3

語義曖昧性解消(WSD) 様々な手法が提案されてきたが、一般に教師あり学習法による精度が高い。 そこで本稿でも教師あり学習法をベースとして実験を行った。 4

訓練データの自動取得 定義文中から比較的抽出しやすい例文に着目し、例文を用いた訓練データの獲得を行う。 また、既存のコーパスの利用も考える。 6

配布訓練データ 対象コーパスの分野が多岐にわたる特徴がある。 訓練データは、白書、新聞、本・雑誌の分野からなる。 評価データは更にヤフー知恵袋のデータが含まれている。 7

岩波国語辞典の例 9

訓練データの例 10

岩波国語辞典の例文 例文を抽出するには、「」で囲まれた部分を抽出し、“ー”の部分を見出し語にする。 こうして抽出した例文は形態素解析器 MecabのUniDicバージョンで解析する。 11

Lexeedと檜 檜に付与された語義数 Lexeedと岩波国語辞典の語義は、類似度が高い物同士がリンクされている。 檜にあるLexeedの語義を岩波国語辞典に置き換えて訓練データとして利用。 13

未知語義数 辞書に定義された全語義は219語義だが、評価データに出現する語義は、新語義を除くと142語義となった。 16

獲得データサイズ 17

実験 学習器には最大エントロピーモデルを使用した。これはSVMより精度が良かったためである。 文章単位でトピック分類を行った。 18

配布データのみ利用結果 対象語を難易度毎に分けて傾向を分析した。高難易度:diff、中難易度:mid 低難易度:easy 19

配布データのみ利用結果 基本素性：BL トピック数：TPx Bag-of-words：BOW 20

自動取得も利用した結果 白書：OW , 本・雑誌：PB ヤフー知恵袋：OC 現代日本書き言葉均衡コーパス：BCCWJ 日本経済新聞：NIK , 毎日新：MAI

自動取得も利用した結果 22

自動取得も利用した結果 難易度別に傾向が異なることがわかる。 低難易度の場合は、訓練データを追加すると精度が低下傾向にある。しかし、高難易度では精度が上昇傾向になる。 23

過学習 今までは各コーパスを可能な限り追加して学習したが、過学習していないか調べるために、追加する文字と精度の関連を調べた。 24

過学習 25

ご視聴ありがとうございました 28