Slide 1

Slide 1 text

機械学習を用いたニ格深層格 の自動付与の検討 ○長岡技術科学大学 電気系 竹野峻輔 金沢大学 松田真希子 長岡技術科学大学 電気系 梶原智之 長岡技術科学大学 電気系 山本和英 1

Slide 2

Slide 2 text

導入-研究背景・関連研究 機械翻訳・含意関係認識においては 計算機による意味の自動判定が必要 ⇒ 深層格(体言と用言の関係)の理解 ニ格の出現頻度が高い[渋木ら 06] ヲ格に次ぎ2番目の出現頻度である Rule-basedの二格の深層格推定[田辺ら 09] 意味属性を人手で付与。 小規模コーパスでの深層格推定 2

Slide 3

Slide 3 text

導入-研究背景・関連研究 機械翻訳・含意関係認識においては 計算機による意味の自動判定が必要 ⇒ 深層格(体言と用言の関係)の理解 ニ格の出現頻度が高い[渋木ら 06] ヲ格に次ぎ2番目の出現頻度である Rule-basedの二格の深層格推定[田辺ら 09] 意味属性を人手で付与。 小規模コーパスでの深層格推定 3 深層格の分類項目の共通見解がない 既存の分類項目では網羅性が不十分

Slide 4

Slide 4 text

[松田ら12,14]による分類項目の提案 日本語学/言語学に基づき、専門家による項目の選定 12 種類の深層格分類項目 [時間][場所][結果][対象] [動作主] [目的][役割][頻度][副詞化][複合辞] [起点][その他] 導入-先行研究 e.g) 8時に起きる[時間]、医者になる[結果] 映画を見に行く[目的]、東京に行く[場所] 4

Slide 5

Slide 5 text

導入-本研究における目的 12種の深層格分類項目の自動付与 3種類の大規模コーパスを使った分類器を構築。 BCCWJ – 書き言葉均衡コーパス 京都大学テキストコーパス – 情報が付与された新聞記事コーパス Web日本語Nグラム – Web上の 高頻度n-gramコーパス e.g) 8時に起きる[時間]、医者になる[結果] 映画を見に行く[目的]、東京に行く[場所] 5

Slide 6

Slide 6 text

分類器の構築 – 流れ ① 分類器の選定 ② 素性抽出 ③ 汎化処理 ④ 素性選択 ⑤ 評価 6

Slide 7

Slide 7 text

分類器の構築 – 流れ ① 分類器の選定 ② 素性抽出 ③ 汎化処理 ④ 素性選択 ⑤ 評価 ナイーブベイズ分類器 7

Slide 8

Slide 8 text

分類器の構築 – 分類器の選定 • ナイーブベイズ分類器 – 軽量かつ高速な学習が可能 – 頻度情報に基づいたモデルの分析が可能 , ∶ 分類項目と素性の共起頻度 ∶ 分類項目と出現頻度 : 平滑化パラメータ(1で固定) : 素性集合, : 分類項目集合 (|) = = , ∙ 1 − , 1− ∈ , = , + ∈ + 2 ,   = + ∈ + || = arg max (|) 8

Slide 9

Slide 9 text

分類器の構築 – 流れ ① 分類器の選定 ② 素性抽出 ③ 汎化処理 ④ 素性選択 ⑤ 評価 ナイーブベイズ分類器 係り元文節 および係先文節の抽出 9

Slide 10

Slide 10 text

係り受け・形態素解析結果から下記素性を抽出 仮説: 深層格は前接の体言と後接の用言で決まる 係り元文節 全ての形態素※ 係り先文節 サ変接続名詞・動詞・形容詞 形容動詞・副詞・助動詞 以上より原形および品詞・品詞細分類 活用形・IREXタグ を抽出 分類器の構築 – 素性の抽出 ※ 判定に必要ないまた雑音となる形態素を除去 記号、フィラー、接頭詞、助詞 など その他数値表現の均一化 10

Slide 11

Slide 11 text

分類器の構築 – 流れ ① 分類器の選定 ② 素性抽出 ③ 汎化処理 ④ 素性選択 ⑤ 評価 ナイーブベイズ分類器 係り元文節 および係先文節の抽出 日本語語彙大系による 名詞の汎化 11

Slide 12

Slide 12 text

名詞 具体 人 <職業> 人 <役割> 抽象 主体 • 日本語語彙大系を利用した名詞の汎化を行う 適当な深さNを定め、その位置の意味属性を取り出す 学生 医者 深さ 1 深さ 2 深さ6 分類器の構築 – 名詞素性の汎化 汎化の深さ 学生になる[結果] 医者になる[結果] 12

Slide 13

Slide 13 text

名詞 具体 人 <職業> 人 <役割> 抽象 主体 • 日本語語彙大系を利用した名詞の汎化を行う 適当な深さNを定め、その位置の意味属性を取り出す 学生 医者 深さ 1 深さ 2 深さ6 分類器の構築 – 名詞素性の汎化 汎化の深さ 人<職業> になる 学生になる[結果] 医者になる[結果] 13

Slide 14

Slide 14 text

名詞 具体 人 <職業> 人 <役割> 抽象 主体 • 日本語語彙大系を利用した名詞の汎化を行う 適当な深さNを定め、その位置の意味属性を取り出す 学生 医者 深さ 1 深さ 2 深さ6 分類器の構築 – 名詞素性の汎化 汎化の深さ 学習効率 - 未知の名詞対応可 - 正答率向上が期待 14

Slide 15

Slide 15 text

分類器の構築 – 流れ ① 分類器の選定 ② 素性抽出 ③ 汎化処理 ④ 素性選択 ⑤ 評価 ナイーブベイズ分類器 係り元文節 および係先文節の抽出 日本語語彙大系による 名詞の汎化 tfidfによる閾値基準 15

Slide 16

Slide 16 text

分類器の構築 – 素性選択 tfidf を用いた素性選択 出現頻度が高く、限られた深層格でのみ 出現する素性ほど高くなる scoreが閾値以下の素性 f を削除することで素性選択 , = log2 , log2 ,   = log2 ( ) + 1 , = , ∙ = max ∈ , , ∶ 分類項目と素性の共起頻度 ∶ 分類項目と出現頻度 : 素性の出現する深層格種類数 16 tfidf による素性の評価

Slide 17

Slide 17 text

分類器の構築 – 流れ ① 分類器の選定 ② 素性抽出 ③ 汎化処理 ④ 素性選択 ⑤ 評価 ナイーブベイズ分類器 係り元文節 および係先文節の抽出 日本語語彙大系による 名詞の汎化 tfidfによる閾値基準 F値, 正答率 17

Slide 18

Slide 18 text

訓練セット • BCCWJ – 9,970件 – 書き言葉均衡コーパス(ランダム抽出) • 京都大学テキストコーパス – 9,743件 – 情報が付与された新聞中の文章コーパス (ランダム抽出) • Web日本語Nグラム – 9,826件 – Web上の 高頻度n-gram コーパス (7-gram 高頻度順抽出) 評価セット • 評価用コーパス – 1,086件 ※文体、世代や位相の代表性を有するように下記情報源から抽出 青空文庫, 読売新聞, アメーバブログ, Wikipedia, 論文, 論文抄録, サイゾー ウーマン , サイゾー, Twitter 分類器の構築 – 利用するコーパス 18

Slide 19

Slide 19 text

分類器の構築 – 評価 正答率: = 分類正解数 評価コーパスのデータ数 精度: = と予測したうちの正解数 深層格 と予測した数 , 再現率: = と予測したうちの正解数 評価コーパス中の深層格である数 F値: = 2 + 深層格ごとの結果比較→F値 コーパスの結果比較→正答率 19

Slide 20

Slide 20 text

分類器構築の検討– 流れ ① tfidf の閾値の検討 ② 3種のコーパスの比較 ③ 誤り分析 20

Slide 21

Slide 21 text

分類器構築の検討– 流れ ① tfidf の閾値の検討 ② 3種のコーパスの比較 ③ 誤り分析 21

Slide 22

Slide 22 text

tfidf 閾値によるF値・正答率の変化 0% 20% 40% 60% 80% 100% 0 0.3 0.6 0.9 1.2 1.5 [時間] [場所] [結果] [対象] [動作主] [目的] [役割] [その他] [頻度] [副詞] [複合辞] [起点] 正答率 正答率 tfidf の閾値 全体の正答率[%], 各深層格のF値[%] tfidf の閾値の変化による 正答率の改善を検討する BCCWJ 汎化の深さ5 22

Slide 23

Slide 23 text

tfidf 閾値によるF値・正答率の変化 61% 0% 20% 40% 60% 80% 100% 0 0.3 0.6 0.9 1.2 1.5 [時間] [場所] [結果] [対象] [動作主] [目的] [役割] [その他] [頻度] [副詞] [複合辞] [起点] 正答率 正答率 tfidf の閾値 全体の正答率[%], 各深層格のF値[%] tfidf の閾値の変化による 正答率の改善を検討する BCCWJ 汎化の深さ5 閾値の変化により正答率は大きな改善は無し しかし 推定に必要な素性は少ない(142/7489) 23

Slide 24

Slide 24 text

0% 20% 40% 60% 80% 100% 0 0.3 0.6 0.9 1.2 1.5 [時間] [場所] [結果] [対象] [動作主] [目的] [役割] [その他] [頻度] [副詞] [複合辞] [起点] 正答率 BCCWJ 汎化の深さ5 tfidf の閾値の変化による 正答率の改善を検討する tfidf 閾値によるF値・正答率の変化 正答率 tfidf の閾値 全体の正答率[%], 各深層格のF値[%] 正答率の傾向は[対象]のF値の傾向と一致 [対象]の割合が最も多いため 対象 24

Slide 25

Slide 25 text

BCCWJ 汎化の深さ5 TFIDFの閾値の変化による 正答率の改善を検討する tfidf 閾値によるF値・正答率の変化 0% 20% 40% 60% 80% 100% 0 0.3 0.6 0.9 1.2 1.5 [時間] [場所] [結果] [対象] [動作主] [目的] [役割] [その他] [頻度] [副詞] [複合辞] [起点] 正答率 正答率 tfidf の閾値 全体の正答率[%], 各深層格のF値[%] 結果 副詞 副詞・複合辞・結果(約3割)は改善傾向あり ⇒ 閾値による余分な素性が削除された 複合辞 25

Slide 26

Slide 26 text

分類器構築の検討– 流れ ① tfidf の閾値の検討 ② 3種のコーパスの比較 ③ 誤り分析 26

Slide 27

Slide 27 text

コーパス同士の比較 訓練セット BCCWJ 京大 Nグラム 評価セット BCCWJ 67% 62% 55% 京大 66% 74% 59% Nグラム 59% 67% 78% 評価用 コーパス 67% 66% 53% 訓練事例数:8500件 評価事例数:1086件 汎化の深さ:0 ~ 15, tfidf の閾値 : 0~1.5 最大値を抽出 ※京大:京都大学テキストコーパス Nグラム : Web日本語Nグラム として評価 3種のコーパスについて分類器の正答率を検証 27

Slide 28

Slide 28 text

コーパス同士の比較 訓練セット BCCWJ 京大 Nグラム 評価セット BCCWJ 67% 62% 55% 京大 66% 74% 59% Nグラム 59% 67% 78% 評価用 コーパス 67% 66% 53% 訓練事例数:8500件 評価事例数:1086件 汎化の深さ:0 ~ 15, tfidf の閾値 : 0~1.5 最大値を抽出 ※京大:京都大学テキストコーパス Nグラム : Web日本語Nグラム として評価 3種のコーパスについて分類器の正答率を検証 28 対 評価用(未知の事例): BCCWJ(67%) ベースライン: [対象]の割合(41%)

Slide 29

Slide 29 text

コーパス同士の比較 訓練セット BCCWJ 京大 Nグラム 評価セット BCCWJ 67% 62% 55% 京大 66% 74% 59% Nグラム 59% 67% 78% 評価用 コーパス 67% 66% 53% 訓練事例数:8500件 評価事例数:1086件 汎化の深さ:0 ~ 15, tfidf の閾値 : 0~1.5 最大値を抽出 ※京大:京都大学テキストコーパス Nグラム : Web日本語Nグラム として評価 3種のコーパスについて分類器の正答率を検証 29 対 評価用(未知の事例): BCCWJ(67%) ベースライン: [対象]の割合(41%) BCCWJ は均衡コーパスのため 評価用コーパスと近似性が高い

Slide 30

Slide 30 text

分類器構築の検討– 流れ ① tfidf の閾値の検討 ② 3種のコーパスの比較 ③ 誤り分析 30

Slide 31

Slide 31 text

誤り分析  [対象]以外 を[対象]と誤判定(148/360) e.g) … 壊滅 に 追い込まれ、一家離散した[結果]→ [対象] 壊滅 追い込まれる が訓練コーパスに含まれない 未知の単語に効果的な素性が抽出できていないことに起因 • 素性抽出(n-gram 等) 、汎化方法の再考。棄却オプションの導入  [複合辞][副詞化][結果]の 誤判定(84/360 ) e.g) … モデル に よる分析に加え … [複合辞]→ [動作主] … 具体的 に 話すと … [副詞化]→ [対象] 一定の構文パターンを持つが、他の素性の影響で誤判定 • 構文パターンを予め記憶し、照合することで改善可 BCCWJの誤り件数 360/1086件において ※以上の誤り件数で202/360を占める 31

Slide 32

Slide 32 text

結論 • ニ格の深層格の自動付与を検討 –大規模コーパスを利用した12種の自動分類 –日本語語彙大系による汎化 –tfidf を基準とした素性選択 • 分類器の構築の検討 – tfidf を使った正答率の改善効果は低い – 最大性能は訓練セットBCCWJで最高67% • 今後の課題 – 異なる素性抽出方法の再考の必要性 – 構文パターンの適応で改善可能 32

Slide 33

Slide 33 text

33

Slide 34

Slide 34 text

分類器の構築 – 係元処理 • 係り受け解析器CaboChaを利用 係り受け解析器の結果から 判定に必要ないまた雑音となる形態素を除去 – 記号、フィラー、接頭詞、助詞、助動詞(係先文節の場合) 34

Slide 35

Slide 35 text

分類対象となる深層格リスト 深層格 例 定義 1.時間 8時に起きる 事象の時間表現 2.場所 東京に行く 事象の主体または対象の最係先 の位置 3.結果 二重に折る 修飾関係 医者になる 変化した係先の状態、材料または 構成要素 4.対象 太郎に会う 接触の相手 父に買ってあげる 利益・不利益の移動先 5.動作主 太郎に殴られる 有意志動詞の主体、受動文・使役 表現の動作主 私には難しい 形容詞文の意味上の主語 6. 目的 映画を見に行く 目的 7.役割 外交手段に用いる 役割・用途 に、として 8.その他 気になる 9. 頻度 一年に三回 10.副詞 ゆるやかに踊る 11.複合辞 歌について話す 12.起点 先生に習う、先生に訊く 「から」に置換可能 35

Slide 36

Slide 36 text

素性評価値(tfidf )の高い素性 深層格 素性(TFIDF) – ■係元文節の素性 ■係先文節の素性 [時間] ■すぐ(2.00), ■同時に(1.64), ■DATE(1.57) [場所] ■住む(1.79), ■どこ(1.42),■到着(1.34) [結果] ■帰属(1.87), ■明らか(1.67),■達す(1.54) [対象] ■お気に入り(1.58),■1300:愛好(1.58),■1299:好悪(1.58) [動作主]■任せる(1.55),■おまかせ(1.31),■まかせる(1.20) [目的] ■遊び(2.25),■基本形(1.28),■ログイン(1.23) [役割] ■0764:贈り物(1.80),■ギフト(1.62),■中元(1.38) [その他]■気(2.35),■2526:気(2.35),■1464:見(1.92) [頻度] ■月(1.67),■2(1.09),■5(1.05) [副詞] ■気軽(2.54),■さらに(2.18),■簡単(1.97) [複合辞]■よる(2.12),■基づく(2.06),■関わる(2.02) [起点] ■聞く(1.79),■きく(1.51),■聞ける(1.40) 37

Slide 37

Slide 37 text

深層格の分布調査 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% BCCWJ 京都大学テキストコーパス Web日本語Nグラム 評価用データ 役割 起点 頻度 動作主 目的 場所 その他 時間 結果 複合辞 副詞化 対象 38

Slide 38

Slide 38 text

汎化の深さに対する正答率・素性数の変化 4000 6000 8000 10000 12000 14000 0% 10% 20% 30% 40% 50% 60% 70% 80% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 京都大学テキストコーパス 正答率 Web日本語Nグラム 正答率 京都大学テキストコーパス 素性数 Web日本語Nグラム 素性数 汎化により正答率改善の検討を行う。 汎化の深さ1~15 について 3種のコーパスで変化を測定 各コーパスの正答率[%] 抽出される素性数 汎化の深さ N BCCWJ 正答率 BCCWJ 素性数 39

Slide 39

Slide 39 text

汎化の深さに対する正答率・素性数の変化 4000 6000 8000 10000 12000 14000 0% 10% 20% 30% 40% 50% 60% 70% 80% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 京都大学テキストコーパス 正答率 Web日本語Nグラム 正答率 京都大学テキストコーパス 素性数 Web日本語Nグラム 素性数 汎化により正答率の検討を行う。 汎化の深さ1~15 について 3種のコーパスで変化を測定 各コーパスの正答率[%] 抽出される素性数 汎化の深さ N BCCWJ 正答率 BCCWJ 素性数 汎化の深さに対して正答率の変化は小さい 40

Slide 40

Slide 40 text

汎化の深さに対する正答率・素性数の変化 4000 6000 8000 10000 12000 14000 0% 10% 20% 30% 40% 50% 60% 70% 80% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 京都大学テキストコーパス 正答率 Web日本語Nグラム 正答率 京都大学テキストコーパス 素性数 Web日本語Nグラム 素性数 汎化により正答率の検討を行う。 汎化の深さ1~15 について 3種のコーパスで変化を測定 各コーパスの正答率[%] 抽出される素性数 汎化の深さ N BCCWJ 正答率 BCCWJ 素性数 素性数は汎化の深さ4~8で変化が大きい 41