Slide 1

Slide 1 text

文献紹介 High-Order Low-Rank Tensors for Semantic Role Labeling ● 自然言語処理研究室 ● 竹野峻輔

Slide 2

Slide 2 text

文献情報 Semantic Role labeling(SRL) の 研究報告. 高階のテンソルについて テンソル分解を 行い より少ない素性で SRLにおける性能を改善. 素性は普遍的なもの にも関わらず 素性が作りこまれた 重いモデル (Zhao et al. 2009) よりも良い結果 Tao Lei and Yuan Zhang. 2015. High-Order Low-Rank Tensors for Semantic Role Labeling. In HLT-NAACL 2015 - Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, Proceedings of the Main Conference, pages 1150–1160

Slide 3

Slide 3 text

Semantic Role labeling(SRL) ● 構文情報から 述語 と 項 の関係を求める ● (holding, meeting, A1) のようなタプルの集合z ● 二部グラフ最適化 問題

Slide 4

Slide 4 text

SRLにおける特徴 SRL における素性はテンプレートとして 言語ごとに かなり体系化されている.(Che et al., 2009) ● データスパースネス ● 過学習の問題 よりコンパクトで, より汎用なモデルを作りたい → 次元圧縮 (e.g. SVD) 本研究; 高次な組み合わせ素性表現をテンソル分解で表現. 4 次元構造 のテンソル = (述語) × (項) × (パス) x (役割ラベル) の テンソル積 パラメータ数を低く保ちつつ, 高い性能を持ったモデルの構築に成功.

Slide 5

Slide 5 text

定式化 基本的は1階述語論理を利用した最大化 一階述語論理の素性 と 二階以上の重み付け和

Slide 6

Slide 6 text

定式化 基本的は1階述語論理を利用した最大化 一階述語論理の素性 と 二階以上の重み付け和

Slide 7

Slide 7 text

定式化 - 問題点 ● 素性の重み行列が巨大すぎる( n × n × m × l) ● ゆえに低ランク行列に分解し それぞれ k×n, k×n, k×m, k×l の行列.

Slide 8

Slide 8 text

定式化 - 問題点 ● スコア計算は, それぞれの素性で計算したものを 掛け算, 足し算するだけ.

Slide 9

Slide 9 text

学習 ● 素性に対応する重みを学習する. パラメータは{w, P, R, Q, A}.

Slide 10

Slide 10 text

学習 – 目的関数 ● 正解と比べた時に 以下のコスト として与える False-positive(不必要な arc がある ) ならば +1.0, false-negative(必要な arc が無い) ならば +2.0 役割ラベルだけが異なる場合 +0.5

Slide 11

Slide 11 text

学習 – 目的関数 ● 最終的には, hinge loss を利用した損失関数を利用 損失関数はパラメータθ = {w, P, R, Q, S}について非凸

Slide 12

Slide 12 text

学習 - 重みの更新 ● 重みの更新式は, 以下の通り – 更新幅が Adaptive に変化する

Slide 13

Slide 13 text

学習 – power iteration ● 学習の際の良い初期値を決めたい – w と P, R, Q, Sで対応するものは そのまま利用する – SVD の 結果 が理想的だが 必要とする計算量, メモリ量が大きすぎる – Power iteration (De Lathauwer et al. 1995)を利用 ● 逐次的に p, r, q, s を収束するまで更新していく ● 凸関数であるため収束することは保証されている

Slide 14

Slide 14 text

実験結 - 1 ● Word embeddings を利用し相互作用を考慮した モデル(Roth and Woodsend 2014)よりも有効 ● 素性は疎のまま取り扱ったほうがよい?

Slide 15

Slide 15 text

● Word embeddings を利用しした モデル (Roth and Woodsend 2014)よりも有効 実験結 - 2

Slide 16

Slide 16 text

● Word embeddings を利用し相互作用を考慮した モデル(Roth and Woodsend 2014)よりも有効 ● 素性は疎のまま取り扱ったほうがよい? 実験結 - 3

Slide 17

Slide 17 text

結論 ● 高次のテンソルを扱った素性表現を行うことで 様々な組み合わせを考慮した学習ができる ● そのままであると巨大な重み行列ができるため 複数の低次の行列に分解する ● 提案手法は, CoNLL-2009 のSRLタスクにおいて 素性を非常に作りこんだ既存手法よりも良い性能 → 自動的に有効な素性抽出が行えることを示唆