High-Order Low-Rank Tensors for Semantic Role Labeling

Slide 1

Slide 1 text

文献紹介 High-Order Low-Rank Tensors for Semantic Role Labeling ● 自然言語処理研究室 ● 竹野峻輔

Slide 2

Slide 2 text

文献情報 Semantic Role labeling(SRL) の研究報告. 高階のテンソルについてテンソル分解を行いより少ない素性で SRLにおける性能を改善. 素性は普遍的なものにも関わらず素性が作りこまれた重いモデル (Zhao et al. 2009) よりも良い結果 Tao Lei and Yuan Zhang. 2015. High-Order Low-Rank Tensors for Semantic Role Labeling. In HLT-NAACL 2015 - Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, Proceedings of the Main Conference, pages 1150–1160

Slide 3

Slide 3 text

Semantic Role labeling(SRL) ● 構文情報から述語と項の関係を求める ● (holding, meeting, A1) のようなタプルの集合z ● 二部グラフ最適化問題

Slide 4

Slide 4 text

SRLにおける特徴 SRL における素性はテンプレートとして言語ごとにかなり体系化されている.(Che et al., 2009) ● データスパースネス ● 過学習の問題よりコンパクトで, より汎用なモデルを作りたい → 次元圧縮 (e.g. SVD) 本研究; 高次な組み合わせ素性表現をテンソル分解で表現. 4 次元構造のテンソル = (述語) × (項) × (パス) x (役割ラベル) のテンソル積パラメータ数を低く保ちつつ, 高い性能を持ったモデルの構築に成功.

Slide 5

Slide 5 text

定式化基本的は１階述語論理を利用した最大化一階述語論理の素性と二階以上の重み付け和

Slide 6

Slide 6 text

定式化基本的は１階述語論理を利用した最大化一階述語論理の素性と二階以上の重み付け和

Slide 7

Slide 7 text

定式化 - 問題点 ● 素性の重み行列が巨大すぎる( n × n × m × l) ● ゆえに低ランク行列に分解しそれぞれ k×n, k×n, k×m, k×l の行列.

Slide 8

Slide 8 text

定式化 - 問題点 ● スコア計算は, それぞれの素性で計算したものを掛け算, 足し算するだけ.

Slide 9

Slide 9 text

学習 ● 素性に対応する重みを学習する. パラメータは{w, P, R, Q, A}.

Slide 10

Slide 10 text

学習 – 目的関数 ● 正解と比べた時に以下のコストとして与える False-positive(不必要な arc がある ) ならば +1.0, false-negative(必要な arc が無い) ならば +2.0 役割ラベルだけが異なる場合 +0.5

Slide 11

Slide 11 text

学習 – 目的関数 ● 最終的には, hinge loss を利用した損失関数を利用損失関数はパラメータθ = {w, P, R, Q, S}について非凸

Slide 12

Slide 12 text

学習 - 重みの更新 ● 重みの更新式は, 以下の通り – 更新幅が Adaptive に変化する

Slide 13

Slide 13 text

学習 – power iteration ● 学習の際の良い初期値を決めたい – w と P, R, Q, Sで対応するものはそのまま利用する – SVD の結果が理想的だが必要とする計算量, メモリ量が大きすぎる – Power iteration (De Lathauwer et al. 1995)を利用 ● 逐次的に p, r, q, s を収束するまで更新していく ● 凸関数であるため収束することは保証されている

Slide 14

Slide 14 text

実験結 - 1 ● Word embeddings を利用し相互作用を考慮したモデル(Roth and Woodsend 2014)よりも有効 ● 素性は疎のまま取り扱ったほうがよい？

Slide 15

Slide 15 text

● Word embeddings を利用ししたモデル (Roth and Woodsend 2014)よりも有効実験結 - 2

Slide 16

Slide 16 text

● Word embeddings を利用し相互作用を考慮したモデル(Roth and Woodsend 2014)よりも有効 ● 素性は疎のまま取り扱ったほうがよい？実験結 - 3

Slide 17

Slide 17 text

結論 ● 高次のテンソルを扱った素性表現を行うことで様々な組み合わせを考慮した学習ができる ● そのままであると巨大な重み行列ができるため複数の低次の行列に分解する ● 提案手法は, CoNLL-2009 のSRLタスクにおいて素性を非常に作りこんだ既存手法よりも良い性能 → 自動的に有効な素性抽出が行えることを示唆