Slide 1

Slide 1 text

自然言語処理研究室 B4 Seminar 2014年度 第1週 論文紹介 大規模素性集合に対する 教師あり縮約モデリング 長岡技術科学大学 B4 竹野 峻輔

Slide 2

Slide 2 text

鈴木潤 and 永田昌明, “大規模素性集合に対する教師あり縮約モ デリング,” in 言語処理学会 第20回年次大会 発表論文集, 2014, pp. 1063–1066. Jun Suzuki and Masaaki Nagata. Supervised model learning with feature grouping based on a discrete constraint. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 18–23, Sofia, Bulgaria, August 2013. Association for Computa- tional Linguistics. A7:機械学習, 3/20(木) 他 受賞者多 • 村岡雅康, 島岡聖世, 山本風人, 渡邉陽太郎, 岡崎直観, and 乾健太郎, “係り受け関 係を用いた句ベクトルの生成,” in 言語処理学会 第20回年次大会 発表論文集, 2014, no. C, pp. 1055–1058. • 島岡聖世, 村岡雅康, 山本風人, 渡邉陽太郎, 岡崎直観, and 乾健太郎, “ガウス分 布による単語と句の意味の分布的表現,” 言語処理学会 第20回年次大会 発表論文 集, pp. 1051–1054, 2014. 2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介 - 大規模素性集合に対する教師あり縮約モデリング

Slide 3

Slide 3 text

素性数・・・精度⇔メモリ・処理時間のトレードオフ 文献による提案手法(縮約モデリング) #nzF (非零の素性数) #DoF(最適化変数の自由度) 2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介 - 大規模素性集合に対する教師あり縮約モデリング 固有表現抽出のタスク評価

Slide 4

Slide 4 text

• 機械学習における式の一般化 = arg min ; ; = ℒ ; + Ω :最適化パラメータ : 訓練データ ℒ(; ):損失項 Ω :正則化項 2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 研究背景 仮定: 損失項および正則化項はwに関して 凸関数であること 損失項は劣微分可能な関数であること

Slide 5

Slide 5 text

• 機械学習における式の一般化 = arg min ; ; = ℒ ; + Ω :最適化パラメータ : 訓練データ ℒ(; ):損失項 Ω :正則化項 2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 研究背景 仮定: 損失項および正則化項はwに関して 凸関数であること 損失項は劣微分可能な関数であること

Slide 6

Slide 6 text

素性数・・・精度⇔メモリ・処理時間のトレードオフ 文献による提案手法(縮約モデリング) #nzF (非零の素性数) #DoF(最適化変数の自由度) 2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介 - 大規模素性集合に対する教師あり縮約モデリング 固有表現抽出のタスク評価

Slide 7

Slide 7 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの         M j j j M M x w x w x w x w w x y 0 2 2 1 0 ... ) , ( w 解1:xに関する多項式を仮定し,最小二乗誤差法を適用する.     N n n n t x y E 1 2 } ) , ( { 2 1 ) ( w w 誤差関数(Error Function) wに関して最小化. wi (パラメータ)に関して1次の線形関数:線形モデル(linear model) 問題はMはいくつにするか? ⇒ モデル選択 2014/3/26 PRML勉強会@長岡

Slide 8

Slide 8 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの         M j j j M M x w x w x w x w w x y 0 2 2 1 0 ... ) , ( w 解1:xに関する多項式を仮定し,最小二乗誤差法を適用する.     N n n n t x y E 1 2 } ) , ( { 2 1 ) ( w w 誤差関数(Error Function) wに関して最小化. wi (パラメータ)に関して1次の線形関数:線形モデル(linear model) 問題はMはいくつにするか? ⇒ モデル選択 2014/3/26 PRML勉強会@長岡

Slide 9

Slide 9 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう 最初は定数 2014/3/26 PRML勉強会@長岡

Slide 10

Slide 10 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう 直線 2014/3/26 PRML勉強会@長岡

Slide 11

Slide 11 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう らしくなってきた! 2014/3/26 PRML勉強会@長岡

Slide 12

Slide 12 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう ありゃりゃ… 2014/3/26 PRML勉強会@長岡

Slide 13

Slide 13 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう 10個の未知パラメータ 10個の訓練データ = 二乗誤差ゼロ 未知のデータ(緑)との誤差大! 過学習(over-fitting) ランダムノイズに引っ張られてる 2014/3/26 PRML勉強会@長岡

Slide 14

Slide 14 text

1. 例:多項式曲線フィッティング 未知のデータに対する適応度と訓練データに対する適応度比較  E RMS  2E(w*)/N Nに左右されない比較 2014/3/26 PRML勉強会@長岡

Slide 15

Slide 15 text

1. 例:多項式曲線フィッティング Mが増えるとパラメータも大きくなるんですね… 雑音 = 高周波 ⇒ xの微小変化に大きな変化が求められる M=0 M=1 M=3 … M=9 0 ∗ 0.19 0.82 0.31 0.35 1 ∗ -1.27 7.99 232.37 2 ∗ -25.43 -5321.83 3 ∗ 17.37 48568.31 4 ∗ -231639.30 5 ∗ 640042.26 6 ∗ -1061800.52 7 ∗ 1042400.18 8 ∗ -557682.99 9 ∗ 125201.43 2014/3/26 PRML勉強会@長岡

Slide 16

Slide 16 text

関連研究: スパースモデリング 素性のグルーピング(似た素性を一つにする) 縮約モデリング(提案手法): 最適化変数の値をなるべく同じ値にする ⇒モデルが非常に簡潔になる ADMMの改良を行ったもの ⇒0に量子化された素性は影響がない 2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介 - 大規模素性集合に対する教師あり縮約モデリング

Slide 17

Slide 17 text

ACLによる報告: 縮約モデリングの提案・検討 量子化後のパラメータは手動で経験的に決定 NLP2014における報告: 量子化後のパラメータを自動的に決定 2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介 - 大規模素性集合に対する教師あり縮約モデリング

Slide 18

Slide 18 text

2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介 - 大規模素性集合に対する教師あり縮約モデリング 元のパラメータをどの平面に写像を行うかの問題になる。

Slide 19

Slide 19 text

2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介 - 大規模素性集合に対する教師あり縮約モデリング

Slide 20

Slide 20 text

2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介 - 大規模素性集合に対する教師あり縮約モデリング 組み合わせ最適化問題 +1次元K-meansクラスタリング をどうやって選ぶか? . ) = {−1, −0.5,0,0.5,1} を決める問題 wを から決める問題 . ) = (−1, 0,0.5,1)

Slide 21

Slide 21 text

2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介 - 大規模素性集合に対する教師あり縮約モデリング 一次元クラスタリングのアルゴリズム Ckmeans.1d.dp を改良 絶対に選択されないクラスタは計算を省く 計算量 O(KN2) → O(KNlogN)

Slide 22

Slide 22 text

素性数・・・精度⇔メモリ・処理時間のトレードオフ 文献による提案手法(縮約モデリング) #nzF (非零の素性数) #DoF(最適化変数の自由度) 2014/3/26 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介 - 大規模素性集合に対する教師あり縮約モデリング 固有表現抽出のタスク評価