Slide 1

Slide 1 text

0 遺伝的アルゴリズム (GA) を活用した スペクトルの波⻑選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理⼯学部 応用化学科 データ化学⼯学研究室 ⾦⼦ 弘昌

Slide 2

Slide 2 text

波⻑選択・プロセス変数および時間遅れの選択とは︖ Genetic Algorithm-based Partial Least Squares (GAPLS) や Genetic Algorithm-based Support Vector Regression (GASVR) と 似た、スペクトル解析や時系列データ解析 (ソフトセンサー) 用の手法 • GAPLS, GASVR についてはこちら https://datachemeng.com/gaplsgasvr/ スペクトルデータ解析では、波⻑の領域の組み合わせを、回帰モデルの 推定性能が高くなるように選択 • Genetic Algorithm-based WaveLength Selection using Partial Least Squares (GAWLSPLS) • Genetic Algorithm-based WaveLength Selection using Support Vector Regression (GAWLSSVR) 1

Slide 3

Slide 3 text

波⻑選択・プロセス変数および時間遅れの選択とは︖ 時系列データ解析 (ソフトセンサー) では、プロセス変数の組み合わせと それらの時間遅れ幅を、回帰モデルの推定性能が高くなるように選択 • Genetic Algorithm-based process Variable and Dynamics Selection using Partial Least Squares (GAVDSPLS) • Genetic Algorithm-based process Variable and Dynamics Selection using Support Vector Regression (GAVDSSVR) スペクトルデータと時系列データは似ているため、同じような手法を 用いることができる • 参考: https://datachemeng.com/preprocessspectratimeseriesdata/ 2

Slide 4

Slide 4 text

PLS, SVR PLS, SVRについてはこちら • PLS : https://datachemeng.com/partialleastsquares/ • SVR : https://datachemeng.com/supportvectorregression/ 3

Slide 5

Slide 5 text

波⻑を領域で選択するイメージ 4 y PLS or SVR モデル構築 説明変数 X 目的変数 y 遺伝的アルゴリズム (GA) で最適な領域の組み合わせを選択 選択された波⻑領域 選択する波⻑領域が3つの場合

Slide 6

Slide 6 text

波⻑領域選択 5 ランダムに初期化された 染色体 適合度の計算 淘汰と選択 遺伝的操作 次世代の染色体 1511 2032 21 14 1511 1524 2032 2052 波⻑ 適合度: 選択された波⻑領域のみで PLS や SVR を⾏った際の クロスバリデーション推定値を 用いた r2 染色体  交差  突然変異 波⻑領域を最適化可能

Slide 7

Slide 7 text

GAWLSPLSやGAWLSSVRの前に設定すること 選択する領域の数 • いくつかの領域数で波⻑領域を選択し、モデルの推定性能を 確認して適した領域の数を決めてもよい 選択する領域の幅の最大値 • ある程度大きくしておけばよい PLS のときの最適成分数、SVR のときの C, ε, γ 遺伝的アルゴリズム (GA) 関係の設定 • 染色体数、世代数 など 6

Slide 8

Slide 8 text

プロセス変数および時間遅れを選択するイメージ7 y PLS or SVR モデル構築 説明変数 X 目的変数 y ・・・ プロセス 変数 1 プロセス 変数 2 プロセス 変数 n データ 時間 遅れ 遺伝的アルゴリズム (GA) で最適な組み合わせを選ぶ 選択された変数 0 ・・・ 0 ・・・ 0 ・・・ ・・・ 1 1 60 60 1 60 選択するプロセス変数の数が3つの場合

Slide 9

Slide 9 text

波⻑領域選択と異なること 8 2つのプロセス変数をまたいで時間遅れ領域が選択されないようにする ・・・ プロセス 変数 1 プロセス 変数 2 プロセス 変数 n データ 時間 遅れ 0 ・・・ 0 ・・・ 0 ・・・ ・・・ 1 1 60 60 1 60

Slide 10

Slide 10 text

GAVDSPLSやGAVDSSVRの前に設定すること 選択するプロセス変数の数 • いくつかのプロセス変数の数で GAVDSPLS や GAVDSSVR を ⾏い、モデルの推定性能を確認して適した数を決めてもよい 選択する時間遅れの最大値 • ある程度大きくしておけばよい PLS のときの最適成分数、SVR のときの C, ε, γ 遺伝的アルゴリズム (GA) 関係の設定 • 染色体数、世代数 など 9

Slide 11

Slide 11 text

どうやって実際にGAWLS, GAVDSを実⾏するか︖ scikit-learn や DEAP を用いて、 • GAWLSPLS • GAWLSSVR • GAVDSPLS • GAVDSSVR のデモを⾏うプログラムを作成しました https://github.com/hkaneko1985/gawls_gavds 10

Slide 12

Slide 12 text

注意点 ランダム性があるため、GAWLSPLS, GAWLSSVR, GAVDSPLS, GAVDSSVR を⾏った結果、いつも同じ結果が得られるとは限らない クロスバリデーションをして推定した結果がよくなるように変数を 選択しているが、モデルがオーバーフィッティングする可能性もある 11

Slide 13

Slide 13 text

参考文献 M. Arakawa, Y. Yamashita, K. Funatsu, J. Chemometr., 25, 10-19, 2011 H. Kaneko, K. Funatsu, AIChE J., 58, 1829-1840, 2012 H. Kaneko, K. Funatsu, Chemometr. Intell. Lab. Syst., 121, 26-32, 2013 12