卒業研究発表会_入力データの構造を考慮したLowProFoolアルゴリズムによる敵対的サンプルの生成に関する研究

2024年度卒業研究発表会入力データの構造を考慮した LowProFoolアルゴリズムによる敵対的サンプルの生成に関する研究東京都市大学メディア情報学部情報システム学科 2172010 有馬祥太指導:三川健太
准教授

2024年度卒業研究発表会以下の画像は何という動物でしょうか 1. 研究背景・目的 2 パンダテナガザル

2024年度卒業研究発表会 1. 研究背景・目的 3 パンダの画像

2024年度卒業研究発表会 1. 研究背景・目的 4 パンダの画像カラフルなノイズ

2024年度卒業研究発表会 1. 研究背景・目的 5 パンダの画像カラフルなノイズテナガザル

2024年度卒業研究発表会 1. 研究背景・目的 6 カラフルなノイズテナガザルパンダの画像このようなデータを敵対的サンプルと呼ぶ人間に知覚できない微細なノイズを加え、誤分類を引き起こす

2024年度卒業研究発表会表形式データの敵対的サンプルはノイズの掛け方が重要になる 1. 研究背景・目的 7 - 複数の特徴量 - 数値やカテゴリデータなどが混在
- 特徴量間の関係性などがある - 画素における色情報のみ - 0~255までの連続値画像データ表形式データ ※正社員:0, 契約社員:1 Id 年収(百万) 年齢雇用形態結果 1 2.00 25 1 0(拒否) 2 4.50 40 1 1(認可) 3 4.00 31 0 1(認可)

2024年度卒業研究発表会例えば、ローンの認可ついての審査を行う場合、 1. 研究背景・目的 8 Id 年収(百万) 年齢雇用形態
結果 1 2.00 25 1 0(拒否) 2 4.50 40 1 1(認可) 3 4.00 31 0 1(認可) ※正社員:0, 契約社員:1 ※正社員:0, 契約社員:1 Id 年収(百万) 年齢雇用形態結果 1 2.01 27 1 1(認可) 2 4.49 40 1 0(拒否) 3 4.00 33 1 0(拒否) 分類結果を簡単に変更することができてしまう

2024年度卒業研究発表会目的表形式データの特徴を考慮したよりノイズがより小さく知覚が難しい敵対的サンプルを生成すること 1. 研究背景・目的 9 表形式データにおけるノイズの小さい敵対的サンプルの生成によって機械学習モデルの脆弱なデータを生成する

2024年度卒業研究発表会 Balletらが提案したLowProFoolという手法があるランダムなノイズの付加ではなく特徴量の重要度に応じて重み付けされたノイズを付加する 2. 従来研究 10 Id 年収(百万)
年齢雇用形態結果重要度大小中 1 2.00 25 1 0(拒否) 2 4.50 40 1 1(認可) 3 4.00 31 0 1(認可) ※正社員:0, 契約社員:1 ※正社員:0, 契約社員:1 Id 年収(百万) 年齢雇用形態結果重要度大小中 1 3.00 25 0 1(認可) 2 4.00 40 1 0(拒否) 3 4.00 27 1 0(拒否)

2024年度卒業研究発表会重要度の算出を行う ① ノイズの初期化を行う最適なノイズになるまで探索する最適な敵対的サンプルを返す LowProFoolのアルゴリズム 2. 従来研究
11 ② ③ ④

2024年度卒業研究発表会重要度の算出方法につ分類結果に対する各特徴量の相関係数を用いる 𝑖番目の特徴量に対する重要度を算出する 𝑖番目の特徴量ベクトル𝑿𝑖 と目的変数𝑌の相関を利用する。 𝒗𝒊 = |𝜌𝑿𝒊,𝑌
| ∥ 𝜌𝑿,𝑌 ∥2 2 なおこの式では、すべての相関の和を分母に置き、正規化している 2. 従来研究 12 重要度の算出を行う ①

2024年度卒業研究発表会特徴量の重要度ノイズの大きさ
目指す敵対的サンプルの形 - 重要度が低い特徴量に対するノイズ - 大きなノイズ - 重要度が高い特徴量に対するノイズ - 知覚されやすく攻撃が発覚しやすい 2. 従来研究 13 Id 年収(百万) 年齢雇用形態結果重要度大小中 1 2.00 25 1 0(拒否) 1’ 2.00 35 1 1(認可) ※正社員:0, 契約社員:1 Id 年収(百万) 年齢雇用形態結果重要度大小中 1 2.00 25 1 0(拒否) 1’‘ 3.00 25 1 1(認可) ※正社員:0, 契約社員:1 最適なノイズになるまで探索する ③

2024年度卒業研究発表会従来手法によって実際に敵対的サンプルした 2. 従来研究 14 特徴量重要度元データ従来手法
checking_status 0.718 0 0.09115 duration 0.384 14 8.89098 credit_amount 0.293 8978 7153.84454 saving_status 0.253 0 0.08376 employment 0.243 4 3.94764 installment_commitment 0.165 1 1.07192 residence_since 0.046 4 4.00000 age 0.230 45 44.41327 existing_credits 0.076 1 1.00000 num_dependents 0.040 1 1.00000 own_telephone 0.095 1 0.99231 foreign_worker 0.171 1 1.00000 checking_statusに対するノイズを強く避けたため、 credit_amountへのノイズが大きくなっている重要度が3番目に大きいcredit_amountに対するノイズが極端に大きい出力が連続値である

2024年度卒業研究発表会従来手法の課題と提案 3. 提案手法 15 極端なノイズ付加特徴量の出力が連続値であること特徴量に対する重要度算出法の改善
出力データの離散化手法の導入 →元データの特徴を捉えたノイズを付加する →出力が元データと揃え、自然なサンプルを生成する

2024年度卒業研究発表会重要度𝒗𝑖 の算出を行う ① ノイズの初期化を行う最適なノイズになるまで探索する最適な敵対的サンプルを返す従来手法のアルゴリズム 3.
提案手法 16 ③ ④ ②

2024年度卒業研究発表会ノイズの初期化を行う最適なノイズになるまで探索する最適な敵対的サンプルを返す提案手法のアルゴリズム 3. 提案手法 17 ②
③ ④ 重要度𝒗raw の算出を行う ① 重要度𝒗sqrt の算出を行う四捨五入による離散化 ⑤ ランダムな離散化ステップ①と⑤をそれぞれ 2パターンずつ従来手法と比較する

2024年度卒業研究発表会重要度算出法についての改善について - 相関係数の絶対値のパターン - 従来手法から正規化処理を外した方法 - 従来手法の重要度算出法に平方根した方法 3.
提案手法 18 従来手法である正規化処理を加えたものは本来の相関係数よりも傾きが急である

2024年度卒業研究発表会出力データの離散化手法 - 四捨五入による離散化手法 - 一般的な離散化方法例) 21.33歳 →
21歳 - ランダム性を取り入れた確率的な離散化手法 - 小数部分の情報を活用し、ノイズの影響を反映することができる例) 21.33歳 → 33%の確率で22歳, 67%の確率で21歳 3. 提案手法 19

2024年度卒業研究発表会銀行におけるローンの審査システムについての機械学習モデルを想定した敵対的サンプルの生成実験を行う。先程の提案手法のそれぞれ2パターンを掛け合わせた4パターンを比較するテストデータからランダムに10個抽出したものを敵対的サンプルのベースデータとする <使用データ> - German
Credit Data - ドイツにおけるローン申請者とその認可の正解データで構成 - ローン申請者のデータと、所有している金融財産などの特徴量 - カテゴリ変数や二値や多値の離散値をもつ特徴量がある 4-1. 実験準備 20

2024年度卒業研究発表会使用する深層学習モデル入力ノード数:12 出力ノード数:2 隠れ層:6層ノード数100 活性化関数:ReLU関数出力層へはシグモイド関数 BCELoss関数による最小化
4-1. 実験準備 21

2024年度卒業研究発表会評価指標として以下の3つを用いる 1. 成功率 : 生成された敵対的サンプルが誤分類を引き起こす確率生成された10個のデータが誤分類しているかの割合 2. 平均距離
: ベースとなったデータと敵対的サンプルのノイズの平均距離小さいほど加わったノイズが小さい敵対的サンプルである 3. 重み距離 : 平均距離に対して重みをつけ、知覚されやすさの距離尺度小さいほど人間に知覚されにくい敵対的サンプルである 4-1. 実験準備 22

2024年度卒業研究発表会全ての手法で誤分類を引き起こす敵対的サンプルを生成することができた →よってそれぞれ10件の生成された敵対的サンプルについて評価を行う 4-2. 実験結果 23

2024年度卒業研究発表会平均距離について - 重要度算出の提案については、すべて従来手法よりも良いスコア - 離散化手法は、四捨五入が一番小さくなった 4-2. 実験結果 24
𝒗sqrt による重要度算出と四捨五入による離散化が一番小さくなった

2024年度卒業研究発表会重み距離について - 唯一従来手法と同水準であったのが、 𝒗raw による重要度算出法と四捨五入による離散化手法を組み合わせたものであった 4-2. 実験結果
25 従来手法の重要度算出との差が0.004

2024年度卒業研究発表会生成された敵対的サンプル (𝒗raw による重要度算出法と四捨五入による離散化手法による敵対的サンプル) 4-2. 実験結果 26 特徴量重要度
元データ従来手法提案手法 checking_status 0.718 0 0.09115 0 duration 0.384 14 8.89098 15 credit_amount 0.293 8978 7153.84454 9169 saving_status 0.253 0 0.08376 0 employment 0.243 4 3.94764 4 installment_commitment 0.165 1 1.07192 1 residence_since 0.046 4 4.00000 2 age 0.230 45 44.41327 45 existing_credits 0.076 1 1.00000 1 num_dependents 0.040 1 1.00000 1 own_telephone 0.095 1 0.99231 1 foreign_worker 0.171 1 1.00000 1 従来手法に比べてノイズが小さくなっている

2024年度卒業研究発表会 - ランダムな離散化手法の精度が悪かったことについて - 小数部分の情報損失のという目的で提案したが、小数部分の情報は四捨五入までで十分であったということがわかる - 各データをそれぞれ比較すると、従来手法のほうがノイズが小さい敵対的サンプルを生成している場合もあった
- 全体を通してみると、 𝒗raw による重要度算出法と四捨五入による離散化がよい精度を示した 5. 考察 27

2024年度卒業研究発表会まとめ使用したデータセットにおいて元データの分布に合わせたより自然でノイズの小さい敵対的サンプルの生成ができた重要度算出は出力されるサンプルの結果を元に慎重に算出することが重要今後の課題 - 他の異なるデータセットへの適用 -
よりデータセットの特徴に合わせられるようにするため、アンサンブル学習を用いた敵対的サンプル生成手法の検証 6. まとめ 28

2024年度卒業研究発表会これらのシステムは人間を必要とせず、人手不足の解消や業務効率化などに役立てられている付録 29 機械学習システムを利用したサービス不正検知システム推薦システム自動運転システム

2024年度卒業研究発表会機械学習システムに対する脅威があるその一つとして、敵対的サンプルによる攻撃が挙げられる[1] これらの攻撃を防ぐ仕組みとして敵対的学習という研究が行われている敵対的学習既存の機械学習モデルが誤分類しない堅牢性を高める学習敵対的サンプル入力データに人間が知覚できないノイズを加え、誤分類を引き起こすデータ →よりノイズの小さい敵対的サンプルを生成することで、より堅牢な機械学習
システムを構築することができる付録 30

2024年度卒業研究発表会敵対的学習の流れ 1. 学習中の機械学習モデルを利用した敵対的サンプルの生成付録 31

2024年度卒業研究発表会敵対的学習の流れ 2. 損失関数を用いた誤差の検出付録 32

2024年度卒業研究発表会敵対的学習の流れ 3. 誤差関数の計算付録 33

2024年度卒業研究発表会敵対的学習の流れ 4. 重み𝑤の更新付録 34

卒業研究発表会_入力データの構造を考慮したLowProFoolアルゴリズムによる敵対的サンプル...

卒業研究発表会_入力データの構造を考慮したLowProFoolアルゴリズムによる敵対的サンプルの生成に関する研究

Arishow

More Decks by Arishow

Other Decks in Technology

Featured

Transcript

2024年度卒業研究発表会入力データの構造を考慮した LowProFoolアルゴリズムによる敵対的サンプルの生成に関する研究東京都市大学メディア情報学部情報システム学科 2172010 有馬祥太指導:三川健太

2024年度卒業研究発表会以下の画像は何という動物でしょうか 1. 研究背景・目的 2 パンダテナガザル

2024年度卒業研究発表会 1. 研究背景・目的 3 パンダの画像

2024年度卒業研究発表会 1. 研究背景・目的 4 パンダの画像カラフルなノイズ

2024年度卒業研究発表会 1. 研究背景・目的 5 パンダの画像カラフルなノイズテナガザル

2024年度卒業研究発表会 1. 研究背景・目的 6 カラフルなノイズテナガザルパンダの画像このようなデータを敵対的サンプルと呼ぶ人間に知覚できない微細なノイズを加え、誤分類を引き起こす

2024年度卒業研究発表会表形式データの敵対的サンプルはノイズの掛け方が重要になる 1. 研究背景・目的 7 - 複数の特徴量 - 数値やカテゴリデータなどが混在

2024年度卒業研究発表会例えば、ローンの認可ついての審査を行う場合、 1. 研究背景・目的 8 Id 年収(百万) 年齢雇用形態

2024年度卒業研究発表会 Balletらが提案したLowProFoolという手法があるランダムなノイズの付加ではなく特徴量の重要度に応じて重み付けされたノイズを付加する 2. 従来研究 10 Id 年収(百万)

2024年度卒業研究発表会重要度の算出を行う ① ノイズの初期化を行う最適なノイズになるまで探索する最適な敵対的サンプルを返す LowProFoolのアルゴリズム 2. 従来研究

2024年度卒業研究発表会特徴量の重要度ノイズの大きさ

2024年度卒業研究発表会従来手法によって実際に敵対的サンプルした 2. 従来研究 14 特徴量重要度元データ従来手法

2024年度卒業研究発表会従来手法の課題と提案 3. 提案手法 15 極端なノイズ付加特徴量の出力が連続値であること特徴量に対する重要度算出法の改善

2024年度卒業研究発表会重要度𝒗𝑖 の算出を行う ① ノイズの初期化を行う最適なノイズになるまで探索する最適な敵対的サンプルを返す従来手法のアルゴリズム 3.

2024年度卒業研究発表会ノイズの初期化を行う最適なノイズになるまで探索する最適な敵対的サンプルを返す提案手法のアルゴリズム 3. 提案手法 17 ②

2024年度卒業研究発表会重要度算出法についての改善について - 相関係数の絶対値のパターン - 従来手法から正規化処理を外した方法 - 従来手法の重要度算出法に平方根した方法 3.

2024年度卒業研究発表会出力データの離散化手法 - 四捨五入による離散化手法 - 一般的な離散化方法例) 21.33歳 →

2024年度卒業研究発表会使用する深層学習モデル入力ノード数:12 出力ノード数:2 隠れ層:6層ノード数100 活性化関数:ReLU関数出力層へはシグモイド関数 BCELoss関数による最小化

2024年度卒業研究発表会評価指標として以下の3つを用いる 1. 成功率 : 生成された敵対的サンプルが誤分類を引き起こす確率生成された10個のデータが誤分類しているかの割合 2. 平均距離

2024年度卒業研究発表会全ての手法で誤分類を引き起こす敵対的サンプルを生成することができた →よってそれぞれ10件の生成された敵対的サンプルについて評価を行う 4-2. 実験結果 23

2024年度卒業研究発表会平均距離について - 重要度算出の提案については、すべて従来手法よりも良いスコア - 離散化手法は、四捨五入が一番小さくなった 4-2. 実験結果 24

2024年度卒業研究発表会重み距離について - 唯一従来手法と同水準であったのが、 𝒗raw による重要度算出法と四捨五入による離散化手法を組み合わせたものであった 4-2. 実験結果

2024年度卒業研究発表会生成された敵対的サンプル (𝒗raw による重要度算出法と四捨五入による離散化手法による敵対的サンプル) 4-2. 実験結果 26 特徴量重要度

2024年度卒業研究発表会これらのシステムは人間を必要とせず、人手不足の解消や業務効率化などに役立てられている付録 29 機械学習システムを利用したサービス不正検知システム推薦システム自動運転システム

2024年度卒業研究発表会敵対的学習の流れ 1. 学習中の機械学習モデルを利用した敵対的サンプルの生成付録 31

2024年度卒業研究発表会敵対的学習の流れ 2. 損失関数を用いた誤差の検出付録 32

2024年度卒業研究発表会敵対的学習の流れ 3. 誤差関数の計算付録 33

2024年度卒業研究発表会敵対的学習の流れ 4. 重み𝑤の更新付録 34