Ren et al. - ACL2019 - Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency

Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency
Shuhuai Ren, Yihe Deng, Kun He, Wanxiang Che ACL 2019 2019/10/28 ACL 論⽂読み会紹介者 : B4 ⾼橋悠進

Abstract • テキスト分類タスクで、敵対的攻撃のための⼿法を提案 • 3 つのデータセットを使って実験した • 低い単語置換率を維持し、提案⼿法が分類正解率を低下させることを⽰した •
⼈⼿評価の実験で、微⼩なノイズであることを⽰した

Previous work • 画像分類タスクからの⼿法 (FGSM) などは white-box 攻撃 • Yang
et al. (2018) : a perturbation-based method • 5 単語以下の置換数で分類正解率を 5% 以下にした • セマンティクスが維持されていない • 対義語が敵対的サンプルとして出現していることが確認される • Gao et al. (2018) : DeepWordBug • ⽂字レベルの black-box 攻撃, スペルにノイズを⼊れる • spell check である程度制御できてしまう

Text adversarial examples • テキスト分類 : ⼊⼒テキストからラベルを出⼒ (事後確率を最⼤化) • 分類器への攻撃
arg max yi 2Y P(yi |x⇤) 6= ytrue <latexit sha1_base64="6+0wT0os0g+E8el+pOVXDnVz64s=">AAAD1nicnVK9axRBFH+X9SOeH7loI9gMHicxyDEXC4MgBLSwMV4SLznJxmV2ndsM2S9m544717UTwcrOwkrBQmz9D2z8Byxiq41YRrCx8M3sqsSQCzjL7r75vff7zXvznpsEIlWUblcmrEOHjxydPFY9fuLkqana9OnVNO5Lj3e8OIhl12UpD0TEO0qogHcTyVnoBnzN3bqu/WsDLlMRR3fUKOEbIfMj0RMeUwg5tUWbST9kQycbOZnIiS0iktkhU5seC8jdPCftmZEjyENiQLeXDfN7sxeJHcWKXCNIshUfqkzJPs/zqlOr0yY1i+w1WqVRh3K14+nKPNhwH2LwoA8hcIhAoR0AgxSfdWgBhQSxDcgQk2gJ4+eQQxW5fYziGMEQ3cKvj7v1Eo1wrzVTw/bwlABfiUwCDfqRvqE79AN9S7/Sn/tqZUZD5zLCv1tweeJMPT278uNAVoh/BZt/WWNzVtCDeZOrwNwTg+gqvII/ePB8Z+XqciO7QF/Rb5j/S7pN32MF0eC793qJL79A9QZG7pfT72z0fYYwHHODGVYaGv84PYUaPbxR3bO0VLuBnqJ/Eq1b5Ym3kcsR0TvdgVlk2ybGx3N0tXnZXx/xS3+w/1VkprrdigWmZ7T170TuNVbnmq3LzbklWl9YLKd1Es7BeZjBibwCC3AT2tDBvN7BJ/gMX6yu9ch6bD0pQicqJecM7FrWs19m1eEl</latexit> x⇤ = x + x, || x||p < ✏ <latexit sha1_base64="GHDEpDxuLVKCVxGwFKjuuAhOX5k=">AAAD53icnVJLaxRBEK7N+IjrIxu9CF4alxWJYemNQoIoBMzBi5qHmwQyceiZ9G6a9Dwy07skzs4f8OJNBU8RPIg/QwT/gIf8BMkxES8erO4ZXWPIBuxhZqq/qu/rqq5yIykSReluacg6dfrM2eFz5fMXLl4aqYxeXkzCTuzxphfKMF52WcKlCHhTCSX5chRz5ruSL7kbD7R/qcvjRITBU7Ud8VWftQPREh5TCDkVx/aZWndb6Vb2LB3LyH3SB8gtYs9wqVgfGif2ZoetkV6vcP0V3us5aZSRe8TmUSJkGBDbLjuVKq1Ts8hRo1EYVSjWbDhamgIb1iAEDzrgA4cAFNoSGCT4rEADKESIrUKKWIyWMH4OGZSR28EojhEM0Q38tnG3UqAB7rVmYtgeniLxjZFJoEa/0g90n36hH+k3+vNYrdRo6Fy28e/mXB45Iy+uLvw4keXjX8F6nzUwZwUtmDK5Csw9Moiuwsv53eev9xfuztfSG/Qd3cP8d+gu/YQVBN0D7/0cn3+L6jWMPC6n39no+/Rha8ANplipb/yD9BRqtPBGdc+SQm0GPXn/YrQeFSc+QS5HRO90B8aQbZuYNp6jq82K/rYRH/+D/a8iM9UdVswxPaONfyfyqLE4UW/crk/M3alOPy6mdRiuwXW4iRM5CdPwEGahiXl9hj04gO+WsF5ar6w3eehQqeBcgUPL2vkF+F7n1g==</latexit> arg max yi 2Y P(yi |x) = ytrue <latexit sha1_base64="ZbBP4Q3BaQflGrb1VljfWPKj8NA=">AAADzHicnVI7b9RAEJ6LeSTHI5fQINFYnA4FhE57oSCKhBSJFGkIl4RLguLIWps9ZxW/tN473bG4TZE/QEEFEgXwM2goaSiOf4Aog0RDwezagEKUQ2It27PfzPftzM54acgzScioMmGdOXvu/ORU9cLFS5enazOzm1nSEz7r+EmYiG2PZizkMetILkO2nQpGIy9kW97+fe3f6jOR8SR+JIcp241oEPMu96lEyK0tO1QEER24auhy2+GxrZyIyj2fhvbjPLfbcxp/ZhvQ66pBftO+Zw9d5Ug2kEqKHstzt1YnTWKWfdJolUYdytVOZioL4MATSMCHHkTAIAaJdggUMnx2oAUEUsR2QSEm0OLGzyCHKnJ7GMUwgiK6j98AdzslGuNea2aG7eMpIb4CmTY0yCfyhhyRD+Qd+UJ+nKqljIbOZYh/r+Cy1J0+vLrx/Z+sCP8S9v6wxuYsoQsLJleOuacG0VX4Bb//9PnRxuJ6Q90gr8hXzP8lGZH3WEHc/+a/XmPrL1C9gZGn5fQrG32fEQzG3KDCSiPjH6cnUaOLN6p7lpVqy+gp+ifQelCe+BC5DBG90x24hWzHxAR4jq42L/sbIH77N/a/itRUd1yxwKo4o62/J/KksTnfbN1pzq+R+tJqOa2TcA2uwxxO5F1YghVoQwfzegsfYQSfrVVLWsrKi9CJSsm5AseWdfATTejdag==</latexit> adversarial example || x||p = n X i=1 |w⇤ i wi |p !1 p <latexit sha1_base64="g6A2mItfjSdNrgjoK95puijuhK0=">AAAD4HicnVJLaxRBEK7N+IjrIxu9CF4al5UYdOmJB4MQCJiDFzUPN1nIZIeesWe2ybyY6V0Te+YuXsSToCcFD+J/8OLFP+Ahdy8ieongxYM1D5UYskJ62enqr+r7uqqrrMgTiaR0pzamHTl67Pj4ifrJU6fPTDQmz64m4SC2eccOvTDuWizhngh4Rwrp8W4Uc+ZbHl+zNm/m/rUhjxMRBvfkdsQ3fOYGwhE2kwiZjW6aEmOBe5IRw2eybzlqK0tTU0UZmSOGxx05RYxk4PdUkJlKzOkZSR+YojdNrhLc015EjFi4fXm5pwwnZrbSMyRnZqNJ27RYZL+hV0YTqrUYTtZmwYD7EIINA/CBQwASbQ8YJPhbBx0oRIhtgEIsRksUfg4Z1JE7wCiOEQzRTfy6eFqv0ADPuWZSsG28xcN/jEwCLfqRvqG79AN9Sz/TnwdqqUIjz2Ubd6vk8siceHx+5cd/WT7uEvp/WSNzluDAbJGrwNyjAsmrsEv+8OGz3ZUbyy11ib6iXzD/l3SHvscKguF3+/USX36B6i2MPCin39nk7+nD1ogXVFipX/hH6UnUcPBF854lldoCesr+xWjdrm68i1yOSH7KOzCNbKOIcfGevNqs6q+L+JU/2GEVWVHdXsUSq+OM6v9O5H5jdaatX2vPLNHm/J1qWsfhAlyEKZzI6zAPt2AROpjXO/gEX+GbZmmPtCfa0zJ0rFZxzsGepT3/BTpx5Wc=</latexit> 置換する単語置換前の単語

Text classiﬁcation attack • 単語を置換する⽅針 • 微⼩なノイズにするために語彙、⽂法、意味の制約を満たす必要がある • スペルミスなどは spell
check で取り除ける • → 同義語 or 固有表現を置換する • 問題点 • 置換する単語の選択と置換する順序をどうするか • 提案⼿法 : Probability Weighted Word Saliency (PWWS) • 同義語と固有表現の選択と置換順序を決定する greedy アルゴリズム

Word substitution • 置換する単語を選択する • ある番⽬の単語を置き換えた⼊⼒ i 同義語や固有表現の集合置換後との分類確率の差
x = w1w2 . . . wi . . . wn x0 i = w1w2 . . . w0 i . . . wn <latexit sha1_base64="FdfWs6MS2cdPW6yV9jj34oi7Vro=">AAAD9HicnVNLa9RQFD5pfNTx0aluhG6CwxQRGW5GwSIIBV24Uftw2kJTQ5LemV6aF8mdsTXMH/APuNBNlS5E8E+4cS246E8oXVbQhQu/m8QZau0I3pDcc79zvu+ec8+NG/silYztaWP6qdNnzo6fq5y/cPHSRHXy8lIadROPt7zIj5IV10m5L0LekkL6fCVOuBO4Pl92N+8r/3KPJ6mIwqdyO+ZrgdMJRVt4jgRkV30rcOSG2862+sb0PeO5beJtGtZ6JFNYYmCFhmVVhsF2JvrPMitORMD/zhx6BxJ2tcYaLB/GccMsjRqVYy6a1GbIonWKyKMuBcQpJAnbJ4dSPKtkEqMY2BplwBJYIvdz6lMF3C6iOCIcoJv4drBaLdEQa6WZ5mwPu/h4EzANqrOv7D07ZJ/ZB7bPfp6oleUaKpdtzG7B5bE98fLq4vd/sgLMkjaGrJE5S2rTTJ6rQO5xjqgqvILfe/HqcPHuQj2bZm/ZAfLfYXvsEyoIe9+83Xm+8BrqdUSelNPvbNR5BrQ14gQzVBrk/lF6EhptnKjqWVqqPYCn6F8C61G54xNwORC1Uh24AbaVx3Swj6q2X/a3A/zmAPtfRSev7qhigVVwR80/b+RxY6nZMG81mvO3a7OPy9s6TlN0ja7jRt6hWXpIc9RCXl/oh6bhB+7pb/R3+m4ROqaVnCt0ZOgffwG9fuoO</latexit> w⇤ i = R(wi, L i) = arg max w0 i 2L i {P(ytrue |x) P(ytrue |x0 i )} <latexit sha1_base64="14CIWqEs/eAQmgjHzZZYvYhGg6w=">AAAEKHicnVLLbtNAFL2uoZTwaAobJDYWUVBShWjSqlAhIVWCBQseaUraSnWxbDNxR/VL40maMPUP8AMs2AASC+Az2LBkg1C27BDLIrFhwfUDSogaJMayfefcc87cOzNW6LJIEDJUptRjx6dPzJwsnDp95uxsce7cehR0uU3bduAGfNMyI+oyn7YFEy7dDDk1PculG9buzSS/0aM8YoH/QAxCuu2Zjs86zDYFQkbx+Z4hWfxQzsfaDa1V2TNYTdM9U+xYlrwTG6yKsG5yxzP7hsy5esiZR2NNZ/6fXMwhJrVmZWBIXdC+kIJ3KYL7Oa0j+3FVuzLO2D/MjyxR1WOjWCJ1kg5tPGjkQQny0QzmlGXQ4REEYEMXPKDgg8DYBRMifLagAQRCxLZBIsYxYmmeQgwF1HaRRZFhIrqLXwdnWznq4zzxjFK1jau4+HJUalAmH8lrckDek7fkC/lxpJdMPZJaBvi3Mi0NjdknF9a+/1Pl4V/AzqFqYs0COrCc1sqw9jBFki7sTN97/PRg7XqrLC+Tl+Qr1v+CDMk77MDvfbNfrdLWM3QvI/Oomn5Vk+ynB/0JOyixUy/NT/IT6NHBHU3OLMrdbmEmOz+O0d18xfuopYgks+QE5lGtpxwH10m6jfPzdRCv/cb+19FMuxt1zLAC3tHG3zdyPFhfqDcW6wurpLRyL7+tM3ARLkEFb+Q1WIHb0IQ22Mq0UlOWlKvqG/WD+kkdZtQpJdech5Ghfv4JAmgAyA==</latexit> x⇤ i = w1w2 . . . w⇤ i . . . wn <latexit sha1_base64="EnSiQgCjXqjWJvH68kUjcr/ypQM=">AAADvnicnVLLahRBFL2T9hHHRxLdCG4ahxEJMlSPkAQhMKALN2oeThLIxKG7Uz0p0i+6ayYTm/4Bf8CFbhRciH+hG0G3LvIJ4jKCGxeequ5RYsgIVlNdt86959S9dcuJfZFKxg4qE8ap02fOTp6rnr9w8dLU9MzltTTqJy5vu5EfJRuOnXJfhLwthfT5RpxwO3B8vu7s3lX+9QFPUhGFj+V+zLcCuxcKT7i2BNSdnusEttxxvGyYdzORP8lmc3PR3OtamE2zsx3JFNbIM9qDWGMNpod53LBKo0blWIpmKgvUoW2KyKU+BcQpJAnbJ5tSfJtkEaMY2BZlwBJYQvs55VQFt48ojggb6C7+Pew2SzTEXmmmmu3iFB8zAdOkOvvC3rJD9pG9Y1/ZzxO1Mq2hctnH6hRcHnennl1d/fFPVoBV0s4f1ticJXm0oHMVyD3WiKrCLfiDp88PV++s1LMb7DX7hvxfsQP2ARWEg+/um2W+8gLqdUSelNMoG3WfAQ3H3GCGSgPtH6cnoeHhRlXP0lLtHjxF/xJYD8oTH4HLgaid6sAs2B0d08M5qtq87G8P+K3f2P8q2rq6o4oFVsUbtf5+kceNtWbDut1oLrNa62H5WifpGl2nm3iR89Si+7REbeT1kt7TJ/pstAzPCIyoCJ2olJwrdGQYw1+DTNb/</latexit> を置換して得られたテキスト wi P⇤ i = P(ytrue |x) P(ytrue |x⇤ i ) <latexit sha1_base64="Z0XdnocnIP5PtCN1aqK9POtIRls=">AAAD5HicnVJNa9RQFL3T+FHHj051I7gJDiNt0eFNXVgEoWAXbtRp67SFpoYkvkwfzRfJm2HGmD8g7kRcCIKCC/Ff6MY/4KL/QHGlFdy48OQlVWrpFHwhyX3n3nPeve9eO/JEIhnbroxpR44eOz5+onry1OkzE7XJsytJ2Isd3nFCL4zXbCvhngh4Rwrp8bUo5pZve3zV3rqZ+1f7PE5EGNyTw4hv+FY3EK5wLAnIrBnGAvekpbfNVGT305lMv6G3p4Zmakg+kKmMezzL9Ee64Vty03bTQTatXzkkYldq2qzVWZOppe83WqVRp3K1w8nKHBn0gEJyqEc+cQpIwvbIogTPOrWIUQRsg1JgMSyh/JwyqoLbQxRHhAV0C98uduslGmCfayaK7eAUD28Mpk4N9om9ZTvsI3vHvrBfB2qlSiPPZYi/XXB5ZE48Pr/881CWj7+kzb+skTlLcmlO5SqQe6SQvAqn4PcfPt9Zvr7USC+x1+wr8n/FttkHVBD0fzhvFvnSC6g3EHlQTrvZ5Pfp02DEDaao1Ff+UXoSGi5uNO9ZUqotwFP0L4Z1uzzxLrgcSL7LOzADtqFiujgnrzYr+9sFfvkP9r+Klqpur2KBVTGjrX8ncr+xMttsXW3OLrL6/J1yWsfpAl2kKUzkNZqnW9SmDvJ6T5/pG33XXO2J9lR7VoSOVUrOOdqztJe/AdhG51I=</latexit>

Replacement order • ⼊⼒の各単語は、異なるレベルで最終的な出⼒確率に影響する • 置換順序を決定するアルゴリズムに word saliency を考慮する •
word saliency : OOV の場合の分類器の出⼒確率の変化の程度 • 置換する単語の優先度 : に置換した場合のとの番⽬の値の積 w* i ΔP* i S(x) i S(x, wi) = P(ytrue |x) P(ytrue | ˆ xi) <latexit sha1_base64="F1DEKh/fEAa9P5CscDvUqUV50Os=">AAAD5nicnVLNbtNAEJ7U/LThp2m5VOJiEQUlqESbcmiFhFSpHLgAaUPaSnWxbLNJVvWf7E1IuvULcOCGeuACSBwQjwEHXoBDHwE4phIXDsyuDVGJGqSuZXv2m/m+ndkZO3RZzAk5yk1p585fuDg9k790+crV2cLc/GYcdCOHNp3ADaJt24qpy3za5Iy7dDuMqOXZLt2y99akf6tHo5gF/hM+COmuZ7V91mKOxREyC08bZcOzeMduiX6yqD83WUW/p9fLA1MYnPa54FGXJsnBKKii3x736we60bG4GIWZgiVJxSwUSZWopY8btcwoQrbqwVxuBQx4BgE40AUPKPjA0XbBghifHagBgRCxXRCIRWgx5aeQQB65XYyiGGEhuoffNu52MtTHvdSMFdvBU1x8I2TqUCJfyQcyJF/IR/KN/DpVSygNmcsA/3bKpaE5+2Kh8fO/LA//HDoj1sScObRgReXKMPdQIbIKJ+X39g+HjbsbJXGTvCM/MP+35Ih8wgr83rHzfp1uvEb1EkaeltOfbOR9etCfcIMCK/WUf5IeR40W3qjsWZyp3UdP2r8IrYfZiY+RSxGRO9mBW8g2VEwbz5HVJll/24gv/sXOqmip6k4qplgeZ7T270SOG5tL1dqd6tI6Ka4+yqZ1Gq7DDSjjRC7DKjyAOjQxr8/wHYZwrHW0l9or7TANncplnGtwYmlvfgN33eiu</latexit> i 番⽬の単語を OOV に置換した⼊⼒ word saliency H(x, x⇤ i , wi) = (S(x))i · P ⇤ i <latexit sha1_base64="wpXT+ps4vCFkXchRNyLglvI4k7Y=">AAAD5nicnVJLTxNRFD5lfGB9UHRj4mZiU0MJaW7RRGJiQiILNmihFkgYmMwMt+0N88rMbQUn8wdcuDMs3KCJC+PP0IV/wAU/QV2WxI0Lv3kAIqEm3MnMnPud8333nHuO6dsilIztF0aUCxcvXR69Urx67fqNsdL4zeXQ6wUWb1me7QWrphFyW7i8JYW0+aofcMMxbb5ibj1J/Ct9HoTCc5/LHZ+vO0bHFW1hGRKQXtqYn9AcQ3bNdrQdT6nHth6JeCOaBPZCF1X1sar5XXEU24z/olWrulA1a9OTqjbHbWmojUO2XiqzGkuXetqo50aZ8tXwxgszpNEmeWRRjxzi5JKEbZNBIZ41qhMjH9g6RcACWCL1c4qpCG4PURwRBtAtfDvYreWoi32iGaZsC6fYeAMwVaqwb+wjG7Cv7BP7zn6fqRWlGkkuO/ibGZf7+tir281f/2U5+EvqHrOG5iypTTNprgK5+ymSVGFl/P7L3UHz0VIlusfes5/I/x3bZ59Rgds/sD4s8qW3UK8g8qycDrNJ7tOh7SE3GKFSJ/UP05PQaONGk56FudocPFn/AlgL+YnPwOVAkl3SgUmwtTSmg3OSauO8vx3gU0fYeRWNtLqTihlWxIzW/53I08bydK1+vza9+KA8+zSf1lG6Q3dpAhP5kGZpnhrUQl5f6AcN6EDpKq+VN8puFjpSyDm36MRS9v4AISfnBQ==</latexit> softmax 関数⼊⼒の各単語の word saliency vector wi 提案⼿法のメイン部分

algorithm • ⼊⼒に含まれる各単語について PWWS でスコアを求める • スコアを降順にソート
• 分類器の出⼒するラベルが変わるまで greedy に繰り返す x wi H(x, x* i , wi ) F

Empirical evaluation • データセット : IMDB, AG’s News, Yahoo! Answers
• モデル • Word-base CNN (すべてのデータセットで実験) • Bi-directional LSTM (IMDB), Char-based CNN (AG’s News), LSTM (Yahoo! Answers) • 攻撃⼿法の⽐較 • Random, Gradient, Traversing in word order (TiWO), Word Saliency (WS) w⇤ i = R(wi, L i) = arg max w0 i 2L i {P(ytrue |x) P(ytrue |x0 i )} <latexit sha1_base64="14CIWqEs/eAQmgjHzZZYvYhGg6w=">AAAEKHicnVLLbtNAFL2uoZTwaAobJDYWUVBShWjSqlAhIVWCBQseaUraSnWxbDNxR/VL40maMPUP8AMs2AASC+Az2LBkg1C27BDLIrFhwfUDSogaJMayfefcc87cOzNW6LJIEDJUptRjx6dPzJwsnDp95uxsce7cehR0uU3bduAGfNMyI+oyn7YFEy7dDDk1PculG9buzSS/0aM8YoH/QAxCuu2Zjs86zDYFQkbx+Z4hWfxQzsfaDa1V2TNYTdM9U+xYlrwTG6yKsG5yxzP7hsy5esiZR2NNZ/6fXMwhJrVmZWBIXdC+kIJ3KYL7Oa0j+3FVuzLO2D/MjyxR1WOjWCJ1kg5tPGjkQQny0QzmlGXQ4REEYEMXPKDgg8DYBRMifLagAQRCxLZBIsYxYmmeQgwF1HaRRZFhIrqLXwdnWznq4zzxjFK1jau4+HJUalAmH8lrckDek7fkC/lxpJdMPZJaBvi3Mi0NjdknF9a+/1Pl4V/AzqFqYs0COrCc1sqw9jBFki7sTN97/PRg7XqrLC+Tl+Qr1v+CDMk77MDvfbNfrdLWM3QvI/Oomn5Vk+ynB/0JOyixUy/NT/IT6NHBHU3OLMrdbmEmOz+O0d18xfuopYgks+QE5lGtpxwH10m6jfPzdRCv/cb+19FMuxt1zLAC3tHG3zdyPFhfqDcW6wurpLRyL7+tM3ARLkEFb+Q1WIHb0IQ22Mq0UlOWlKvqG/WD+kkdZtQpJdech5Ghfv4JAmgAyA==</latexit> S(x, wi) = P(ytrue |x) P(ytrue | ˆ xi) <latexit sha1_base64="F1DEKh/fEAa9P5CscDvUqUV50Os=">AAAD5nicnVLNbtNAEJ7U/LThp2m5VOJiEQUlqESbcmiFhFSpHLgAaUPaSnWxbLNJVvWf7E1IuvULcOCGeuACSBwQjwEHXoBDHwE4phIXDsyuDVGJGqSuZXv2m/m+ndkZO3RZzAk5yk1p585fuDg9k790+crV2cLc/GYcdCOHNp3ADaJt24qpy3za5Iy7dDuMqOXZLt2y99akf6tHo5gF/hM+COmuZ7V91mKOxREyC08bZcOzeMduiX6yqD83WUW/p9fLA1MYnPa54FGXJsnBKKii3x736we60bG4GIWZgiVJxSwUSZWopY8btcwoQrbqwVxuBQx4BgE40AUPKPjA0XbBghifHagBgRCxXRCIRWgx5aeQQB65XYyiGGEhuoffNu52MtTHvdSMFdvBU1x8I2TqUCJfyQcyJF/IR/KN/DpVSygNmcsA/3bKpaE5+2Kh8fO/LA//HDoj1sScObRgReXKMPdQIbIKJ+X39g+HjbsbJXGTvCM/MP+35Ih8wgr83rHzfp1uvEb1EkaeltOfbOR9etCfcIMCK/WUf5IeR40W3qjsWZyp3UdP2r8IrYfZiY+RSxGRO9mBW8g2VEwbz5HVJll/24gv/sXOqmip6k4qplgeZ7T270SOG5tL1dqd6tI6Ka4+yqZ1Gq7DDSjjRC7DKjyAOjQxr8/wHYZwrHW0l9or7TANncplnGtwYmlvfgN33eiu</latexit>

Attacking results 正解率が最も低い単語置換率が低い IMDB はそもそもノイズに弱い

• IMDB, Bi-directional LSTM model (pos/neg 分類) の例 • AG’s
News with char-based CNN model (4 クラス分類) の例 Adversarial example instances funny (original) を laughable (adversarial) に置き換えた例 publishing (original) を publication (adversarial) に置き換えた例

Human evaluation • データセット : IMDB, AG’s News を使⽤ •
6 workers on Amazon Mechanical Turk 機械に変更が加えられている可能性を 1~5 段階で評価⼈⼿の正解率モデルの正解率

Conclusion • テキスト分類タスクでの敵対的サンプルを⽣成するための⼿法を提案 • word saliency を分類確率で重み付け • 単語を置換する順序を word
saliency で決定 • ⼩さいノイズで正解率を下げられる • ⼈⼿評価で気づかれにくいようなノイズであることを⽰した?

Ren et al. - ACL2019 - Generating Natural Langu...

Ren et al. - ACL2019 - Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency

wkwkgg

More Decks by wkwkgg

Other Decks in Science

Featured

Transcript

Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency

Abstract • テキスト分類タスクで、敵対的攻撃のための⼿法を提案 • 3 つのデータセットを使って実験した • 低い単語置換率を維持し、提案⼿法が分類正解率を低下させることを⽰した •

Previous work • 画像分類タスクからの⼿法 (FGSM) などは white-box 攻撃 • Yang

Text adversarial examples • テキスト分類 : ⼊⼒テキストからラベルを出⼒ (事後確率を最⼤化) • 分類器への攻撃

Text classiﬁcation attack • 単語を置換する⽅針 • 微⼩なノイズにするために語彙、⽂法、意味の制約を満たす必要がある • スペルミスなどは spell

Word substitution • 置換する単語を選択する • ある番⽬の単語を置き換えた⼊⼒ i 同義語や固有表現の集合置換後との分類確率の差

Replacement order • ⼊⼒の各単語は、異なるレベルで最終的な出⼒確率に影響する • 置換順序を決定するアルゴリズムに word saliency を考慮する •

algorithm • ⼊⼒に含まれる各単語について PWWS でスコアを求める • スコアを降順にソート

Empirical evaluation • データセット : IMDB, AG’s News, Yahoo! Answers

Attacking results 正解率が最も低い単語置換率が低い IMDB はそもそもノイズに弱い

• IMDB, Bi-directional LSTM model (pos/neg 分類) の例 • AG’s

Human evaluation • データセット : IMDB, AG’s News を使⽤ •

Conclusion • テキスト分類タスクでの敵対的サンプルを⽣成するための⼿法を提案 • word saliency を分類確率で重み付け • 単語を置換する順序を word