Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ren et al. - ACL2019 - Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency

wkwkgg
October 28, 2019

Ren et al. - ACL2019 - Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency

wkwkgg

October 28, 2019
Tweet

More Decks by wkwkgg

Other Decks in Science

Transcript

  1. Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency

    Shuhuai Ren, Yihe Deng, Kun He, Wanxiang Che ACL 2019 2019/10/28 ACL 論⽂読み会 紹介者 : B4 ⾼橋 悠進
  2. Previous work • 画像分類タスクからの⼿法 (FGSM) などは white-box 攻撃 • Yang

    et al. (2018) : a perturbation-based method • 5 単語以下の置換数で分類正解率を 5% 以下にした • セマンティクスが維持されていない • 対義語が敵対的サンプルとして出現していることが確認される • Gao et al. (2018) : DeepWordBug • ⽂字レベルの black-box 攻撃, スペルにノイズを⼊れる • spell check である程度制御できてしまう
  3. Text adversarial examples • テキスト分類 : ⼊⼒テキストからラベルを出⼒ (事後確率を最⼤化) • 分類器への攻撃

    arg max yi 2Y P(yi |x⇤) 6= ytrue <latexit sha1_base64="6+0wT0os0g+E8el+pOVXDnVz64s=">AAAD1nicnVK9axRBFH+X9SOeH7loI9gMHicxyDEXC4MgBLSwMV4SLznJxmV2ndsM2S9m544717UTwcrOwkrBQmz9D2z8Byxiq41YRrCx8M3sqsSQCzjL7r75vff7zXvznpsEIlWUblcmrEOHjxydPFY9fuLkqana9OnVNO5Lj3e8OIhl12UpD0TEO0qogHcTyVnoBnzN3bqu/WsDLlMRR3fUKOEbIfMj0RMeUwg5tUWbST9kQycbOZnIiS0iktkhU5seC8jdPCftmZEjyENiQLeXDfN7sxeJHcWKXCNIshUfqkzJPs/zqlOr0yY1i+w1WqVRh3K14+nKPNhwH2LwoA8hcIhAoR0AgxSfdWgBhQSxDcgQk2gJ4+eQQxW5fYziGMEQ3cKvj7v1Eo1wrzVTw/bwlABfiUwCDfqRvqE79AN9S7/Sn/tqZUZD5zLCv1tweeJMPT278uNAVoh/BZt/WWNzVtCDeZOrwNwTg+gqvII/ePB8Z+XqciO7QF/Rb5j/S7pN32MF0eC793qJL79A9QZG7pfT72z0fYYwHHODGVYaGv84PYUaPbxR3bO0VLuBnqJ/Eq1b5Ym3kcsR0TvdgVlk2ybGx3N0tXnZXx/xS3+w/1VkprrdigWmZ7T170TuNVbnmq3LzbklWl9YLKd1Es7BeZjBibwCC3AT2tDBvN7BJ/gMX6yu9ch6bD0pQicqJecM7FrWs19m1eEl</latexit> x⇤ = x + x, || x||p < ✏ <latexit sha1_base64="GHDEpDxuLVKCVxGwFKjuuAhOX5k=">AAAD53icnVJLaxRBEK7N+IjrIxu9CF4alxWJYemNQoIoBMzBi5qHmwQyceiZ9G6a9Dwy07skzs4f8OJNBU8RPIg/QwT/gIf8BMkxES8erO4ZXWPIBuxhZqq/qu/rqq5yIykSReluacg6dfrM2eFz5fMXLl4aqYxeXkzCTuzxphfKMF52WcKlCHhTCSX5chRz5ruSL7kbD7R/qcvjRITBU7Ud8VWftQPREh5TCDkVx/aZWndb6Vb2LB3LyH3SB8gtYs9wqVgfGif2ZoetkV6vcP0V3us5aZSRe8TmUSJkGBDbLjuVKq1Ts8hRo1EYVSjWbDhamgIb1iAEDzrgA4cAFNoSGCT4rEADKESIrUKKWIyWMH4OGZSR28EojhEM0Q38tnG3UqAB7rVmYtgeniLxjZFJoEa/0g90n36hH+k3+vNYrdRo6Fy28e/mXB45Iy+uLvw4keXjX8F6nzUwZwUtmDK5Csw9Moiuwsv53eev9xfuztfSG/Qd3cP8d+gu/YQVBN0D7/0cn3+L6jWMPC6n39no+/Rha8ANplipb/yD9BRqtPBGdc+SQm0GPXn/YrQeFSc+QS5HRO90B8aQbZuYNp6jq82K/rYRH/+D/a8iM9UdVswxPaONfyfyqLE4UW/crk/M3alOPy6mdRiuwXW4iRM5CdPwEGahiXl9hj04gO+WsF5ar6w3eehQqeBcgUPL2vkF+F7n1g==</latexit> arg max yi 2Y P(yi |x) = ytrue <latexit sha1_base64="ZbBP4Q3BaQflGrb1VljfWPKj8NA=">AAADzHicnVI7b9RAEJ6LeSTHI5fQINFYnA4FhE57oSCKhBSJFGkIl4RLguLIWps9ZxW/tN473bG4TZE/QEEFEgXwM2goaSiOf4Aog0RDwezagEKUQ2It27PfzPftzM54acgzScioMmGdOXvu/ORU9cLFS5enazOzm1nSEz7r+EmYiG2PZizkMetILkO2nQpGIy9kW97+fe3f6jOR8SR+JIcp241oEPMu96lEyK0tO1QEER24auhy2+GxrZyIyj2fhvbjPLfbcxp/ZhvQ66pBftO+Zw9d5Ug2kEqKHstzt1YnTWKWfdJolUYdytVOZioL4MATSMCHHkTAIAaJdggUMnx2oAUEUsR2QSEm0OLGzyCHKnJ7GMUwgiK6j98AdzslGuNea2aG7eMpIb4CmTY0yCfyhhyRD+Qd+UJ+nKqljIbOZYh/r+Cy1J0+vLrx/Z+sCP8S9v6wxuYsoQsLJleOuacG0VX4Bb//9PnRxuJ6Q90gr8hXzP8lGZH3WEHc/+a/XmPrL1C9gZGn5fQrG32fEQzG3KDCSiPjH6cnUaOLN6p7lpVqy+gp+ifQelCe+BC5DBG90x24hWzHxAR4jq42L/sbIH77N/a/itRUd1yxwKo4o62/J/KksTnfbN1pzq+R+tJqOa2TcA2uwxxO5F1YghVoQwfzegsfYQSfrVVLWsrKi9CJSsm5AseWdfATTejdag==</latexit> adversarial example || x||p = n X i=1 |w⇤ i wi |p !1 p <latexit sha1_base64="g6A2mItfjSdNrgjoK95puijuhK0=">AAAD4HicnVJLaxRBEK7N+IjrIxu9CF4al5UYdOmJB4MQCJiDFzUPN1nIZIeesWe2ybyY6V0Te+YuXsSToCcFD+J/8OLFP+Ahdy8ieongxYM1D5UYskJ62enqr+r7uqqrrMgTiaR0pzamHTl67Pj4ifrJU6fPTDQmz64m4SC2eccOvTDuWizhngh4Rwrp8W4Uc+ZbHl+zNm/m/rUhjxMRBvfkdsQ3fOYGwhE2kwiZjW6aEmOBe5IRw2eybzlqK0tTU0UZmSOGxx05RYxk4PdUkJlKzOkZSR+YojdNrhLc015EjFi4fXm5pwwnZrbSMyRnZqNJ27RYZL+hV0YTqrUYTtZmwYD7EIINA/CBQwASbQ8YJPhbBx0oRIhtgEIsRksUfg4Z1JE7wCiOEQzRTfy6eFqv0ADPuWZSsG28xcN/jEwCLfqRvqG79AN9Sz/TnwdqqUIjz2Ubd6vk8siceHx+5cd/WT7uEvp/WSNzluDAbJGrwNyjAsmrsEv+8OGz3ZUbyy11ib6iXzD/l3SHvscKguF3+/USX36B6i2MPCin39nk7+nD1ogXVFipX/hH6UnUcPBF854lldoCesr+xWjdrm68i1yOSH7KOzCNbKOIcfGevNqs6q+L+JU/2GEVWVHdXsUSq+OM6v9O5H5jdaatX2vPLNHm/J1qWsfhAlyEKZzI6zAPt2AROpjXO/gEX+GbZmmPtCfa0zJ0rFZxzsGepT3/BTpx5Wc=</latexit> 置換する単語 置換前の単語
  4. Text classification attack • 単語を置換する⽅針 • 微⼩なノイズにするために語彙、⽂法、意味の制約を満たす必要がある • スペルミスなどは spell

    check で取り除ける • → 同義語 or 固有表現を置換する • 問題点 • 置換する単語の選択と置換する順序をどうするか • 提案⼿法 : Probability Weighted Word Saliency (PWWS) • 同義語と固有表現の選択と置換順序を決定する greedy アルゴリズム
  5. Word substitution • 置換する単語を選択する • ある 番⽬の単語を置き換えた⼊⼒ i 同義語や固有表現の集合 置換後との分類確率の差

    x = w1w2 . . . wi . . . wn x0 i = w1w2 . . . w0 i . . . wn <latexit sha1_base64="FdfWs6MS2cdPW6yV9jj34oi7Vro=">AAAD9HicnVNLa9RQFD5pfNTx0aluhG6CwxQRGW5GwSIIBV24Uftw2kJTQ5LemV6aF8mdsTXMH/APuNBNlS5E8E+4cS246E8oXVbQhQu/m8QZau0I3pDcc79zvu+ec8+NG/silYztaWP6qdNnzo6fq5y/cPHSRHXy8lIadROPt7zIj5IV10m5L0LekkL6fCVOuBO4Pl92N+8r/3KPJ6mIwqdyO+ZrgdMJRVt4jgRkV30rcOSG2862+sb0PeO5beJtGtZ6JFNYYmCFhmVVhsF2JvrPMitORMD/zhx6BxJ2tcYaLB/GccMsjRqVYy6a1GbIonWKyKMuBcQpJAnbJ4dSPKtkEqMY2BplwBJYIvdz6lMF3C6iOCIcoJv4drBaLdEQa6WZ5mwPu/h4EzANqrOv7D07ZJ/ZB7bPfp6oleUaKpdtzG7B5bE98fLq4vd/sgLMkjaGrJE5S2rTTJ6rQO5xjqgqvILfe/HqcPHuQj2bZm/ZAfLfYXvsEyoIe9+83Xm+8BrqdUSelNPvbNR5BrQ14gQzVBrk/lF6EhptnKjqWVqqPYCn6F8C61G54xNwORC1Uh24AbaVx3Swj6q2X/a3A/zmAPtfRSev7qhigVVwR80/b+RxY6nZMG81mvO3a7OPy9s6TlN0ja7jRt6hWXpIc9RCXl/oh6bhB+7pb/R3+m4ROqaVnCt0ZOgffwG9fuoO</latexit> w⇤ i = R(wi, L i) = arg max w0 i 2L i {P(ytrue |x) P(ytrue |x0 i )} <latexit sha1_base64="14CIWqEs/eAQmgjHzZZYvYhGg6w=">AAAEKHicnVLLbtNAFL2uoZTwaAobJDYWUVBShWjSqlAhIVWCBQseaUraSnWxbDNxR/VL40maMPUP8AMs2AASC+Az2LBkg1C27BDLIrFhwfUDSogaJMayfefcc87cOzNW6LJIEDJUptRjx6dPzJwsnDp95uxsce7cehR0uU3bduAGfNMyI+oyn7YFEy7dDDk1PculG9buzSS/0aM8YoH/QAxCuu2Zjs86zDYFQkbx+Z4hWfxQzsfaDa1V2TNYTdM9U+xYlrwTG6yKsG5yxzP7hsy5esiZR2NNZ/6fXMwhJrVmZWBIXdC+kIJ3KYL7Oa0j+3FVuzLO2D/MjyxR1WOjWCJ1kg5tPGjkQQny0QzmlGXQ4REEYEMXPKDgg8DYBRMifLagAQRCxLZBIsYxYmmeQgwF1HaRRZFhIrqLXwdnWznq4zzxjFK1jau4+HJUalAmH8lrckDek7fkC/lxpJdMPZJaBvi3Mi0NjdknF9a+/1Pl4V/AzqFqYs0COrCc1sqw9jBFki7sTN97/PRg7XqrLC+Tl+Qr1v+CDMk77MDvfbNfrdLWM3QvI/Oomn5Vk+ynB/0JOyixUy/NT/IT6NHBHU3OLMrdbmEmOz+O0d18xfuopYgks+QE5lGtpxwH10m6jfPzdRCv/cb+19FMuxt1zLAC3tHG3zdyPFhfqDcW6wurpLRyL7+tM3ARLkEFb+Q1WIHb0IQ22Mq0UlOWlKvqG/WD+kkdZtQpJdech5Ghfv4JAmgAyA==</latexit> x⇤ i = w1w2 . . . w⇤ i . . . wn <latexit sha1_base64="EnSiQgCjXqjWJvH68kUjcr/ypQM=">AAADvnicnVLLahRBFL2T9hHHRxLdCG4ahxEJMlSPkAQhMKALN2oeThLIxKG7Uz0p0i+6ayYTm/4Bf8CFbhRciH+hG0G3LvIJ4jKCGxeequ5RYsgIVlNdt86959S9dcuJfZFKxg4qE8ap02fOTp6rnr9w8dLU9MzltTTqJy5vu5EfJRuOnXJfhLwthfT5RpxwO3B8vu7s3lX+9QFPUhGFj+V+zLcCuxcKT7i2BNSdnusEttxxvGyYdzORP8lmc3PR3OtamE2zsx3JFNbIM9qDWGMNpod53LBKo0blWIpmKgvUoW2KyKU+BcQpJAnbJ5tSfJtkEaMY2BZlwBJYQvs55VQFt48ojggb6C7+Pew2SzTEXmmmmu3iFB8zAdOkOvvC3rJD9pG9Y1/ZzxO1Mq2hctnH6hRcHnennl1d/fFPVoBV0s4f1ticJXm0oHMVyD3WiKrCLfiDp88PV++s1LMb7DX7hvxfsQP2ARWEg+/um2W+8gLqdUSelNMoG3WfAQ3H3GCGSgPtH6cnoeHhRlXP0lLtHjxF/xJYD8oTH4HLgaid6sAs2B0d08M5qtq87G8P+K3f2P8q2rq6o4oFVsUbtf5+kceNtWbDut1oLrNa62H5WifpGl2nm3iR89Si+7REbeT1kt7TJ/pstAzPCIyoCJ2olJwrdGQYw1+DTNb/</latexit> を置換して得られたテキスト wi P⇤ i = P(ytrue |x) P(ytrue |x⇤ i ) <latexit sha1_base64="Z0XdnocnIP5PtCN1aqK9POtIRls=">AAAD5HicnVJNa9RQFL3T+FHHj051I7gJDiNt0eFNXVgEoWAXbtRp67SFpoYkvkwfzRfJm2HGmD8g7kRcCIKCC/Ff6MY/4KL/QHGlFdy48OQlVWrpFHwhyX3n3nPeve9eO/JEIhnbroxpR44eOz5+onry1OkzE7XJsytJ2Isd3nFCL4zXbCvhngh4Rwrp8bUo5pZve3zV3rqZ+1f7PE5EGNyTw4hv+FY3EK5wLAnIrBnGAvekpbfNVGT305lMv6G3p4Zmakg+kKmMezzL9Ee64Vty03bTQTatXzkkYldq2qzVWZOppe83WqVRp3K1w8nKHBn0gEJyqEc+cQpIwvbIogTPOrWIUQRsg1JgMSyh/JwyqoLbQxRHhAV0C98uduslGmCfayaK7eAUD28Mpk4N9om9ZTvsI3vHvrBfB2qlSiPPZYi/XXB5ZE48Pr/881CWj7+kzb+skTlLcmlO5SqQe6SQvAqn4PcfPt9Zvr7USC+x1+wr8n/FttkHVBD0fzhvFvnSC6g3EHlQTrvZ5Pfp02DEDaao1Ff+UXoSGi5uNO9ZUqotwFP0L4Z1uzzxLrgcSL7LOzADtqFiujgnrzYr+9sFfvkP9r+Klqpur2KBVTGjrX8ncr+xMttsXW3OLrL6/J1yWsfpAl2kKUzkNZqnW9SmDvJ6T5/pG33XXO2J9lR7VoSOVUrOOdqztJe/AdhG51I=</latexit>
  6. Replacement order • ⼊⼒の各単語は、異なるレベルで最終的な出⼒確率に影響する • 置換順序を決定するアルゴリズムに word saliency を考慮する •

    word saliency : OOV の場合の分類器の出⼒確率の変化の程度 • 置換する単語の優先度 : に置換した場合の と の 番⽬の値の積 w* i ΔP* i S(x) i S(x, wi) = P(ytrue |x) P(ytrue | ˆ xi) <latexit sha1_base64="F1DEKh/fEAa9P5CscDvUqUV50Os=">AAAD5nicnVLNbtNAEJ7U/LThp2m5VOJiEQUlqESbcmiFhFSpHLgAaUPaSnWxbLNJVvWf7E1IuvULcOCGeuACSBwQjwEHXoBDHwE4phIXDsyuDVGJGqSuZXv2m/m+ndkZO3RZzAk5yk1p585fuDg9k790+crV2cLc/GYcdCOHNp3ADaJt24qpy3za5Iy7dDuMqOXZLt2y99akf6tHo5gF/hM+COmuZ7V91mKOxREyC08bZcOzeMduiX6yqD83WUW/p9fLA1MYnPa54FGXJsnBKKii3x736we60bG4GIWZgiVJxSwUSZWopY8btcwoQrbqwVxuBQx4BgE40AUPKPjA0XbBghifHagBgRCxXRCIRWgx5aeQQB65XYyiGGEhuoffNu52MtTHvdSMFdvBU1x8I2TqUCJfyQcyJF/IR/KN/DpVSygNmcsA/3bKpaE5+2Kh8fO/LA//HDoj1sScObRgReXKMPdQIbIKJ+X39g+HjbsbJXGTvCM/MP+35Ih8wgr83rHzfp1uvEb1EkaeltOfbOR9etCfcIMCK/WUf5IeR40W3qjsWZyp3UdP2r8IrYfZiY+RSxGRO9mBW8g2VEwbz5HVJll/24gv/sXOqmip6k4qplgeZ7T270SOG5tL1dqd6tI6Ka4+yqZ1Gq7DDSjjRC7DKjyAOjQxr8/wHYZwrHW0l9or7TANncplnGtwYmlvfgN33eiu</latexit> i 番⽬の単語を OOV に置換した⼊⼒ word saliency H(x, x⇤ i , wi) = (S(x))i · P ⇤ i <latexit sha1_base64="wpXT+ps4vCFkXchRNyLglvI4k7Y=">AAAD5nicnVJLTxNRFD5lfGB9UHRj4mZiU0MJaW7RRGJiQiILNmihFkgYmMwMt+0N88rMbQUn8wdcuDMs3KCJC+PP0IV/wAU/QV2WxI0Lv3kAIqEm3MnMnPud8333nHuO6dsilIztF0aUCxcvXR69Urx67fqNsdL4zeXQ6wUWb1me7QWrphFyW7i8JYW0+aofcMMxbb5ibj1J/Ct9HoTCc5/LHZ+vO0bHFW1hGRKQXtqYn9AcQ3bNdrQdT6nHth6JeCOaBPZCF1X1sar5XXEU24z/olWrulA1a9OTqjbHbWmojUO2XiqzGkuXetqo50aZ8tXwxgszpNEmeWRRjxzi5JKEbZNBIZ41qhMjH9g6RcACWCL1c4qpCG4PURwRBtAtfDvYreWoi32iGaZsC6fYeAMwVaqwb+wjG7Cv7BP7zn6fqRWlGkkuO/ibGZf7+tir281f/2U5+EvqHrOG5iypTTNprgK5+ymSVGFl/P7L3UHz0VIlusfes5/I/x3bZ59Rgds/sD4s8qW3UK8g8qycDrNJ7tOh7SE3GKFSJ/UP05PQaONGk56FudocPFn/AlgL+YnPwOVAkl3SgUmwtTSmg3OSauO8vx3gU0fYeRWNtLqTihlWxIzW/53I08bydK1+vza9+KA8+zSf1lG6Q3dpAhP5kGZpnhrUQl5f6AcN6EDpKq+VN8puFjpSyDm36MRS9v4AISfnBQ==</latexit> softmax 関数 ⼊⼒の各単語 の word saliency vector wi 提案⼿法のメイン部分
  7. algorithm • ⼊⼒ に含まれる各単語 について PWWS でスコアを求める • スコア を降順にソート

    • 分類器 の出⼒するラベルが変わるまで greedy に繰り返す x wi H(x, x* i , wi ) F
  8. Empirical evaluation • データセット : IMDB, AG’s News, Yahoo! Answers

    • モデル • Word-base CNN (すべてのデータセットで実験) • Bi-directional LSTM (IMDB), Char-based CNN (AG’s News), LSTM (Yahoo! Answers) • 攻撃⼿法の⽐較 • Random, Gradient, Traversing in word order (TiWO), Word Saliency (WS) w⇤ i = R(wi, L i) = arg max w0 i 2L i {P(ytrue |x) P(ytrue |x0 i )} <latexit sha1_base64="14CIWqEs/eAQmgjHzZZYvYhGg6w=">AAAEKHicnVLLbtNAFL2uoZTwaAobJDYWUVBShWjSqlAhIVWCBQseaUraSnWxbDNxR/VL40maMPUP8AMs2AASC+Az2LBkg1C27BDLIrFhwfUDSogaJMayfefcc87cOzNW6LJIEDJUptRjx6dPzJwsnDp95uxsce7cehR0uU3bduAGfNMyI+oyn7YFEy7dDDk1PculG9buzSS/0aM8YoH/QAxCuu2Zjs86zDYFQkbx+Z4hWfxQzsfaDa1V2TNYTdM9U+xYlrwTG6yKsG5yxzP7hsy5esiZR2NNZ/6fXMwhJrVmZWBIXdC+kIJ3KYL7Oa0j+3FVuzLO2D/MjyxR1WOjWCJ1kg5tPGjkQQny0QzmlGXQ4REEYEMXPKDgg8DYBRMifLagAQRCxLZBIsYxYmmeQgwF1HaRRZFhIrqLXwdnWznq4zzxjFK1jau4+HJUalAmH8lrckDek7fkC/lxpJdMPZJaBvi3Mi0NjdknF9a+/1Pl4V/AzqFqYs0COrCc1sqw9jBFki7sTN97/PRg7XqrLC+Tl+Qr1v+CDMk77MDvfbNfrdLWM3QvI/Oomn5Vk+ynB/0JOyixUy/NT/IT6NHBHU3OLMrdbmEmOz+O0d18xfuopYgks+QE5lGtpxwH10m6jfPzdRCv/cb+19FMuxt1zLAC3tHG3zdyPFhfqDcW6wurpLRyL7+tM3ARLkEFb+Q1WIHb0IQ22Mq0UlOWlKvqG/WD+kkdZtQpJdech5Ghfv4JAmgAyA==</latexit> S(x, wi) = P(ytrue |x) P(ytrue | ˆ xi) <latexit sha1_base64="F1DEKh/fEAa9P5CscDvUqUV50Os=">AAAD5nicnVLNbtNAEJ7U/LThp2m5VOJiEQUlqESbcmiFhFSpHLgAaUPaSnWxbLNJVvWf7E1IuvULcOCGeuACSBwQjwEHXoBDHwE4phIXDsyuDVGJGqSuZXv2m/m+ndkZO3RZzAk5yk1p585fuDg9k790+crV2cLc/GYcdCOHNp3ADaJt24qpy3za5Iy7dDuMqOXZLt2y99akf6tHo5gF/hM+COmuZ7V91mKOxREyC08bZcOzeMduiX6yqD83WUW/p9fLA1MYnPa54FGXJsnBKKii3x736we60bG4GIWZgiVJxSwUSZWopY8btcwoQrbqwVxuBQx4BgE40AUPKPjA0XbBghifHagBgRCxXRCIRWgx5aeQQB65XYyiGGEhuoffNu52MtTHvdSMFdvBU1x8I2TqUCJfyQcyJF/IR/KN/DpVSygNmcsA/3bKpaE5+2Kh8fO/LA//HDoj1sScObRgReXKMPdQIbIKJ+X39g+HjbsbJXGTvCM/MP+35Ih8wgr83rHzfp1uvEb1EkaeltOfbOR9etCfcIMCK/WUf5IeR40W3qjsWZyp3UdP2r8IrYfZiY+RSxGRO9mBW8g2VEwbz5HVJll/24gv/sXOqmip6k4qplgeZ7T270SOG5tL1dqd6tI6Ka4+yqZ1Gq7DDSjjRC7DKjyAOjQxr8/wHYZwrHW0l9or7TANncplnGtwYmlvfgN33eiu</latexit>
  9. • IMDB, Bi-directional LSTM model (pos/neg 分類) の例 • AG’s

    News with char-based CNN model (4 クラス分類) の例 Adversarial example instances funny (original) を laughable (adversarial) に置き換えた例 publishing (original) を publication (adversarial) に置き換えた例
  10. Human evaluation • データセット : IMDB, AG’s News を使⽤ •

    6 workers on Amazon Mechanical Turk 機械に変更が加えられている可能性を 1~5 段階で評価 ⼈⼿の正解率 モデルの正解率
  11. Conclusion • テキスト分類タスクでの敵対的サンプルを⽣成するための⼿法を提案 • word saliency を分類確率で重み付け • 単語を置換する順序を word

    saliency で決定 • ⼩さいノイズで正解率を下げられる • ⼈⼿評価で気づかれにくいようなノイズであることを⽰した?