The elephant in the interpretability room: Why use attention as explanation when we have saliency methods? Bastings and Filippova, EMNLP 2020 杉本 海人 Aizawa Lab. B4 2021/01/07 1 / 21
具体例(上手くいかない例) "I hate the movie though the plot is interesting." 正しく very negative に判定できるモデルに もかかわらず、gradient は though 以下にば かり大きな値が出る なお,though 以下のみでこのモデルを動か すと positive に判定される(なので、faithful な説明にはなっていないとも言える) 17 / 21