Pathologies of Neural Models Make Interpretations Difficult

ൃදऀ ୩ޱହ࢙ ҟৗͳڍಈ

!2 Pathological behavior ࣭໰จ͕did͚ͩͰ΋ Ϟσϧͷग़ྗ͸ಉ͡ ֬౓΋ߴ͍

֓ཁ w NLPʹ͓͚ΔχϡʔϥϧϞσϧͷղੳख๏ΛఏҊ w Ϟσϧ͕λεΫΛղ্͘Ͱॏཁͳ୯ޠΛநग़͢Δख๏ w நग़͞Εͨ୯ޠ͸ਓʹͱͬͯ͸ҙຯෆ໌ w ҰํͰϞσϧ͸நग़୯ޠͰ΋ਖ਼͘͠༧ଌ(Pathology) w
ղੳ݁Ռʹجͮ͘ਖ਼ଇԽ߲ΛఏҊ w ਖ਼ଇԽ߲ʹΑͬͯϞσϧͷղऍੑ͸޲্ !3

໨࣍ Ϟσϧղੳͷطଘख๏ ఏҊख๏ ࣮ݧ ·ͱΊ !4

Ϟσϧղੳͷطଘख๏

Ϟσϧղੳͷطଘख๏ !6 Adversarial Example Ϟσϧʹਓͷ௚ײʹ൓͢ΔڍಈΛͤ͞Δαϯϓϧ NLPͷλεΫ ओʹQAλεΫ Ͱ͸ύλʔϯ ਓʹͱͬͯ͸ҙຯͷͳ͍มߋ͕ɺϞσϧͷग़ྗΛܹมͤ͞Δέʔε
ਓʹͱͬͯ͸໌Β͔ͳมߋͰ΋ɺϞσϧ͕ग़ྗΛม͑ͳ͍έʔε

ग़ྗ͕ܹม͢Δέʔε !7 Jia et al., 2017 ΫΥʔλʔόοΫͷ೥ྸʹ͍ͭͯͷ จॻʹΫΥʔλʔόοΫͷഎ൪߸ʹ ؔ͢ΔจΛ௥Ճ Ϟσϧ͸ޡ౴

ग़ྗΛม͑ͳ͍έʔε !8 Mudrakarta et al., 2018 ݐ෺ͷന͍ϨϯΨ͕ରশ͔ʁ spherical (ٿঢ়ͷ) ݐ෺ͷന͍ϨϯΨ͕ٿঢ়͔ʁ
࣭໰จͷҙຯมԽ Ϟσϧͷ༧ଌ͸ෆม

2. ఏҊख๏

*OQVU3FEVDUJPO • ॏཁͰͳ͍୯ޠΛೖྗ͔Β࡟ΓɺϞσϧͷڍಈΛ෼ੳ • Ϟσϧ͕ਖ਼͍͠ग़ྗΛ͢ΔͨΊʹඞཁͳ࠷௿୯ޠ (ॏཁ ୯ޠ) • Adversarial Example͸Ϟσϧʹͱͬͯͷॏཁ୯ޠʹண໨

*OQVU3FEVDUJPO !11 x y Ϟσϧͷ༧ଌ f( ⋅ ) χϡʔϥϧϞσϧ ೖྗܥྻ
(จ΍จॻ) xi ೖྗܥྻͷ͋Δཁૉ (୯ޠ) g(xi |x) = f(y|x) − f(y|x−i ) ͋Δ୯ޠ ʹର͢Δ ॏཁ౓Λఆٛ xi g i൪໨ͷ୯ޠΛফͨ͠ೖྗ

*OQVU3FEVDUJPO !12 g(xcontest |x) = f(y|x) − f(y|x−contest ) What
company won free advertisement due to QuickBooks contest ? What company won free advertisement due to QuickBooks contest ? g͕େ͖͚Ε͹ɺcontest͕ॏཁͳ୯ޠͱͳΔ Ϟσϧͷग़ྗʹେ͖͘د༩͍ͯ͠ΔͨΊ

*OQVU3FEVDUJPO !13 g(xi |x) = f(y|x) − f(y|x−i ) ॏཁ౓ͷ௿͍୯ޠΛ࡟আ
y͕มԽ͠ͳ͍Α͏ʹɺg͕࠷খͱͳΔ୯ޠiΛ࡟আ ͍ͯ͘͠

3. ࣮ݧ

ղੳͷର৅λεΫ 1. SQuAD w จॻͱ࣭໰จ͕༩͑ΒΕΔˠ࣭໰จʹରͯ͠Input Reduction w จॻ͔Βղ౴Λநग़͢ΔλεΫ 2. SNLI
w จ͕༩͑ΒΕΔˠͭͷจʹରͯ͠Input Reduction w จͷؔ܎Λਪఆ͢ΔλεΫ 3. VQA w ը૾ͱ࣭໰จ͕༩͑ΒΕΔˠ࣭໰จʹରͯ͠Input Reduction w ղ౴Λੜ੒͢ΔλεΫ !15

࣮ݧ಺༰ Input Reduction w Ϟσϧ͕ਖ਼͍͠ग़ྗΛ͢ΔαϯϓϧΛର৅ʹ࣮ݧ w Input ReductionΛద༻ͨ͠ೖྗ(Reduced)ʹର͢ΔਓखධՁ w ReducedͱϥϯμϜʹ୯ޠΛམͱͨ͠৔߹(Random)ͷࠩҟͷධՁ
Regularization on Reduced Inputs w Input ReductionʹΑΔϞσϧͷPathological behaviorΛܰݮ͢Δਖ਼ଇԽ߲ ޙड़ ͷಋೖ !16

Reducedʹର͢ΔਓखධՁ !17 Reducedʹରͯ͠ ਓ͸ਖ਼͍͠༧ଌΛͰ ͖ͳ͍ w Reducedʹର͢Δਓͷਖ਼౴཰ w Ϟσϧͷਖ਼౴཰͕ͷαϯϓϧΛ࢖༻

Reducedʹର͢ΔਓखධՁ !18 w ReducedͱRandomͷͲͪΒ͕ࣗવͳจ͔ w vs. Random͸fifty-fiftyͱ౴ׂ͑ͨ߹ Reduced͸ਓʹͱͬ ͯ͸Randomͱಉ͡

Reducedͷࣄྫ !19 ʮͲ͜Ͱ࿅शͨ͠ ͔ʯΛฉ͔Ε͍ͯ Δͷ͸Θ͔Δ͕ɺ ʮͲͷνʔϜʯ͔ Θ͔Βͳ͍

Reducedͷฏۉ୯ޠ਺ ͭͷλεΫͱ΋ɺ ਖ਼౴͢Δͷʹඞཁͳ୯ޠ਺͸ฏۉd

Reducedʹର͢ΔϞσϧͷ֬౓ !21 • Input Reductionͷద༻લޙͰϞσϧͷ ֬౓ʹมԽ͸΄ͱΜͲͳ͍ • Ϟσϧ͸Ӷ͍ϐʔΫΛ࣋ͭΑ͏ͳ෼෍ Λֶश͍ͯ͠Δ͜ͱ͕ݪҼ

ਖ਼ଇԽ߲ͷಋೖ !22 ∑ (x,y)∈(X,Y) log(f(y|x)) + λ∑ ¯ x∈ ¯
X H(f(y| ¯ x)) Reducedʹରͯ͠ਖ਼͍͠yΛ ग़ྗ͠ʹ͘͘͢Δ ௨ৗͷ໨తؔ਺ Reducedαϯϓϧ͸௨ৗͷ໨తؔ਺Λ࢖ֶͬͯशͨ͠ ϞσϧΛ༻͍ͯੜ੒

ਖ਼ଇԽ߲ͷޮՌ !23 • Ϟσϧͷਫ਼౓͕ඍ૿ • ਖ਼౴ʹඞཁͳ୯ޠ਺ ͕૿Ճ

ਖ਼ଇԽ߲ͷޮՌ !24 ਓखධՁͷਫ਼౓΋޲্ Input Reductionͨ͠ೖྗ ͷղऍੑ͕޲্

ਖ਼ଇԽͨ͠Ϟσϧͷࣄྫ !25 Input Reductionͨ͠ೖྗ͕ਓͰ΋ ղऍՄೳʹͳͬͨ

·ͱΊ ఏҊख๏ w NLPͷχϡʔϥϧϞσϧղੳख๏ͱͯ͠ɺInput ReductionΛఏҊ w ༧ଌʹد༩͠ͳ͍୯ޠΛೖྗ͔Β࡟ΓɺϞσϧΛղੳ ࣮ݧ݁Ռ w ఏҊख๏Λద༻ͨ͠ೖྗ͸ਓʹͱͬͯҙຯෆ໌
w ҰํͰχϡʔϥϧϞσϧ͸ਖ਼͍͠༧ଌΛߦ͏ w ਖ਼ଇԽ߲Λಋೖ͢ΔͱϞσϧͷڍಈ͸վળ !26

Pathologies of Neural Models Make Interpretatio...

Pathologies of Neural Models Make Interpretations Difficult

Yasufumi Taniguchi

More Decks by Yasufumi Taniguchi

Other Decks in Research

Featured

Transcript

ൃදऀ ୩ޱହ࢙ ҟৗͳڍಈ

!2 Pathological behavior ࣭໰จ͕did͚ͩͰ΋ Ϟσϧͷग़ྗ͸ಉ͡ ֬౓΋ߴ͍

֓ཁ w NLPʹ͓͚ΔχϡʔϥϧϞσϧͷղੳख๏ΛఏҊ w Ϟσϧ͕λεΫΛղ্͘Ͱॏཁͳ୯ޠΛநग़͢Δख๏ w நग़͞Εͨ୯ޠ͸ਓʹͱͬͯ͸ҙຯෆ໌ w ҰํͰϞσϧ͸நग़୯ޠͰ΋ਖ਼͘͠༧ଌ(Pathology) w

໨࣍ Ϟσϧղੳͷطଘख๏ ఏҊख๏ ࣮ݧ ·ͱΊ !4

Ϟσϧղੳͷطଘख๏

Ϟσϧղੳͷطଘख๏ !6 Adversarial Example Ϟσϧʹਓͷ௚ײʹ൓͢ΔڍಈΛͤ͞Δαϯϓϧ NLPͷλεΫ ओʹQAλεΫ Ͱ͸ύλʔϯ ਓʹͱͬͯ͸ҙຯͷͳ͍มߋ͕ɺϞσϧͷग़ྗΛܹมͤ͞Δέʔε

ग़ྗ͕ܹม͢Δέʔε !7 Jia et al., 2017 ΫΥʔλʔόοΫͷ೥ྸʹ͍ͭͯͷ จॻʹΫΥʔλʔόοΫͷഎ൪߸ʹ ؔ͢ΔจΛ௥Ճ Ϟσϧ͸ޡ౴

ग़ྗΛม͑ͳ͍έʔε !8 Mudrakarta et al., 2018 ݐ෺ͷന͍ϨϯΨ͕ରশ͔ʁ spherical (ٿঢ়ͷ) ݐ෺ͷന͍ϨϯΨ͕ٿঢ়͔ʁ

2. ఏҊख๏

*OQVU3FEVDUJPO • ॏཁͰͳ͍୯ޠΛೖྗ͔Β࡟ΓɺϞσϧͷڍಈΛ෼ੳ • Ϟσϧ͕ਖ਼͍͠ग़ྗΛ͢ΔͨΊʹඞཁͳ࠷௿୯ޠ (ॏཁ ୯ޠ) • Adversarial Example͸Ϟσϧʹͱͬͯͷॏཁ୯ޠʹண໨

*OQVU3FEVDUJPO !11 x y Ϟσϧͷ༧ଌ f( ⋅ ) χϡʔϥϧϞσϧ ೖྗܥྻ

*OQVU3FEVDUJPO !12 g(xcontest |x) = f(y|x) − f(y|x−contest ) What

*OQVU3FEVDUJPO !13 g(xi |x) = f(y|x) − f(y|x−i ) ॏཁ౓ͷ௿͍୯ޠΛ࡟আ

3. ࣮ݧ

ղੳͷର৅λεΫ 1. SQuAD w จॻͱ࣭໰จ͕༩͑ΒΕΔˠ࣭໰จʹରͯ͠Input Reduction w จॻ͔Βղ౴Λநग़͢ΔλεΫ 2. SNLI

࣮ݧ಺༰ Input Reduction w Ϟσϧ͕ਖ਼͍͠ग़ྗΛ͢ΔαϯϓϧΛର৅ʹ࣮ݧ w Input ReductionΛద༻ͨ͠ೖྗ(Reduced)ʹର͢ΔਓखධՁ w ReducedͱϥϯμϜʹ୯ޠΛམͱͨ͠৔߹(Random)ͷࠩҟͷධՁ