Upgrade to Pro — share decks privately, control downloads, hide ads and more …

優先度学習を用いた文短縮手法

 優先度学習を用いた文短縮手法

牧野 恵、平尾 努、山本 和英、磯崎 秀樹. 優先度学習を用いた文短縮手法. 言語処理学会第12回年次大会, pp.1095-1098 (2006.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. എܠ z ఻౷తͳཁ໿ख๏ ˰ ॏཁจநग़ z ཁ໿཰ʹॊೈͰ͸ͳ͍ z ৘ใ͕େ͖ܽ͘མ͢ΔڪΕ͕͋Δ z

    ΑΓߴѹॖͳཁ໿΁ z χϡʔεͷจࣈ์ૹɺࣈນ etc. ˰ จ୹ॖٕज़
  2. ४උ(1/3) εςʔτॏΈɿ ୯ޠͷॏཁ౓ ϦϯΫॏΈɿ ୯ޠ࿈઀ͷྑ͞ j </s> εςʔτॏΈ ϦϯΫॏΈ ࠷େͱͳΔύε

    i ୹ॖจʢग़ྗจʣ <s> n1 n2 n3 n4 n5 n6 n7 n8 n10 n9 ೖྗจ <s> m2 m1 m3 m4 m5</s>
  3. ४උ(2/3) εςʔτྻ S ͷείΞΛ࠷େʹ ) ( max arg ˆ S

    Score S S = ∑ ∑ = + = + = M i j i ij M i ij s s W s W S Score 0 ' 1 1 ) | ( ) ( ) ( β α εςʔτ Sij ͷॏΈ ɾ tf ɾ idf Sij ͱ Si+1j’ ͷϦϯΫͷॏΈ ɾ୯ޠτϥΠάϥϜ֬཰ ˠ ୯ޠόΠάϥϜ֬཰ ɾ܎Γड͚֬཰ ) 1 ' 1 ( + + − ≤ ≤ + i M N j i
  4. ४උ(3/3) ೖྗจ N <s> ,n1 ,n2 ,… ,n9 ,n10 ,</s>

    ୹ॖจʢग़ྗจʣM <s>, n3, n4, n6, n8, n9,</s> j i <s> m2 m1 m3 m4 m5 </s> <s> n1 n2 n3 n4 n5 n6 n7 n8 n10 n9 </s> ೖྗจ ୹ॖจʢग़ྗจʣ
  5. Nʖbestղͷಋग़(1/2) z ງΒͷख๏ ɾɾɾ લ޲͖̙̥ z ఏҊख๏ ɾɾɾ ޙ޲͖̖* z

    N-bestղΛޮՌతʹग़ྗͰ͖Δ ͋Δεςʔτ Sij Λ௨ΔείΞ ) ( ) ( ) ( ij ij ij s h s g s f + = લ޲͖̙̥Ͱอ࣋ͨ͠είΞ ޙΖ͔ΒٻΊͨ࠷దܦ࿏είΞ
  6. N-bestղͷಋग़(2/2) •openϦετ ల։ͰಘΒΕͨ৽͍͠ εςʔτू߹ •closedϦετ ల։͞Εͨεςʔτू߹ ) ( ) (

    ) ( ij ij ij s h s g s f + = j ޙ޲͖̖* ୹ॖจʢग़ྗจʣ i <s> </s> <s> </s> n1 n2 n3 n4 n5 n6 n7 n8 n10 n9 m2 m1 m3 m4 m5 ೖྗจ
  7. ༏ઌ౓ֶश(1/5) z ୹ॖจީิ ˰ ਖ਼ղ/ෆਖ਼ղͰ̎஋෼ྨʁ ˰ ଞͱൺֱͯ͠༏ઌ౓Λࢉग़ A ˱ B

    A ˱ C A ˱ D ઈରతͳਖ਼ղ/ෆਖ਼ղ ˰ ࠔ೉ ͲͪΒ͕༏Ґ͔Λൺֱ 2஋෼ྨ ༏ઌ౓ֶश В? A B C D E A B C D E ༏ઌ౓ A > D > E > C > B ɾ ɾ ɾ
  8. ༏ઌ౓ֶश(3/5) z ܇࿅σʔλ z ϦϑΝϨϯεू߹ͱN-bestղू߹ j i 1 2 3

    ɾ ɾ ɾ x11 x12 x13 x1N+1 x21 x22 x23 x2N+1 x31 x32 x33 x3N+1 1 2 3 ɾ ɾ ɾ N+1 ϦϑΝϨϯεͷૉੑϕΫτϧ N-bestղͷૉੑϕΫτϧ ɾ ɾ ɾ
  9. ༏ઌ౓ֶश(4/5) ૉੑϕΫτϧx͕༩͑ΒΕͨͱ͖ͷ༏ઌ౓G(x) ∑ − = ij ij i ij G

    )) ( ) ( ) ( ) ( ( ) ( 1 x h x h x h x h x ɾ ɾ α ߴ࣍ݩۭؒʹ͓͚ΔૉੑϕΫτϧͷ಺ੵ ử ༧ଌ j ˆ จؒͷྨࣅ౓ ) ( max arg ˆ 1 ... 1 ij N j G j x + = =
  10. ༏ઌ౓ֶश(5/5) z ྨࣅ౓ई౓ ) , unigram( ) ( ) (

    1 x x x h x h ij ij λ = ɾ ) , posbigram( ) , trigram( ) , ( skipbigram 4 3 2 x x x x x x ij ij ij d λ λ λ + + +
  11. ධՁ࣮ݧ(1/4) z ༏ઌ౓ֶशલޙͰͷධՁͷൺֱ z ୹ॖจީิ10ݸΛ࠶ϥϯΩϯά z ࣮ݧσʔλ z εςʔτɺϦϯΫॏΈͷύϥϝʔλௐ੔ ˰

    200 ୊ z ςετσʔλ ˰ 200 ୊ z ϦϑΝϨϯεͷݸ਺ ˰ 5 ݸ z ཁ໿཰ฏۉ(࡟আ཰) ˰ 0.59ʢ0.41ʣ z ༏ઌ౓ֶशͰ͸10෼ׂަࠩݕఆ z ධՁࢦඪ z BLEUείΞɼROUGEείΞ(maxROUGE) ςετσʔλ ೖྗܗଶૉ਺ฏۉ 42.8 ϦϑΝϨϯεܗଶૉ਺ฏۉ 25.3
  12. ධՁ࣮ݧ(3/4) z ֤ॱҐʹ͓͍ͯBLEUείΞ͕࠷΋ߴ͘ͳΔස౓ z ୹ॖ՝୊200୊  ॱҐ   

                ස౓ ༏ઌ౓ֶशલ ॱҐ                 ༏ઌ౓ֶशޙ ස౓
  13. ߟ࡯ z طଘݚڀͱͷൺֱ z ϦϯΫॏΈͷҧ͍ z ୯ޠτϥΠάϥϜͱ୯ޠόΠάϥϜ .440 .472 1ҐͷBLEUείΞ

    ୯ޠόΠάϥϜ (༏ઌ౓ֶशલ) ୯ޠτϥΠάϥϜ ୯ޠόΠάϥϜ (༏ઌ౓ֶशޙ) .474
  14. ͓ΘΓʹ z طଘݚڀΛϕʔε༏ઌ౓ֶशΛద༻ z ༏ઌ౓ֶशͷ༗༻ੑΛ֬ೝ z ࠓޙͷ՝୊ z ΑΓࡉ͔ͳύϥϝʔλͷௐ੔ z

    ΑΓྑ͍ྨࣅ౓ई౓ͷબ୒ z ΑΓޮՌతͳ༏ઌ౓ֶशͷద༻ (̨̢̫-basedͷ༏ઌ౓ֶश౳)
  15. ิ଍ BLEUείΞ )) ( _ _ ), ( min( )

    c, )( ( ngram Count Ref Max ngram Count ngram Count clip = R ∑ ∑ ∑ = = = ' 4 1 ) ' ( ) c, )( ( ) log 1 exp( ) , BLEU(c ngram ngram clip n n n ngram Count ngram Count p p n BP R R ɾ
  16. ิ଍ ROUGEείΞ ∑ ∑ ′ = − m ngra ngram

    match ngram Count ngram Count N ) ( ) ( ) r c, ( ROUGE
  17. ิ଍ ̎஋෼ྨ or ༏ઌ౓ֶश WORSE BETTER worse better worse better

    better better worse worse В? worseͱbetterͷڥքઢΛҾ͘͜ͱ͸ࠔ೉
  18. ิ଍ ؔ࿈ݚڀ จ୹ॖ z খࠇΒ[01] จઅ୯Ґʹநग़ʢจઅॏཁ౓ɺ܎Γड͚੔߹౓ʣ ཁ໿཰ʹॊೈͰ͸ͳ͍ z KnightΒ[02] ߏจ໦ʹର͠noisy

    channel modelΛܭࢉ ۟ߏ଄Λ༻͍͍ͯΔͨΊ೔ຊޠʹରԠͤ͞Δͷ͸ࠔ೉ z ኍౢΒ[05] ϔουϥΠϯੜ੒ʢ୯ޠநग़ʣ noisy channel model ͷ channel model ʹ ̨̢̫Λ࢖ͬͨ୯ޠॏཁ౓ʢ͜ͷϔουϥΠϯʹඞཁͳ୯ޠ બ୒ΛSVMΛ࢖ͬͯߦ͏ͷ͸೉͍͠ͷͰ͸ʁʢจ຺ґଘʣʣ
  19. ิ଍ SVM-basedͷ༏ઌ౓ֶश ) , , ( 2 1 i i

    i x x y ܇࿅σʔλ > 1 i x 1 + = i y 2 i x ˠ < 1 i x 2 i x 1 − = i y ˠ ૉੑϕΫτϧx͕༩͑ΒΕͨͱ͖ͷ༏ઌ౓G(x) ∑ − = ij ij i ij i y G )) ( ) ( ) ( ) ( ( ) ( 1 x h x h x h x h x ɾ ɾ α
  20. ิ଍ ྨࣅ౓ई౓ z ༏ઌ౓ֶशͰͲ͜·ͰվળͰ͖Δͷ͔ʁ z ྨࣅ౓ई౓ z DPείΞɺLCSɺedit distance …

    etc. z ύϥϝʔλΛௐ੔ ˰ upper Λݟͨͱ͖ʹ࠷΋ߴ͔ͬͨई౓ ) , unigram( ) ( ) ( 1 x x x h x h ij ij λ = ɾ ) , posbigram( ) , trigram( ) , ( skipbigram 4 3 2 x x x x x x ij ij ij d λ λ λ + + +
  21. ิ଍ ධՁ࣮ݧ z ্Ґ10ҐͰ࠷΋ߴ͍BLEUείΞ͕ݱΕͨॱҐ ͷฏۉ 5.38Ґ ˰ 3.65Ґ z ্Ґ10ҐͰ࠷΋ߴ͍BLEUείΞͷฏۉ

    0.554 z ͪͳΈʹɺ༏ઌ౓ֶशޙ1ҐʹϦϥϯΩϯά͞Εͨ୹ॖจ ͷBLEUείΞฏۉ͸ 0.474 ༏ઌ౓ֶशલ ༏ઌ౓ֶशޙ
  22. લ޲͖̙̥ z ಈతܭը๏ z ࠷ऴঢ়ଶ·Ͱͷ ࠷దύεΛٻΊΔ ) | ( )

    ( ) ( ) ( ' ' 1 ' 1 ' 1 j i ij j i ij j i s s W s W s s + + + + + = β α φ φ j i <s> n1 n2 n3 n4 n5 n6 n7 n8 n10 n9 </s> ೖྗจ <s> m2 m1 m3 m4 m5 </s> ୹ॖจʢग़ྗจʣ