Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2018年度レトリバインターン参加報告

Satoru Katsumata
December 10, 2023
5

 2018年度レトリバインターン参加報告

レトリバで2018年度夏季インターンに参加した報告スライドです。
研究室で発表した資料になります。

Satoru Katsumata

December 10, 2023
Tweet

More Decks by Satoru Katsumata

Transcript

  1. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͬͯԿʁ: ʢͬ͘͟Γʣձࣾઆ໌

    ▸ ࣗવݴޠॲཧΛ༻͍ͨιϑτ΢ΣΞͷݚڀɺ։ൃɺൢചɺಋೖΛ͍ͯ͠Δձࣾ ▸ [എܠͱ͔] PFI ͔ΒεϐϯΞ΢τɺࠓ೥Ͱ3೥໨ ▸ [৔ॴͳͲ] JR ൧ాڮӺ͔Βెา5෼ɺϏϧ1֊෼ΛआΓ͍ͯΔ ▸ ৄࡉ͕ؾʹͳΔํ͸ޙͰݸผʹ͓ئ͍͠·͢… ▸ ఆظతʹϐβύʔςΟͱ͔΍ͬͯΔͱͷ͜ͱͳͷͰؾʹͳͬͨํ͸ੋඇ 2
  2. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͬͯԿʁ: ʢͬ͘͟Γʣձࣾઆ໌

    ▸ ࣗવݴޠॲཧΛ༻͍ͨιϑτ΢ΣΞͷݚڀɺ։ൃɺൢചɺಋೖΛ͍ͯ͠Δձࣾ ▸ [എܠͱ͔] PFI ͔ΒεϐϯΞ΢τɺࠓ೥Ͱ3೥໨ ▸ [৔ॴͳͲ] JR ൧ాڮӺ͔Βెา5෼ɺϏϧ1֊෼ΛआΓ͍ͯΔ ▸ ৄࡉ͕ؾʹͳΔํ͸ޙͰݸผʹ͓ئ͍͠·͢… ▸ ఆظతʹϐβύʔςΟͱ͔΍ͬͯΔͱͷ͜ͱͳͷͰؾʹͳͬͨํ͸ੋඇ 3
  3. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͷΠϯλʔϯͱ͸ʁ ▸

    ݚڀɺ։ൃͰืू ▸ ࠓճ͸ ݚڀͰ2ਓɺ։ൃͰ2ਓͩͬͨ ▸ ݚڀ͸ ࣗવݴޠॲཧ Ͱ1ਓɺԻ੠ೝࣝ Ͱ1ਓͷߏ੒ ▸ ظؒ͸ 8݄ɺ9݄ͷ 2ϲ݄ ▸ ࠓ೥ͷԠืకΊ੾Γ͸ 5/10 Ͱ
 ॻྨબߟ → ίʔσΟϯά՝୊ → ໘઀ → ࠾༻௨஌ ͱ͍͏ྲྀΕ ▸ ࣗ෼͸ίʔσΟϯά͸ࡶڕࡶڕͳͷͰɺ
 ݚڀͷํͰरͬͯ΋Β͍͍ͨͱ͍͏ؾ࣋ͪʹ͋;Ε͍ͯͨʢͳͷͰड͔ͬͯخ͍͠ʣ 4 উຢ͸ݚڀʢࣗવݴޠॲཧʣ ଞͷΠϯλʔϯͷํ͸
 ୳ͤ͹ωοτ্Ͱݟ͔ͭΔ…ͱ
 ࢥ͍·͢
  4. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͷ؀ڥ: ෱རްੜɺ؀ڥʢΠϯλʔϯͰ͓ੈ࿩ʹͳͬͨ಺༰த৺ʣ

    ▸ ϦϞʔτϫʔΫͷڐՄͳͲ͕औΓ΍͍͢ ← ୆෩ͷ࣌ʹ͸ͬ͘͢͝ॿ͔Γ·ͨ͠ ▸ Ҝࢠ͕͔ͳΓྑ͍ʢContessaʣˡ ϔουϨετͷॏཁੑ ▸ [ҿ৯ܥ] ຖिਫ༵ͷ͓ன͸͓ห౰ࢧڅ ← ࣾ಺ηϛφʔͳͲͷͨΊ
 ΦϑΟεάϦίಋೖɺҿΈ෺͕ϖοτϘτϧͰ΋Β͑Δ ▸ ͓څྉͷͰΔΠϯλʔϯͰ͢ʢΊͬͪΌॏཁʣ
 ަ௨අ΋ग़·͢ɺԕํͷΠϯλʔϯੜ͸ॅΉ৔ॴΛ༻ҙͯ͠΋ΒͬͨΓ 6
  5. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͷ؀ڥ: बۀ࣌ؒͱ͔

    ▸ جຊతʹ 10:00 - 18:00 ▸ ͓ன͸ૣΊʹ 11:30 ͝Ζʹʢࠞࡶରࡦʣ ▸ [ޕલத] ໷தճֶͨ͠शͷ֬ೝͱ͔
 ࠓ೔Կ͔΍Δ͔ܾΊΔ
 [ޕޙ] ޕલதܾΊͨ͜ͱʹऔΓ૊Ή 7
  6. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͷ؀ڥ: ߦࣄͱ͔ͦͷล

    ▸ ׻ܴձ
 ϐβͱ͔Λࣾ಺Ͱ৯΂Δɺࣗݾ঺հͱ͔ ▸ ϐβύʔςΟ
 ఆظతʹ΍ͬͯΔɺ֎෦ͷਓͱ͓࿩ͨ͠͠ΓϘʔυήʔϜΛ΍Δɺ
 ϐβΛ৯΂ΒΕΔ ▸ Ϙυήେձ
 ͓ன͔Β༦ํա͗͝Ζ·ͰϘʔυήʔϜɺ৭ʑͳ΍ͭΛ΍ͬͨ
 Camel Up ͕ݸਓతʹ໘ന͔ͬͨ 8 ϘʔυήʔϜΛ΍Δػձ͕ଟ͘ɺϐβͱ͔৯΂Δ͜ͱ͕Ͱ͖Δʂ ↑ ༡ΜͰͳ͍ͷʹҹ৅ਂ͍ ↑
  7. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͷ؀ڥ: ৯ࣄ৔ʢट౎େͱൺ΂ΔͱӢటͷࠩʣ

    ㅟ ▸ த՚ → 䠧඼߳ɺX’IAN ▸ ϋϫΠΞϯ → ALOHA TABLE ▸ ম͖ڕ → ӽޙ԰ُؙ ▸ ໌ଠࢠ → ΍·΍ ▸ ΠϯυΧϨʔ → ͻͭ͡΍ ▸ ڕɺ౜༲͛ → ͏͓࠲ ▸ ͏ͲΜ → խָʢ͏ͲΜͷதͷ͏ͲΜΒ͍͠ʣ 9 த՚ ϋϫΠΞϯ ম͖ڕ ໌ଠࢠʢ΍·΍ʣ ΠϯυʢΧϨʔʣ ڕɺ౜༲͛ ͏ͲΜ ൧ాڮӺ
  8. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ औΓ૊Μͩ಺༰: ࣗಈߍਖ਼ࢧԉख๏ͷݕ౼

    ▸ ֓ཁ
 [ೖྗ] ೔ຊޠ฼ޠ࿩ऀʹΑΔޡΓ͕͋Δʢ͔΋͠Εͳ͍ʣจ
 [ग़ྗ] ↑ͷޡΓΛݕग़ʢగਖ਼ʣͨ͠΋ͷ
 [࢖༻Ͱ͖Δσʔλ] గਖ਼ޙʢޡΓؚ͕·Ε͍ͯͳ͍ʣจʢจষ୯Ґʣ
 [΍ͬͨ͜ͱ] గਖ਼ޙͷจ͔Βਖ਼͍͠จͷݴޠϞσϧΛֶश
 ˠ ೖྗจͷ֤୯ޠͷੜى֬཰Λࢉग़ɺᮢ஋ΑΓ௿͔ͬͨΒޡΓͱ͢Δ 11 ਖ਼ղʢग़ྗʣདྷདྷདྷੈ͸ௗʹͳۭͬͯΛࣗ༝ʹඈͼ͍ͨɻ ೖྗདྷདྷདྷੈ͸ௗʹͳۭͬͯΛࣗ༝ʹ௓ͼ͍ͨɻ ྫ
  9. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ݴޠϞσϧͷͬ͘͟Γͨ͠Πϝʔδ ▸

    ֶशσʔλʹج͍ͮͯɺ͋Δ୯ޠͷग़ݱ֬཰ΛٻΊ͍ͯΔ
 ྫ: ͷ୯ޠͷग़ݱ֬཰ΛٻΊΔ৔߹
 ˠ ͦΕ·Ͱग़ݱͨ͠୯ޠʢi-1൪໨ʣ͔ΒٻΊΔ 12 w0 w1 … wi−1 wi wi P(wi |w0 , …, wi−1 )
  10. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ݴޠϞσϧΛ༻͍ͨޡΓ୯ޠͷݕग़ ▸

    ݴޠϞσϧ͔ΒٻΊͨ୯ޠͷੜى֬཰͕ᮢ஋ΑΓ௿͍
 ˠ ޡΓ୯ޠͱ͢Δ ▸ ྫ: ᮢ஋Λ 0.1 ͱͨ࣌͠ 13 w0 w1 … wi−1 wi P(wi |w0 , …, wi−1 ) < 0.1
  11. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࠓճͷࣗಈධՁई౓ ▸

    ೖྗͱగਖ਼݁Ռɺೖྗͱਖ਼ղʹ͍ͭͯɺͦΕͧΕͷจରͷҧ͍Λൺֱ͢Δ 14 ਖ਼ղࢲͷॴଐ͍ͯ͠Δେֶͷ໊শ͕มΘΓ·͢ɻ ೖྗࢲͷॴଐ͍ͯ͠Δେֶͷ໊উ͕୅ΘΓ·͢ɻ గਖ਼݁Ռࢲͷॾ଒͍ͯ͠Δେֶͷ໊শ͕୅ΘΓ·͢ɻ <❌>గਖ਼͕
 bॴଐ`Λbॾ଒`΁ஔ׵
 'BMTF1PTJUJWF <⭕>గਖ਼͕
 b໊উ`Λ`໊শ`΁ஔ׵
 5SVF1PTJUJWF <❌>గਖ਼͕
 b୅`Λ`ม`΁ஔ׵͠ͳ͍
 'BMTF/FHBUJWF ྫ
  12. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࣮ݧઃఆ ▸

    ֶशσʔλ: ͱ͋Δ෼໺ͷσʔλʢจ਺: 233,873 sentsʣ ▸ గਖ਼ର৅: ֶशσʔλͱ͸ผ͚ͩͲ͍ͦͦۙ͜͜෼໺ͷσʔλ
 ʢશମͰޡΓ͸12Օॴʣ ▸ ୯ޠ෼ׂ: MeCabʢUniDic, IPADICʣɺจࣈ୯ҐʢNeural ͷΈʣ ▸ ݴޠϞσϧ: 
 - N-gram → KenLMʢ5-gramʣ
 - Neural → ยํ޲ɺ૒ํ޲ LSTMʢֶशσʔλ಺ස౓1ͷ୯ޠΛ <unk>ʹஔ׵ʣ 15
  13. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࣮ݧ݁ՌʢN-gram ݴޠϞσϧʣ:

    ఆྔతධՁ ▸ ୯ޠ෼ׂ: UniDic, IPADIC 16 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ ݕग़݁Ռ గਖ਼݁Ռ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 6OJ%JD *1"%*$ N-gram ͷΈగਖ਼΋
 ࢼ͍ͯ͠Δ
  14. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࣮ݧ݁ՌʢNeural ݴޠϞσϧʣ:

    ఆྔతධՁ ▸ ୯ޠ෼ׂ: UniDic, IPADIC 17 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ ݕग़݁Ռʢ୯ํ޲ʣ ݕग़݁Ռʢ૒ํ޲ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 6OJ%JD *1"%*$
  15. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࣮ݧ݁ՌʢNeural ݴޠϞσϧʣ:

    ఆྔతධՁ ▸ ୯ޠ෼ׂ: จࣈ୯Ґ 18 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ ݕग़݁Ռʢ୯ํ޲ʣ ݕग़݁Ռʢ૒ํ޲ʣ จࣈ୯Ґ Neural ख๏͸ݕग़Λ౰ͯΔͷ͕͔ͳΓΉ͍ͣ…ʁ
  16. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࠓճͷऔΓ૊Μͩ಺༰ͷ·ͱΊ ▸

    ࣗಈߍਖ਼ࢧԉͷλεΫͰݴޠϞσϧΛ༻͍ͯޡΓΛݕग़͢Δख๏Λݕ౼ͨ͠ ▸ N-gram Ͱ΍ͬͯΈΔͱɺTP Λग़ͨ͢Ίʹ FP ͕͍ͬͺ͍ग़Δײ͡ʹͳͬͨ
 ʢword Ͱ͍͏ͱ΋ͷ͘͢͝੺͍೾ઢ͕ग़͖ͯͯΔΑ͏ͳײ͡ʣ ▸ Neural Ͱ΍ͬͯΈΔͱɺ͋ΕʁN-gram ΑΓ্ख͍͔͘ͳ͍ͧʁͬͯײͩͬͨ͡ 19
  17. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ײ૝: ͜ͷ̎ϲ݄ΛৼΓฦͬͯ

    ▸ શମ·ͱΊ
 ͦ΋ͦ΋ϨτϦόͰΠϯλʔϯΛ͠Α͏ͱࢥͬͨཧ༝͸
 1. ࣗવݴޠॲཧͷ஌ݟΛࣾձʹ໾ཱͯΔͬͯͲΜͳײ͔͡஌Γ͔ͨͬͨ
 2. ՆٳΈظؒશͯ࢖͍͍ͬͯײ͡ͷϑΟʔυόοΫΛಘ͍ͨ
 ˠ ݚڀͱݚڀ։ൃͷҧ͍Λ͘͢͝ײ͡Δ2ϲ݄Ͱͨ͠ʂ ▸ +α ͳײ૝
 - ͦ΋ͦ΋Πϯλʔϯࣗମ͕ॳΊͯͩͬͨΜͰ͕͢ɺͦͷลಛ༗ͷࠔΓ͸ײ͡ͳ͔ͬͨͰ͢
 - [ҹ৅] ࣗ༝ͳձࣾ:ʮ࣮ࡍʹ੡඼Λ࢖ͬͯΔاۀʹߦ͖͍ͨͰ͢ʯˠ ʮ͍͍Ͱ͢Αʔʯ
 - ͍͢͝ਓ͔͍͠ͳ͍࿩: ΠϯλʔϯͳͲ֎ʹग़Δ͜ͱͰ৽͍ܹ͕ࢗ͋ͬͨ͠Γ 21
  18. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ײ૝: ͜ͷ̎ϲ݄ΛৼΓฦͬͯ

    ▸ શମ·ͱΊ
 ͦ΋ͦ΋ϨτϦόͰΠϯλʔϯΛ͠Α͏ͱࢥͬͨཧ༝͸
 1. ࣗવݴޠॲཧͷ஌ݟΛࣾձʹ໾ཱͯΔͬͯͲΜͳײ͔͡஌Γ͔ͨͬͨ
 2. ՆٳΈظؒશͯ࢖͍͍ͬͯײ͡ͷϑΟʔυόοΫΛಘ͍ͨ
 ˠ ݚڀͱݚڀ։ൃͷҧ͍Λ͘͢͝ײ͡Δ2ϲ݄Ͱͨ͠ʂ ▸ +α ͳײ૝
 - ͦ΋ͦ΋Πϯλʔϯࣗମ͕ॳΊͯͩͬͨΜͰ͕͢ɺͦͷลಛ༗ͷࠔΓ͸ײ͡ͳ͔ͬͨͰ͢
 - [ҹ৅] ࣗ༝ͳձࣾ:ʮ࣮ࡍʹ੡඼Λ࢖ͬͯΔاۀʹߦ͖͍ͨͰ͢ʯˠ ʮ͍͍Ͱ͢Αʔʯ
 - ͍͢͝ਓ͔͍͠ͳ͍࿩: ΠϯλʔϯͳͲ֎ʹग़Δ͜ͱͰ৽͍ܹ͕ࢗ͋ͬͨ͠Γ 22 ࣗવݴޠॲཧ͕ࣾձͰͲΜͳײ͡Ͱ໾ཱͭͷ͔Λ஌Γ͍ͨਓ͸
 ϨτϦόͷΠϯλʔϯ݁ߏ͍͍ͱࢥ͍·͢ ಛʹम࢜ͷֶੜ͸
 ਐֶ͔ब৬͔ͷ൑அࡐྉʹͳΔͱࢥ͍·͢
  19. ͦͷଞ ࢀߟʹͳΓͦ͏ͳ࿩ ▸ ଞͷΠϯλʔϯͷಉظ΋ࢀՃใࠂΛ্͍͛ͯͨΓ͢Δ
 - http://www.creativ.xyz/retrieva-intern-840
 - https://nomoto-eriko.hatenablog.com/entry/2018/10/04/125940 ▸ ଞͷΠϯλʔϯͷಉظ΋੒ՌใࠂεϥΠυΛެ։͍ͯͨ͠Γ͢Δ


    - https://speakerdeck.com/nomotoeriko/retoribaintancheng-guo-bao-gao
 - https://speakerdeck.com/kajyuuen/zhuan-men-yong-yu-chou-chu-shou-fa- falseyan-jiu-to-chou-chu-apurikesiyonfalsekai-fa
 23