Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2018年度レトリバインターン参加報告

Avatar for Satoru Katsumata Satoru Katsumata
December 10, 2023
12

 2018年度レトリバインターン参加報告

レトリバで2018年度夏季インターンに参加した報告スライドです。
研究室で発表した資料になります。

Avatar for Satoru Katsumata

Satoru Katsumata

December 10, 2023
Tweet

More Decks by Satoru Katsumata

Transcript

  1. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͬͯԿʁ: ʢͬ͘͟Γʣձࣾઆ໌

    ▸ ࣗવݴޠॲཧΛ༻͍ͨιϑτ΢ΣΞͷݚڀɺ։ൃɺൢചɺಋೖΛ͍ͯ͠Δձࣾ ▸ [എܠͱ͔] PFI ͔ΒεϐϯΞ΢τɺࠓ೥Ͱ3೥໨ ▸ [৔ॴͳͲ] JR ൧ాڮӺ͔Βెา5෼ɺϏϧ1֊෼ΛआΓ͍ͯΔ ▸ ৄࡉ͕ؾʹͳΔํ͸ޙͰݸผʹ͓ئ͍͠·͢… ▸ ఆظతʹϐβύʔςΟͱ͔΍ͬͯΔͱͷ͜ͱͳͷͰؾʹͳͬͨํ͸ੋඇ 2
  2. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͬͯԿʁ: ʢͬ͘͟Γʣձࣾઆ໌

    ▸ ࣗવݴޠॲཧΛ༻͍ͨιϑτ΢ΣΞͷݚڀɺ։ൃɺൢചɺಋೖΛ͍ͯ͠Δձࣾ ▸ [എܠͱ͔] PFI ͔ΒεϐϯΞ΢τɺࠓ೥Ͱ3೥໨ ▸ [৔ॴͳͲ] JR ൧ాڮӺ͔Βెา5෼ɺϏϧ1֊෼ΛआΓ͍ͯΔ ▸ ৄࡉ͕ؾʹͳΔํ͸ޙͰݸผʹ͓ئ͍͠·͢… ▸ ఆظతʹϐβύʔςΟͱ͔΍ͬͯΔͱͷ͜ͱͳͷͰؾʹͳͬͨํ͸ੋඇ 3
  3. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͷΠϯλʔϯͱ͸ʁ ▸

    ݚڀɺ։ൃͰืू ▸ ࠓճ͸ ݚڀͰ2ਓɺ։ൃͰ2ਓͩͬͨ ▸ ݚڀ͸ ࣗવݴޠॲཧ Ͱ1ਓɺԻ੠ೝࣝ Ͱ1ਓͷߏ੒ ▸ ظؒ͸ 8݄ɺ9݄ͷ 2ϲ݄ ▸ ࠓ೥ͷԠืకΊ੾Γ͸ 5/10 Ͱ
 ॻྨબߟ → ίʔσΟϯά՝୊ → ໘઀ → ࠾༻௨஌ ͱ͍͏ྲྀΕ ▸ ࣗ෼͸ίʔσΟϯά͸ࡶڕࡶڕͳͷͰɺ
 ݚڀͷํͰरͬͯ΋Β͍͍ͨͱ͍͏ؾ࣋ͪʹ͋;Ε͍ͯͨʢͳͷͰड͔ͬͯخ͍͠ʣ 4 উຢ͸ݚڀʢࣗવݴޠॲཧʣ ଞͷΠϯλʔϯͷํ͸
 ୳ͤ͹ωοτ্Ͱݟ͔ͭΔ…ͱ
 ࢥ͍·͢
  4. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͷ؀ڥ: ෱རްੜɺ؀ڥʢΠϯλʔϯͰ͓ੈ࿩ʹͳͬͨ಺༰த৺ʣ

    ▸ ϦϞʔτϫʔΫͷڐՄͳͲ͕औΓ΍͍͢ ← ୆෩ͷ࣌ʹ͸ͬ͘͢͝ॿ͔Γ·ͨ͠ ▸ Ҝࢠ͕͔ͳΓྑ͍ʢContessaʣˡ ϔουϨετͷॏཁੑ ▸ [ҿ৯ܥ] ຖिਫ༵ͷ͓ன͸͓ห౰ࢧڅ ← ࣾ಺ηϛφʔͳͲͷͨΊ
 ΦϑΟεάϦίಋೖɺҿΈ෺͕ϖοτϘτϧͰ΋Β͑Δ ▸ ͓څྉͷͰΔΠϯλʔϯͰ͢ʢΊͬͪΌॏཁʣ
 ަ௨අ΋ग़·͢ɺԕํͷΠϯλʔϯੜ͸ॅΉ৔ॴΛ༻ҙͯ͠΋ΒͬͨΓ 6
  5. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͷ؀ڥ: बۀ࣌ؒͱ͔

    ▸ جຊతʹ 10:00 - 18:00 ▸ ͓ன͸ૣΊʹ 11:30 ͝Ζʹʢࠞࡶରࡦʣ ▸ [ޕલத] ໷தճֶͨ͠शͷ֬ೝͱ͔
 ࠓ೔Կ͔΍Δ͔ܾΊΔ
 [ޕޙ] ޕલதܾΊͨ͜ͱʹऔΓ૊Ή 7
  6. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͷ؀ڥ: ߦࣄͱ͔ͦͷล

    ▸ ׻ܴձ
 ϐβͱ͔Λࣾ಺Ͱ৯΂Δɺࣗݾ঺հͱ͔ ▸ ϐβύʔςΟ
 ఆظతʹ΍ͬͯΔɺ֎෦ͷਓͱ͓࿩ͨ͠͠ΓϘʔυήʔϜΛ΍Δɺ
 ϐβΛ৯΂ΒΕΔ ▸ Ϙυήେձ
 ͓ன͔Β༦ํա͗͝Ζ·ͰϘʔυήʔϜɺ৭ʑͳ΍ͭΛ΍ͬͨ
 Camel Up ͕ݸਓతʹ໘ന͔ͬͨ 8 ϘʔυήʔϜΛ΍Δػձ͕ଟ͘ɺϐβͱ͔৯΂Δ͜ͱ͕Ͱ͖Δʂ ↑ ༡ΜͰͳ͍ͷʹҹ৅ਂ͍ ↑
  7. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ϨτϦόͷ؀ڥ: ৯ࣄ৔ʢट౎େͱൺ΂ΔͱӢటͷࠩʣ

    ㅟ ▸ த՚ → 䠧඼߳ɺX’IAN ▸ ϋϫΠΞϯ → ALOHA TABLE ▸ ম͖ڕ → ӽޙ԰ُؙ ▸ ໌ଠࢠ → ΍·΍ ▸ ΠϯυΧϨʔ → ͻͭ͡΍ ▸ ڕɺ౜༲͛ → ͏͓࠲ ▸ ͏ͲΜ → խָʢ͏ͲΜͷதͷ͏ͲΜΒ͍͠ʣ 9 த՚ ϋϫΠΞϯ ম͖ڕ ໌ଠࢠʢ΍·΍ʣ ΠϯυʢΧϨʔʣ ڕɺ౜༲͛ ͏ͲΜ ൧ాڮӺ
  8. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ औΓ૊Μͩ಺༰: ࣗಈߍਖ਼ࢧԉख๏ͷݕ౼

    ▸ ֓ཁ
 [ೖྗ] ೔ຊޠ฼ޠ࿩ऀʹΑΔޡΓ͕͋Δʢ͔΋͠Εͳ͍ʣจ
 [ग़ྗ] ↑ͷޡΓΛݕग़ʢగਖ਼ʣͨ͠΋ͷ
 [࢖༻Ͱ͖Δσʔλ] గਖ਼ޙʢޡΓؚ͕·Ε͍ͯͳ͍ʣจʢจষ୯Ґʣ
 [΍ͬͨ͜ͱ] గਖ਼ޙͷจ͔Βਖ਼͍͠จͷݴޠϞσϧΛֶश
 ˠ ೖྗจͷ֤୯ޠͷੜى֬཰Λࢉग़ɺᮢ஋ΑΓ௿͔ͬͨΒޡΓͱ͢Δ 11 ਖ਼ղʢग़ྗʣདྷདྷདྷੈ͸ௗʹͳۭͬͯΛࣗ༝ʹඈͼ͍ͨɻ ೖྗདྷདྷདྷੈ͸ௗʹͳۭͬͯΛࣗ༝ʹ௓ͼ͍ͨɻ ྫ
  9. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ݴޠϞσϧͷͬ͘͟Γͨ͠Πϝʔδ ▸

    ֶशσʔλʹج͍ͮͯɺ͋Δ୯ޠͷग़ݱ֬཰ΛٻΊ͍ͯΔ
 ྫ: ͷ୯ޠͷग़ݱ֬཰ΛٻΊΔ৔߹
 ˠ ͦΕ·Ͱग़ݱͨ͠୯ޠʢi-1൪໨ʣ͔ΒٻΊΔ 12 w0 w1 … wi−1 wi wi P(wi |w0 , …, wi−1 )
  10. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ݴޠϞσϧΛ༻͍ͨޡΓ୯ޠͷݕग़ ▸

    ݴޠϞσϧ͔ΒٻΊͨ୯ޠͷੜى֬཰͕ᮢ஋ΑΓ௿͍
 ˠ ޡΓ୯ޠͱ͢Δ ▸ ྫ: ᮢ஋Λ 0.1 ͱͨ࣌͠ 13 w0 w1 … wi−1 wi P(wi |w0 , …, wi−1 ) < 0.1
  11. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࠓճͷࣗಈධՁई౓ ▸

    ೖྗͱగਖ਼݁Ռɺೖྗͱਖ਼ղʹ͍ͭͯɺͦΕͧΕͷจରͷҧ͍Λൺֱ͢Δ 14 ਖ਼ղࢲͷॴଐ͍ͯ͠Δେֶͷ໊শ͕มΘΓ·͢ɻ ೖྗࢲͷॴଐ͍ͯ͠Δେֶͷ໊উ͕୅ΘΓ·͢ɻ గਖ਼݁Ռࢲͷॾ଒͍ͯ͠Δେֶͷ໊শ͕୅ΘΓ·͢ɻ <❌>గਖ਼͕
 bॴଐ`Λbॾ଒`΁ஔ׵
 'BMTF1PTJUJWF <⭕>గਖ਼͕
 b໊উ`Λ`໊শ`΁ஔ׵
 5SVF1PTJUJWF <❌>గਖ਼͕
 b୅`Λ`ม`΁ஔ׵͠ͳ͍
 'BMTF/FHBUJWF ྫ
  12. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࣮ݧઃఆ ▸

    ֶशσʔλ: ͱ͋Δ෼໺ͷσʔλʢจ਺: 233,873 sentsʣ ▸ గਖ਼ର৅: ֶशσʔλͱ͸ผ͚ͩͲ͍ͦͦۙ͜͜෼໺ͷσʔλ
 ʢશମͰޡΓ͸12Օॴʣ ▸ ୯ޠ෼ׂ: MeCabʢUniDic, IPADICʣɺจࣈ୯ҐʢNeural ͷΈʣ ▸ ݴޠϞσϧ: 
 - N-gram → KenLMʢ5-gramʣ
 - Neural → ยํ޲ɺ૒ํ޲ LSTMʢֶशσʔλ಺ස౓1ͷ୯ޠΛ <unk>ʹஔ׵ʣ 15
  13. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࣮ݧ݁ՌʢN-gram ݴޠϞσϧʣ:

    ఆྔతධՁ ▸ ୯ޠ෼ׂ: UniDic, IPADIC 16 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ ݕग़݁Ռ గਖ਼݁Ռ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 6OJ%JD *1"%*$ N-gram ͷΈగਖ਼΋
 ࢼ͍ͯ͠Δ
  14. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࣮ݧ݁ՌʢNeural ݴޠϞσϧʣ:

    ఆྔతධՁ ▸ ୯ޠ෼ׂ: UniDic, IPADIC 17 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ ݕग़݁Ռʢ୯ํ޲ʣ ݕग़݁Ռʢ૒ํ޲ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 6OJ%JD *1"%*$
  15. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࣮ݧ݁ՌʢNeural ݴޠϞσϧʣ:

    ఆྔతධՁ ▸ ୯ޠ෼ׂ: จࣈ୯Ґ 18 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ 1PTJUJWF /FHBUJWF 5SVF ʢ51ʣ ʢ5/ʣ 'BMTF ʢ'1ʣ ʢ'/ʣ ݕग़݁Ռʢ୯ํ޲ʣ ݕग़݁Ռʢ૒ํ޲ʣ จࣈ୯Ґ Neural ख๏͸ݕग़Λ౰ͯΔͷ͕͔ͳΓΉ͍ͣ…ʁ
  16. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ࠓճͷऔΓ૊Μͩ಺༰ͷ·ͱΊ ▸

    ࣗಈߍਖ਼ࢧԉͷλεΫͰݴޠϞσϧΛ༻͍ͯޡΓΛݕग़͢Δख๏Λݕ౼ͨ͠ ▸ N-gram Ͱ΍ͬͯΈΔͱɺTP Λग़ͨ͢Ίʹ FP ͕͍ͬͺ͍ग़Δײ͡ʹͳͬͨ
 ʢword Ͱ͍͏ͱ΋ͷ͘͢͝੺͍೾ઢ͕ग़͖ͯͯΔΑ͏ͳײ͡ʣ ▸ Neural Ͱ΍ͬͯΈΔͱɺ͋ΕʁN-gram ΑΓ্ख͍͔͘ͳ͍ͧʁͬͯײͩͬͨ͡ 19
  17. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ײ૝: ͜ͷ̎ϲ݄ΛৼΓฦͬͯ

    ▸ શମ·ͱΊ
 ͦ΋ͦ΋ϨτϦόͰΠϯλʔϯΛ͠Α͏ͱࢥͬͨཧ༝͸
 1. ࣗવݴޠॲཧͷ஌ݟΛࣾձʹ໾ཱͯΔͬͯͲΜͳײ͔͡஌Γ͔ͨͬͨ
 2. ՆٳΈظؒશͯ࢖͍͍ͬͯײ͡ͷϑΟʔυόοΫΛಘ͍ͨ
 ˠ ݚڀͱݚڀ։ൃͷҧ͍Λ͘͢͝ײ͡Δ2ϲ݄Ͱͨ͠ʂ ▸ +α ͳײ૝
 - ͦ΋ͦ΋Πϯλʔϯࣗମ͕ॳΊͯͩͬͨΜͰ͕͢ɺͦͷลಛ༗ͷࠔΓ͸ײ͡ͳ͔ͬͨͰ͢
 - [ҹ৅] ࣗ༝ͳձࣾ:ʮ࣮ࡍʹ੡඼Λ࢖ͬͯΔاۀʹߦ͖͍ͨͰ͢ʯˠ ʮ͍͍Ͱ͢Αʔʯ
 - ͍͢͝ਓ͔͍͠ͳ͍࿩: ΠϯλʔϯͳͲ֎ʹग़Δ͜ͱͰ৽͍ܹ͕ࢗ͋ͬͨ͠Γ 21
  18. 1. ϨτϦόͬͯʁ 2. ϨτϦόͷ؀ڥ 3. औΓ૊Μͩ಺༰ 4. ײ૝ ײ૝: ͜ͷ̎ϲ݄ΛৼΓฦͬͯ

    ▸ શମ·ͱΊ
 ͦ΋ͦ΋ϨτϦόͰΠϯλʔϯΛ͠Α͏ͱࢥͬͨཧ༝͸
 1. ࣗવݴޠॲཧͷ஌ݟΛࣾձʹ໾ཱͯΔͬͯͲΜͳײ͔͡஌Γ͔ͨͬͨ
 2. ՆٳΈظؒશͯ࢖͍͍ͬͯײ͡ͷϑΟʔυόοΫΛಘ͍ͨ
 ˠ ݚڀͱݚڀ։ൃͷҧ͍Λ͘͢͝ײ͡Δ2ϲ݄Ͱͨ͠ʂ ▸ +α ͳײ૝
 - ͦ΋ͦ΋Πϯλʔϯࣗମ͕ॳΊͯͩͬͨΜͰ͕͢ɺͦͷลಛ༗ͷࠔΓ͸ײ͡ͳ͔ͬͨͰ͢
 - [ҹ৅] ࣗ༝ͳձࣾ:ʮ࣮ࡍʹ੡඼Λ࢖ͬͯΔاۀʹߦ͖͍ͨͰ͢ʯˠ ʮ͍͍Ͱ͢Αʔʯ
 - ͍͢͝ਓ͔͍͠ͳ͍࿩: ΠϯλʔϯͳͲ֎ʹग़Δ͜ͱͰ৽͍ܹ͕ࢗ͋ͬͨ͠Γ 22 ࣗવݴޠॲཧ͕ࣾձͰͲΜͳײ͡Ͱ໾ཱͭͷ͔Λ஌Γ͍ͨਓ͸
 ϨτϦόͷΠϯλʔϯ݁ߏ͍͍ͱࢥ͍·͢ ಛʹम࢜ͷֶੜ͸
 ਐֶ͔ब৬͔ͷ൑அࡐྉʹͳΔͱࢥ͍·͢
  19. ͦͷଞ ࢀߟʹͳΓͦ͏ͳ࿩ ▸ ଞͷΠϯλʔϯͷಉظ΋ࢀՃใࠂΛ্͍͛ͯͨΓ͢Δ
 - http://www.creativ.xyz/retrieva-intern-840
 - https://nomoto-eriko.hatenablog.com/entry/2018/10/04/125940 ▸ ଞͷΠϯλʔϯͷಉظ΋੒ՌใࠂεϥΠυΛެ։͍ͯͨ͠Γ͢Δ


    - https://speakerdeck.com/nomotoeriko/retoribaintancheng-guo-bao-gao
 - https://speakerdeck.com/kajyuuen/zhuan-men-yong-yu-chou-chu-shou-fa- falseyan-jiu-to-chou-chu-apurikesiyonfalsekai-fa
 23