Slide 1

Slide 1 text

اۀͷۀք෼ྨ༧ଌʹ͓͚Δ ڞมྔγϑτ໰୊ͷ཈੍ ̋૿ా ଠ࿠†ɼੴݪ ঵ଠ࿠†ɼ٢ా ༐ଠ†† † גࣜձࣾ೔ຊܦࡁ৽ฉࣾ †† גࣜձࣾϒϨΠϯύου ୈ14ճσʔλ޻ֶͱ৘ใϚωδϝϯτʹؔ͢ΔϑΥʔϥϜ ʢୈ20ճ೔ຊσʔλϕʔεֶձ೥࣍େձʣ DEIM2022 G24-1

Slide 2

Slide 2 text

໨࣍ 2 ● എܠ ○ લఏ஌ࣝ ○ ՝୊ ● ؔ࿈ݚڀ ● ༧උ࣮ݧ ● ఏҊख๏ ● ࣮ݧ ○ Ϟσϧ֓ཁ ○ ࣮ݧઃఆ ○ ࣮ݧ݁Ռ ● ߟ࡯ ● ·ͱΊ

Slide 3

Slide 3 text

എܠɿલఏ஌ࣝ 3 ● اۀ׆ಈʹ͓͍ͯɺଞࣾاۀ͕ଐ͢Δۀք෼ྨΛਖ਼֬ʹ೺Ѳ͢Δχʔζ͸ߴ͍ ○ ྫ͑͹ҎԼͷΑ͏ͳݕ౼Λ͢Δͱ͖ɺۀք෼ྨ͕෼͔Ε͹اۀݕࡧͷମݧ͕վળ͢Δ ■ ڝ߹اۀͷಈ޲೺Ѳ ■ ۀ຿ఏܞɾM&Aઌͷݕ౼ ● ೔ຊܦࡁ৽ฉࣾͰ͸ɺ๏ਓ޲͚αʔϏεͱͯ͠ͷاۀ৘ใσʔλϕʔεΛอ༗͍ͯ͠Δ ○ ͓٬༷ɿܦӦاը෦ɺࣄۀاը෦ɺӦۀاը෦ͳͲ ○ ֎෦σʔλιʔε౳ͱ΋࿈ܞ͠ͳ͕Β๛෋ͳ৘ใΛఏڙ ○ ۀք෼ྨͷਖ਼ղϥϕϧͱͯ͠࢖༻Մೳͳσʔλ͕4ສࣾ΄Ͳଘࡏ

Slide 4

Slide 4 text

എܠɿ՝୊ 4 ● ਺ଟ͘ͷاۀσʔλʹ͓͍ͯɺ ඇ্৔اۀͷۀछΛࣗಈతʹ෼ྨ͍ͨ͠ ○ ֎෦σʔλϕʔεαʔϏεʮFactSetʯ͔ࣾΒ ਺ඦສࣾ୯Ґͷඇ্৔اۀ৘ใΛ͍͍͍ͨͩͯΔ ■ ೔ܦ͕ఆٛ͢Δۀछϥϕϧ͸෇༩͞Ε͍ͯͳ͍ ■ ਓखͰ෇͚ͨۀछϥϕϧ͸্৔اۀʹͷΈଘࡏ͢Δ ■ ձࣾͷ਺͸ຖ೥૿Ճ͠ଓ͚Δ܏޲ʹ͋ΓɼਓखͰϥϕϦϯά͢Δίετ͸ݱ࣮తͰͳ͍ ○ ຊݚڀͷ໨తɿඇ্৔اۀͷۀք෼ྨΛػցֶशͰࣗಈతʹ༧ଌ͢Δ͜ͱ ● ڞมྔγϑτ໰୊ɿ ○ ೖྗಛ௃ྔͷੑֶ࣭͕शσʔλͱຊ൪σʔλͰมԽ͢Δ͜ͱ ○ ֶशʹ࢖͑Δͷ͸্৔اۀͷσʔληοτɼ ຊ൪Ͱ༧ଌ͢Δͷ͸ඇ্৔اۀͷσʔλ

Slide 5

Slide 5 text

ؔ࿈ݚڀ 5 ● σʔληοτγϑτʹண໨ͨ͠ݚڀ͕੝Μ ○ [Moreno-Torres+, 2012] [Lu+, 2018] σʔληοτγϑτΛ໢ཏతʹղઆͨ͠αʔϕΠ ○ [Shimodaira, 2000] ڞมྔγϑτԼͰɼ؍ଌαϯϓϧΛॏΈ෇͚ͯ͠༧ଌ෼෍Λ࠷໬ਪఆ ○ [Li+, 2016] ڞมྔγϑτԼͰɼ2ͭͷσʔληοτʹજࡏతʹڞ௨͢Δಛ௃ྔΛநग़ ○ [Pan+, 2020] ֶश༻ͱධՁ༻ͷσʔληοτΛ෼ྨ͢ΔϞσϧΛ࡞Γɼ ਖ਼౴཰͕ᮢ஋ҎԼʹͳΔ·Ͱॏཁ౓ͷߴ͍ಛ௃ྔΛ࡟আ ● اۀͷۀछϥϕϧΛ༧ଌ͢Δ໰୊ʹ͍ͭͯ΋ݚڀ͞Ε͍ͯΔ [Wood+, 2018], [Tagarev+, 2019] ● චऀΒͷ஌ΔݶΓɼ اۀͷۀछϥϕϧ༧ଌʹ͓͍ͯσʔληοτγϑτʹয఺Λ౰ͯͨݚڀ͸ଟ͘ͳ͍

Slide 6

Slide 6 text

༧උ࣮ݧɿར༻Ͱ͖Δσʔλ 6 ● ֶश/ݕূσʔλ: ༗ࣝऀ্͕৔اۀʹରͯ͠ϋϯυϥϕϦϯάͨ͠42,752݅ͷاۀ৘ใ ○ CAT_ࠃ໊ ○ CAT_෼໺ʢSectorʣ ○ CAT_ۀքʢIndustryʣ ■ ೔ܦͷఆٛͱҟͳΔFactSetࣾಠࣗͷۀք෼ྨʢ1ର1ରԠ͠ͳ͍ʣ ■ ຊ൪σʔλʹ͓͍ͯ໿55%͕ܽଛ͍ͯ͠Δͱ͍͏ࣄલͷूܭ৘ใ͋Γ ○ اۀ֓ཁςΩετ ○ ੡඼৘ใςΩετ ○ اۀ໊ςΩετ ※CAT_͸ΧςΰϦม਺ ● ධՁσʔλ: ༗ࣝऀ͕ඇ্৔اۀʹରͯ͠ϋϯυϥϕϦϯάͨ͠289݅ͷاۀ৘ใ ○ ΧϥϜ͸ಉ্ ● ͦΕͳΓͷυϝΠϯ஌͕ࣝͳ͍ͱΞϊςʔγϣϯ͸ࠔ೉ ○ Ξϊςʔλʔ͸֎෦ͷϗʔϜϖʔδ౳ιʔε΋ݟ͓ͯΓɺ ֎෦৘ใͳ͠Ͱਖ਼ղ͢Δ͜ͱ͸ਓؒͰ΋؆୯Ͱ͸ͳ͍

Slide 7

Slide 7 text

● ୯ޠΧ΢ϯτͷ෼෍ ○ ֶश/ݕূσʔλʢ্৔اۀʣ ͷํ͕จষ͕௕͍܏޲ʢӈʹ੄͕௕͍ʣ ○ ධՁσʔλʢඇ্৔اۀʣ ͷจষ͸୹͍܏޲ʢશମతʹࠨدΓʣ ○ ※͜͜Ͱ͍͏จষͱ͸ɼ اۀ֓ཁςΩετͱ੡඼৘ใςΩετ Λ݁߹ͨ͠΋ͷ ● จॻͷத਎ ○ ෼ྨʹॏཁͳ৘ใ͸ςΩετͷॳΊʹݱΕ΍͍͢ ■ ࣄۀ಺༰ɼ੡඼ɼ… ○ ෼ྨʹෆཁͳ৘ใ͸ςΩετͷऴΘΓʹݱΕ΍͍͢ ■ ૑ۀऀͷ໊લɼຊࣾॴࡏ஍ɼ… ༧උ࣮ݧɿςΩετʹ͍ͭͯ 7 اۀ͋ͨΓͷ୯ޠΧ΢ϯτ ౓ ਺ ౓ ਺ ্৔اۀ ඇ্৔اۀ

Slide 8

Slide 8 text

ఏҊख๏ɿڞมྔγϑτ໰୊ͷ཈੍ (1/4) ● (i) ଐੑ৘ใͷਓҝతͳܽଛ ● (ii) Adversarial ValidationΛར༻ͨ͠ಛ௃બ୒ ● (iii) ςΩετͷτʔΫϯ௕ͷௐ੔ 8

Slide 9

Slide 9 text

ఏҊख๏ɿڞมྔγϑτ໰୊ͷ཈੍ (2/4) ● (i) ଐੑ৘ใͷਓҝతͳܽଛ ○ ֶशσʔλͱ༧ଌσʔλͷؒʹ͸ଐੑ৘ใͷܽଛ཰ʹେ͖ͳ͕ࠩ͋Δ ○ ֶशσʔλʢ্৔ʣɾධՁσʔλʢඇ্৔ʣʹ͓͍ͯ΋ଐੑΛਓҝతʹϥϯμϜʹܽଛͤ͞Δ ■ ΑΓ࣮ࡍͷ༧ଌର৅ͱͳΔσʔλͷಛੑʹ͚ۙͮΔ ● (ii) Adversarial ValidationΛར༻ͨ͠ಛ௃બ୒ ● (iii) ςΩετͷτʔΫϯ௕ͷௐ੔ 9

Slide 10

Slide 10 text

ఏҊख๏ɿڞมྔγϑτ໰୊ͷ཈੍ (3/4) ● (i) ଐੑ৘ใͷਓҝతͳܽଛ ● (ii) Adversarial ValidationΛར༻ͨ͠ಛ௃બ୒ cf. [Pan+, 2020] ○ ݩͷ෼ྨ໰୊Λղ͘ͷͰ͸ͳ͘ɺʮֶशσʔλ͔ධՁσʔλ͔ʁʯΛ༧ଌ͢ΔϞσϧΛֶश ˠ༧ଌʹେ͖͘ߩݙͨ͠ಛ௃ྔʹڞมྔγϑτ΁ͷӨڹେ ͱߟ͑ɼআ֎͢Δ ● (iii) ςΩετͷτʔΫϯ௕ͷௐ੔ 10

Slide 11

Slide 11 text

ఏҊख๏ɿڞมྔγϑτ໰୊ͷ཈੍ (4/4) 11 ● (i) ଐੑ৘ใͷਓҝతͳܽଛ ● (ii) Adversarial ValidationΛར༻ͨ͠ಛ௃બ୒ ● (iii) ςΩετͷτʔΫϯ௕ͷௐ੔ ○ BERTͷݪ࿦จͰ͸τʔΫϯ௕ = 512ͱ͍ͯ͠Δ [Devlin+, 2019] ͕ɼຊݚڀͰ͸ΑΓ୹͍128ΛఏҊ ○ ඇ্৔ͷ৔߹͸શମతʹจষ͕୹͍ͨΊɺͦΕʹ߹ΘͤͯϞσϦϯά͢΂͖ ○ ༧ଌʹ͋ͨͬͯॏཁͳ৘ใ͸લஈʹهࡌ͞Ε΍͍͢ ■ ޙஈʹ͸෼ྨʹͱͬͯॏཁͰͳ͍આ໌͕ฒͿ ■ ಛʹֶशσʔλʹ͓͍ͯɼ128ޠΛ௒͑Δઆ໌จ͸৑௕ͱΈͳͯ͠੾ΓࣺͯΔ

Slide 12

Slide 12 text

࣮ݧɿϞσϧ֓ཁ (1/3) 12 ● ֓؍ ● খ෼ྨίʔυΛ༧ଌ͢Δ524Ϋϥε෼ྨ໰୊Λղ͘ ● ςΩετ͕ແ͍৔߹͸ਫ਼౓͕ग़ͳ͍ → ػցֶशΛఘΊϧʔϧϕʔεͰ༧ଌ (ݚڀͷର৅֎) େ෼ྨ༧ଌ த෼ྨ༧ଌ খ෼ྨ༧ଌ BERT Ξϯαϯϒϧ ʢ૬Ճฏۉʣ LightGBM ΧςΰϦ ಛ௃ ςΩετ ಛ௃ ༧ ଌ ݁ Ռ null? NO YES ैདྷͷϧʔϧ ϕʔε෇൪

Slide 13

Slide 13 text

࣮ݧɿϞσϧ֓ཁ (2/3) 13 ● LightGBM ○ ΧςΰϦม਺ٴͼςΩετಛ௃ྔͷ૒ํΛѻ͍΍͍ͨ͢Ί࠾༻ ○ େ෼ྨ ʼ த෼ྨ ʼ খ෼ྨͱ͍͏֊૚ߏ଄ʹͳ͍ͬͯΔͨΊɺ ΑΓେ͖ͳཻ౓Ͱͷ෼ྨ৘ใ͸େ͖ͳख͕͔ΓʹͳΔ ■ େ෼ྨ༧ଌʢ15Ϋϥεʣ ! த෼ྨ༧ଌʢ68Ϋϥεʣ !" খ෼ྨ༧ଌʢ524Ϋϥεʣͷ3εςʔδ੍Λಋೖ ■ લஈͷ༧ଌ݁ՌΛޙஈͷೖྗಛ௃ྔͷҰ෦ͱͯ͠ར༻ ɾςΩετಛ௃ྔ - اۀ໊ͷ5'*%' - ֓ཁςΩετͷ5'*%' - ੡඼৘ใͷ5'*%' ɾΧςΰϦม਺ - ࠃ໊ - ෼໺ - ۀք େ෼ྨ༧ଌ ɾςΩετಛ௃ྔ - اۀ໊ͷ5'*%' - ֓ཁςΩετͷ5'*%' - ੡඼৘ใͷ5'*%' ɾΧςΰϦม਺ - ࠃ໊ - ෼໺ - ۀք - େ෼ྨ༧ଌॱҐ ɾςΩετಛ௃ྔ - ֓ཁςΩετͷ!"#$%" - ੡඼৘ใͷ!"#$%" - ֓ཁςΩετɾ੡඼৘ใͷ&'()*+* ,)-.*+*/0122342*+*56783910:*&36236;3* (6;<=39 ɾΧςΰϦม਺ - ۀք - େ෼ྨ༧ଌॱҐ - த෼ྨ༧ଌॱҐ த෼ྨ༧ଌ খ෼ྨ༧ଌ

Slide 14

Slide 14 text

࣮ݧɿϞσϧ֓ཁ (3/3) 14 ● BERT ○ ςΩετͷܥྻతͳಛ௃ɾจ຺Λߟྀͨ͠දݱΛར༻͠ɼ #$%&'()*ͱͷΞϯαϯϒϧͰ૬ิతʹਫ਼౓ΛߴΊΔ ○ +,%%$-%"./01"23/-45637134ͷ813'98/419,-0/41:Λར༻ ;<6=5>?"@A@AB ○ ଐੑ৘ใ͸ෆཁ ! ࠷ॳ͔Βখ෼ྨΛ௚઀༧ଌ ● Ξϯαϯϒϧ ○ ୯ମϞσϧͷੑೳ͕΄΅ಉ౳Ͱ͋ΔͨΊɼ2ͭͷϞσϧͷग़ྗʹ͍ͭͯ୯७ͳ૬ՃฏۉΛͱΔ

Slide 15

Slide 15 text

࣮ݧઃఆ 15 ● σʔλͷ෼ׂ ○ ্৔اۀσʔλɿC@?DE@݅ ■ ૚Խநग़ʹΑΓ ֶशσʔλɿධՁσʔλʹDFGʹ෼ׂ ● ෼ׂͰ͖ͳ͍෼ྨʢαϯϓϧαΠζʹHʣ͸ର৅֎ͱ͢Δ ■ ֶशσʔλʹରͯ͠ E956=:"૚ԽΫϩεόϦσʔγϣϯ ● EͭͷϞσϧΛ࡞੒͠ɼ࠷ऴతͳ༧ଌ஋͸EͭͷฏۉΛ࠾༻͢Δ ○ ඇ্৔اۀσʔλɿ@IJ݅ ■ ༗ࣝऀͷڠྗʹΑΓϥϕϧ෇͖σʔλΛ༻ҙ ■ શͯΛධՁσʔλͱͯ͠ར༻ ● ධՁࢦඪɿਖ਼౴཰ʢ!""#$%"&ʣ ○ αʔϏεཁ݅ɿ୯७ʹ݅਺ϕʔεͰͷਖ਼౴཰Λ্͍͛ͨ

Slide 16

Slide 16 text

࣮ݧ݁Ռ (1/3) 16 ○ ఏҊ๏ ■ !"#$ଐੑ৘ใͷਓҝతͳܽଛ ■ !""#$%&'()*+)"+,$-+,"&+."/0Λར༻ͨ͠ಛ௃બ୒ ■ !"""#$ೖྗςΩετͷτʔΫϯ௕ͷௐ੔ ਖ਼ ౴ ཰ ● ਖ਼౴཰ ○ #$%&'()* ■ ݕূσʔλɾධՁσʔλؒͰ@AϙΠϯτҎ্ͷဃ཭ !"ఏҊ๏K$L?"K$$LͰ͍ͣΕ΋վળ (%)

Slide 17

Slide 17 text

࣮ݧ݁Ռ (2/3) 17 ● ਖ਼౴཰ ○ BERT ■ ఏҊ๏ͳ͠ʹൺ΂ͯɼఏҊ๏K$$$LͰվળ ○ ఏҊ๏ ■ !"#$ଐੑ৘ใͷਓҝతͳܽଛ ■ !""#$%&'()*+)"+,$-+,"&+."/0Λར༻ͨ͠ಛ௃બ୒ ■ !"""#$ೖྗςΩετͷτʔΫϯ௕ͷௐ੔ ਖ਼ ౴ ཰ (%)

Slide 18

Slide 18 text

࣮ݧ݁Ռ (3/3) 18 ● ਖ਼౴཰ ○ Ξϯαϯϒϧ ■ ୯ମϞσϧʹൺ΂͍ͯͣΕ΋ߴੑೳɼఏҊ๏ʹΑΓධՁσʔλͷ༧ଌੑೳ޲্ ■ αʔϏεʹैདྷಋೖ͞Ε͍ͯͨϧʔϧϕʔεʹରͯ͠HMN@AϙΠϯτ΋ͷ༧ଌੑೳ޲্ ○ 提案法 ■ (i) 属性情報の人為的な欠損 ■ (ii) Adversarial Validationを利用した特徴選択 ■ (iii) 入力テキストのトークン長の調整 ਖ਼ ౴ ཰ アンサンブル-提案法 (%)

Slide 19

Slide 19 text

ߟ࡯ (1/2) 19 ● ֤ख๏ͷߩݙ౓ ○ ߩݙ౓େɿHHϙΠϯτO""""""""""" ■ K$L"ଐੑ৘ใͷਓҝతͳܽଛ ● ./0'P1'ࣾج४ͷۀछϥϕϧʮQ-:,4'3RʯΛϥϯμϜʹܽଛͤ͞Δํ͕ ඇ্৔اۀΛ্ख͘༧ଌ͢Δ ! ʮIndustryʯͱਖ਼ղͱͷؔ܎্͕৔اۀɾඇ্৔اۀؒͰେ͖͘ဃ཭ ■ K$$L"S:T134/3$/="U/=$:/'$6-Λར༻ͨ͠ಛ௃બ୒ ● আ֎ͨ͠ಛ௃ྔHͭ͸ɼଞΑΓ΋ൈ͖Μग़ͯॏཁ౓͕ߴ͘ग़ͨ ● ෳ਺ಛ௃ྔͷ࡟আͳͲ΋ࠓޙࢼ͢Ձ஋͋Γ ○ ߩݙ౓খɿ@ϙΠϯτO ■ K$$$L"ೖྗςΩετͷτʔΫϯ௕ͷௐ੔ ■ Ξϯαϯϒϧ ● )VW2͸ݩʑڞมྔγϑτͷӨڹ͕େ͖͘ͳ͘ɼ #$%&'()*ͰͷѱӨڹΛΞϯαϯϒϧͰٵऩͯ͘͠Εͨ * : ͦΕͧΕఏҊख๏ͳ͠ͱൺֱͨ͠ͱ͖ͷ ဃ཭ͷվળ෯

Slide 20

Slide 20 text

ߟ࡯ (2/2) 20 ● ఆੑతͳΤϥʔ෼ੳ ○ ۀք෼ྨ͝ͱͷʮ౰ͯ΍͢͞ɾ౰ͯʹ͘͞ʯͷௐࠪʢGAA݅͘Β͍ʣ ■ ʮαϯϓϧαΠζEAҎ্ʯͷۀք෼ྨ͔Βਫ਼౓ϫʔετEͷσʔλΛશ෦ݟΔ ■ ʮαϯϓϧαΠζEAະຬʯͷۀք෼ྨ͔Βਫ਼౓ ϕετEͷσʔλΛશ෦ݟΔ ○ ΤϥʔͷݪҼɿ ■ اۀ͕ల։͢Δෳ਺ࣄۀʹ͍ͭͯهड़͞Ε͓ͯΓɺHͭʹߜΓʹ͍͘ ● X୯Ұࣄۀͷձࣾ͸౰ͯ΍͍͢܏޲ ■ ਓؒͰ΋൑அ͕೉͍͠Α͏ͳޡ෼ྨ΋ଟ͍ ● ʢྫʣύοέʔδιϑτʢҰൠ޲͚ʣ63"ύοέʔδιϑτʢͦͷଞۀ຿޲͚ʣ ● ιϑτ΢ΣΞܥͷ෼ྨ͸બ୒ࢶ΋ଟ͘ɼ෼ྨͷఆٛʹ͍ͭͯਂ͍ཧղ͕ඞཁ ■ ਖ਼ղϥϕϧͷϛεʹݟ͑Δ΋ͷʢY6$4R"#/81=4ʣ ● ʢྫʣ8$6=6%$0":3,%4"Λల։ ! ਖ਼ղɿϑΝετϑʔυʢϋϯόʔΨʔʣ

Slide 21

Slide 21 text

·ͱΊ 21 ● !"#$%&$͕ࣾఏڙ͢Δاۀσʔλʹରͯ͠ɺ ඇ্৔اۀͷۀք෼ྨίʔυΛ෇༩͢ΔͨΊͷػցֶशϞσϧʹ͍ͭͯఏҊ ● ্৔اۀ ͷ ݕূ σʔλ ʹରͯ͠ਖ਼ղ཰'()'*ɺ ඇ্৔اۀ ͷ ςετσʔλ ʹରͯ͠ਖ਼ղ཰'+),*Λୡ੒ ○ ػցֶशͳ͠ͷैདྷख๏ͱൺ΂ͯ12ʙ34ϙΠϯτͷվળ ● ্৔اۀσʔλͱඇ্৔اۀσʔλͷؒʹଘࡏͨ͠ڞมྔγϑτͷӨڹΛ௿ݮ ○ (i) ଐੑ৘ใͷਓҝతͳܽଛ ○ (ii) Adversarial ValidationΛར༻ͨ͠ಛ௃બ୒ ○ (iii) ೖྗςΩετͷτʔΫϯ௕ͷௐ੔ ● ఏҊख๏͸೔ຊܦࡁ৽ฉࣾͷ࣮αʔϏε΁ಋೖࡁΈ