対話型AIの構築における工夫とデータセットの重要性 - 素早くデータを構築し検証するためには

ର࿩ܕAIͷߏஙʹ͓͚Δ޻෉ͱσʔληοτͷॏཁੑ ૉૣ͘σʔλΛߏங͠ݕূ͢ΔͨΊʹ͸ 2022/09/30 Ubieגࣜձࣾ Ԟా ༟थ

2 Ԟా ༟थ Yuki Okuda Recruit → Sansan → Ubie
@yag_ays ࣗݾ঺հ https://yag-ays.github.io/

3 ࠓ೔࿩͢͜ͱ / ࿩͞ͳ͍͜ͱ ࿩͢͜ͱ • ʮίΤΧϧςʯʹ͓͚Δ໰਍ର࿩͔ΒͷΧϧςੜ੒ • ͲͷΑ͏ͳλεΫͷσʔλΛΞϊςʔγϣϯʹΑΓ࡞੒͔ͨ͠ •
σʔλ࡞੒ͷ࣮ྫ঺հ • ௚઀ґཔܕͷΫϥ΢υιʔγϯά΁ͷσʔλ࡞੒ґཔ • ΞϊςʔγϣϯαʔϏεձࣾ΁ͷσʔλ࡞੒ґཔ • σʔλ࡞੒ʹ͓͚Δૉૣ͍Ձ஋ݕূͷॏཁੑ • Ξϊςʔγϣϯ࡞ۀʹ͓͚Δෆ࣮֬ੑʹ͍ͭͯ ࿩͞ͳ͍͜ͱ • Ξϊςʔγϣϯͨ͠σʔλΛར༻ͨ͠ػցֶशͷ۩ମٕज़ɺΞΫςΟϒϥʔχϯάͳͲ

4 • ࡞ۀऀ • Ξϊςʔγϣϯ࡞ۀΛߦ͏ਓɻΞϊςʔλʔɺΫϥ΢υϫʔΧʔͱ΋ݴ͏ • ୀ۶ͳσʔλ࡞੒࡞ۀΛࠜؾڧ͘ߦͬͯ͘ΕΔ༗Γ೉͍ଘࡏ • ґཔऀ •
Ξϊςʔγϣϯ࡞ۀΛґཔ͢Δਓ • ࠓճͰݴ͏ͱࢲͷ͜ͱɻଵଦͰ୹ظͰίϛϡχέʔγϣϯ͕ۤख • ΞϊςʔγϣϯαʔϏεձࣾ • ػցֶशͷσʔλ࡞੒΍Ξϊςʔγϣϯ࡞ۀΛ੥͚ෛ͏ձࣾͷ͜ͱ • ࠓճͷ৔߹FastLabel͞ΜͷΑ͏ͳձࣾ ొ৔ਓ෺ɾ༻ޠ

5 ʮίΤΧϧςʯʹ͓͚Δ໰਍ର࿩͔ΒͷΧϧςੜ੒

6 ʮίΤΧϧςʯ͸໰਍ձ࿩͔ΒࣗಈͰΧϧςΛੜ੒͢ΔϓϩμΫτ ʮࠓ೔͸Ͳ͏͞Ε·͔ͨ͠ʁʯ ʮࠓே͔Β಄͕௧ͯ͘ɺు͖ؾ΋গ͋͠ΔΜͰ͢ʯ ɾࠓே͔Β಄௧ ɾᅅؾ • ҩࢣͷ໰਍ͷԻ੠͔ΒϦΞϧλΠϜͰจࣈى͜͠ & Χϧςੜ੒Λߦ͏
• ҩࢣͷΧϧςهࡌෛՙͷ࡟ݮ • จࣈى݁͜͠ՌʹΑΔه࿥ (ΠϯϑΥʔϜυίϯηϯτ) ͷ໾ׂ

7 • Ի੠ೝࣝɿҩࢣͱױऀͷձ࿩ͷจࣈى͜͠ • ҩྍ෼໺ͷઐ໳༻ޠͷରԠɺಉԻҟٛޠ౳΁ͷରԠ • e.g. A1cʢ͑ʔΘΜ͠ʔ, ݂ӷݕࠪͷ߲໨໊ʣɺײછͱסᚔ •
ҩࢣͱױऀͷ࿩ऀೝࣝɺϚΠΫͷਫ਼౓ɺ໰਍ࣨ಺ͷϊΠζɺ౳ • ࣗવݴޠॲཧɿจࣈىͨ͜͠͠ձ࿩ςΩετ͔ΒͷΧϧςهࡌจͷ࡞੒ • ձ࿩จͷॻ͖ى͜͠Λೖྗͱͯ͠ѻ͏ • ޱޠௐɺϑΟϥʔɺݴ͍ؒҧ͍ɺͦ΋ͦ΋จࣈى͜͠ͷೝࣝؒҧ͍ • ձ࿩ͷҙຯΛཧղ͠ɺΧϧςจΛநग़/ੜ੒͢ΔͨΊͷཁ໿λεΫ • ױऀͷݴ༿͔Βҩࢣͷݴ༿΁ͷม׵ɺࣗવͳΧϧςهࡌจΛ࡞੒͢Δඞཁ ίΤΧϧςʹ͓͚ΔػցֶशλεΫ ࠓճ͸ࣗવݴޠॲཧͷΧϧςจੜ੒λεΫʹ͍͓ͭͯ࿩͠·͢

8 • ύϒϦοΫʹར༻Մೳͳσʔληοτͷෆࡏ • ݸਓ৘ใ؍఺Ͱױऀσʔλ͸৻ॏʹऔΓѻΘΕɺݚڀͱ͍͑Ͳ༰қʹެ։Ͱ͖ͳ͍ • ҰํͰɺප໊΍ҩྍτϐοΫͷࣙॻͳͲ͸ެ։͞Ε͍ͯΔ • ҩࢣ΍؃ޢࢣͱ͍ͬͨҩྍैࣄऀ͸ߴ୯Ձ •
ઐ໳ٕೳΛ༗͢Δҩྍैࣄऀͷ୯Ձ͸ߴ͍ • ·ͱ·ͬͨ༧ࢉ͕ͳ͚Ε͹େن໛ʹσʔληοτΛ࡞੒͢Δ͜ͱ͸೉͍͠ ҰൠతͳҩྍυϝΠϯʹ͓͚Δσʔληοτ࡞੒ͷϋʔυϧ → λεΫʹ߹ͬͨσʔληοτΛ͍͔ʹޮ཰Α͘࡞੒͢Δ͔ʁ

9 • Ұൠతʹ͸ػցֶशʹΑͬͯ༧ଌ/ੜ੒͢Δ໨తม਺Λɺ࡞ۀऀ͕࡞੒͢Δ • ࠓճͷ৔߹ɺ࡞ۀऀ͸ΧϧςΛॻ͚ΔҩࢣͰͳ͍ͱͰ͖ͳ͍ → ߴ୯ՁͰֻ͓͕͔ۚΔ ҩࢣͰͳ͍ී௨ͷ࡞ۀऀ͕σʔλ࡞੒Ͱ͖ΔΑ͏ʹλεΫΛม׵͢Δ ௨ৗ ʮࠓ೔͸Ͳ͏͞Ε·͔ͨ͠ʁʯ
ʮࠓே͔Β಄͕௧ͯ͘ɺు͖ؾ΋ গ͋͠ΔΜͰ͢ʯ ೖྗ ग़ྗ ɾࠓே͔Β಄௧ ɾᅅؾ

10 • Ұൠతʹ͸ػցֶशʹΑͬͯ༧ଌ/ੜ੒͢Δ໨తม਺Λɺ࡞ۀऀ͕࡞੒͢Δ • ࠓճͷ৔߹ɺ࡞ۀऀ͸ΧϧςΛॻ͚ΔҩࢣͰͳ͍ͱͰ͖ͳ͍ → ߴ୯ՁͰֻ͓͕͔ۚΔ • ΋͠໨తม਺͕ܾ·͍ͬͯΔͷͰ͋Ε͹ɺٯʹσʔλ෦෼Λ࡞੒͢Δͱ͍͏λεΫʹม׵Ͱ͖Δ •
໰਍ͷձ࿩͸ױऀʹ΋෼͔ΔΑ͏ʹฏқͳݴ༿Ͱ࿩͞ΕΔ͜ͱ͕ଟ͍ ҩࢣͰͳ͍ී௨ͷ࡞ۀऀ͕σʔλ࡞੒Ͱ͖ΔΑ͏ʹλεΫΛม׵͢Δ ௨ৗ ม׵ޙ ʮࠓ೔͸Ͳ͏͞Ε·͔ͨ͠ʁʯ ʮࠓே͔Β಄͕௧ͯ͘ɺు͖ؾ΋ গ͋͠ΔΜͰ͢ʯ ೖྗ ग़ྗ ɾࠓே͔Β಄௧ ɾᅅؾ ɾࠓே͔Β಄௧ ɾᅅؾ ʮࠓ೔͸Ͳ͏͞Ε·͔ͨ͠ʁʯ ʮࠓே͔Β಄͕௧ͯ͘ɺు͖ؾ΋ গ͋͠ΔΜͰ͢ʯ

11 σʔλ࡞੒ͷ࣮ྫ - ௚઀ґཔܕ

12 • ୈ1εςοϓͱͯ͠Ϋϥ΢υιʔγϯάΛར༻ͯ͠σʔλऩू • ͱʹ͔͘ਫ਼౓͕௿ͯ͘΋ྑ͍ͷͰσʔλ͕͋Ε͹Χϧςੜ੒͕Ͱ͖Δ͜ͱΛݕূ͍ͨ͠ • ΢Σϒ্Ͱґཔऀͱ࡞ۀऀ͕௚઀΍ΓऔΓ͢ΔΫϥ΢υιʔγϯάͷϓϥοτϑΥʔϜΛར༻ • ґཔ಺༰ •
6໊ʹґཔʢσʔληοτΛ3෼ׂɺಉҰλεΫΛ2໊ʹׂΓৼΓʣ • λεΫࣗମ͸1ਓ͋ͨΓ4࣌ؒ΄ͲͰऴྃ͢Δ෼ྔ • Ξϊςʔγϣϯπʔϧ͸OSSͷDoccano*Λར༻ ୈ1εςοϓɿ௚઀ґཔܕͷΫϥ΢υιʔγϯάαʔϏεΛར༻ * https://github.com/doccano/doccano

13 ϝϦοτ • Ձ֨ަব͕ՄೳͰɺൺֱత҆Ձʹ཈͑ΒΕΔ • ࢧ෷͍ํ๏: ݻఆใु / ࣌ؒ୯Ձ Λબ୒
• ࡞ۀऀͷϦιʔεΛؾʹ͢Δඞཁ͕ͳ͍ ʢܖ໿࣌ʹظ೔΍Քಇ૝ఆΛ߹ҙʣ • ৬छ΍ઐ໳ٕೳΛߟྀͨ͠ґཔ͕Մೳ • ҩࢣ΍؃ޢࢣͱ͍ͬͨ৬छΛެ։͍ͯ͠ Δਓʹରͯ͠ɺݸผʹґཔՄೳ ௚઀ґཔܕͷΫϥ΢υιʔγϯάαʔϏε σϝϦοτ • ४උ΍ґཔ࣌ͷ؅ཧ޻਺͕͔͔Δ • ࡞ۀऀ͝ͱʹ࡞ۀγʔτ΍id/passwordΛɹ ෷͍ग़ͯ͠ݸผʹ࿈བྷ • ࡞ۀऀͷ࣭໰΍࿈བྷʹ౎౓ճ౴͕ඞཁ • ґཔ਺͕ଟ͘ͳΕ͹ͳΔ΄Ͳ؅ཧ޻਺͸૿େ • ܧଓతͳґཔ͕೉͍͠৔߹͕͋Δ • ༏ྑͳ࡞ۀऀ͕͍ͨͱͯ͠ɺܧଓతʹ࡞ۀΛ ґཔͰ͖Δ͔͸ͦͷ࡞ۀऀ࣍ୈ

14 Ϋϥ΢υιʔγϯάʹΑΔΞϊςʔγϣϯ࡞ۀͷྲྀΕ ࣄલ४උ ืूɾܖ໿క݁ɾґཔ ࡞ۀ ࡞ۀ׬ྃ ݕ඼ ݁Ռͷूܭ

15 • Ξϊςʔγϣϯ༻ͷσʔληοτ࡞੒ • ࡞ۀऀ͝ͱʹσʔλΛ෼ׂ͢Δ • ׬શϥϯμϜ͕ྑ͍ͷ͔ɺಉҰ࡞ۀऀʹಉ ͡܏޲ͷσʔλΛ೚ͤͨ΄͏͕ྑ͍ͷ͔ • ΞϊςʔγϣϯΨΠυϥΠϯΛ࡞੒
• ࡞ۀํ๏Λهड़ͨ͠υΩϡϝϯτ • ΨΠυϥΠϯ͕ਫ਼៛ʹఆ·͍ͬͯͳ͍ͱɹ ظ଴͢ΔΞ΢τϓοτ͕ग़ͯ͜ͳ͍ • ࡞ۀऀͷ࣭໰ͳͲʹԠͯ͡ਵ࣌Ξοϓσʔτ͠ ͍ͯ͘ ࡞ۀͷྲྀΕ: ࣄલ४උ ࣄલ४උ ืूɾܖ໿క݁ɾґཔ ࡞ۀ ࡞ۀ׬ྃ ݕ඼ ݁Ռͷूܭ

16 ࣮ࡍʹ࡞੒ͨ͠ΞϊςʔγϣϯΨΠυϥΠϯ

17 ࣮ࡍʹ࡞੒ͨ͠ΞϊςʔγϣϯΨΠυϥΠϯ ࡞ۀํ๏ πʔϧͷ࢖͍ํ΍खॱ ۩ମྫ ྑ͍ೖྗ/ѱ͍ೖྗͷྫࣔ શମͷ֓ཁ ɾͳͥ͜ͷλεΫΛ͢Δͷ͔

18 • ฏқͳݴ༿ͰΘ͔Γ΍͘͢આ໌͠ɺεΫϦʔϯγϣοτ΍ಈըΛଟ༻͢Δ • ࡞ۀऀ͸ҰൠͷਓͳͷͰɺͳΔ΂͘ԣจࣈ΍ઐ໳༻ޠ͸࢖Θͣʹฏқͳݴ༿Λ࢖͏ • ࣮ࡍͷπʔϧͷ࢖͍ํΛը૾΍ಈըͰઆ໌͢Δͱཧղ͕ૣ͍ • ࡞ۀͷ۩ମྫΛఏࣔ͢Δ •
ͲΜͳΞ΢τϓοτΛظ଴͞Ε͍ͯΔͷ͔Λཧղͯ͠΋Β͏ • ͨͩ͠ྫࣔͷΠϝʔδ͕ڧ͗͢ΔͱͦΕʹҾͬுΒΕͯ͠·͏ͷͰɺඞཁ࠷খݶʹ͢Δ • (ඞཁʹԠͯ͡) ಡΜͩޙʹ؆୯ͳ࡞ۀΛ΍ͬͯ΋Β͏ • υΩϡϝϯτΛಡΜ͚ͩͩͰ׬ᘳʹͰ͖ΔΘ͚Ͱ͸ͳ͍ • ࡞ۀऀͷཧղ౓΍ٕྔΛଌΔͨΊʹɺ໛ٖతͳλεΫΛ࣮ߦͯ͠΋Β͏ ΞϊςʔγϣϯΨΠυϥΠϯͷίπ

19 • ืू • ืूจΛ࡞੒ͯ͠ग़ߘ • ࡞ۀ಺༰ͷઆ໌ • ୯Ձ /
ใुͷछྨ (ݻఆใु or ࣌ؒ୯Ձ) • ૝ఆ࣌ؒ • ඞཁεΩϧ΍ܦݧ • ϓϥοτϑΥʔϜʹΑͬͯ͸ґཔଆ͔Β࡞ۀऀ Λબ୒ͯ͠࡞ۀґཔΛૹΔ͜ͱ΋Մೳ • ܖ໿క݁ɾґཔ • Ԡืऀʹ໰୊͕ͳ͚Ε͹ґཔ͠ۀ຿Λ։࢝ ࡞ۀͷྲྀΕ: ืूɾܖ໿క݁ ࣄલ४උ ืूɾܖ໿క݁ɾґཔ ࡞ۀ ࡞ۀ׬ྃ ݕ඼ ݁Ռͷूܭ

20 ࡞ۀલͷίϛϡχέʔγϣϯɿ࡞ۀऀͱͷίϛϡχέʔγϣϯ ܖ໿ޙͷѫࡰͱґཔ ݕ඼ͱ௥ՃରԠ

21 • جຊతʹ͸࡞ۀऀͷ࡞ۀ͕׬ྃ͢ΔͷΛ଴ͭ • ͨͩ͠ฒྻͰෳ਺ͷ࡞ۀऀʹґཔ͍ͯ͠Δͱɹ ίϛϡχέʔγϣϯ͕ൃੜ͢ΔͨΊຖேϓϥο τϑΥʔϜͷνϟοτཝΛνΣοΫ͢Δ • ࡞ۀʹؔ͢Δ࣭໰΁ͷճ౴ରԠ •
ࣗ෼͕ґཔͨ͠ํ͸͔ͳΓஸೡʹ΍ͬͯ͘ΕΔ ਓ͹͔ΓͩͬͨͷͰɺࡉ͔͍෦෼΋࣭໰ͯ͘͠ Εͨ • ݕ඼ • ੒Ռ෺ͷ࠷ऴνΣοΫ • ࡞ۀͷൈ͚࿙Ε͕͋Δͱ௥ՃͰ࡞ۀͯ͠΋Β͏ ࡞ۀͷྲྀΕ: ࡞ۀˠ׬ྃˠݕ඼ ࣄલ४උ ืूɾܖ໿క݁ɾґཔ ࡞ۀ ࡞ۀ׬ྃ ݕ඼ ݁Ռͷूܭ

22 • ϓϩδΣΫτ։࢝௚ޙͷԾઆݕূʹ͸ྑ͍ • ४උ͕׬ྃ࣍͠ୈ͙͢ʹ࡞ۀΛ։࢝ͯ͘͠ΕΔͷͰɺগྔσʔλͳΒ͹͙͢ʹू·Δ • ૝ఆ͍ͯ͠ͳ͔ͬͨ໰୊΍ΞϊςʔγϣϯΨΠυϥΠϯͷෆඋʹؾ෇͘͜ͱ͕Ͱ͖Δ • ෳ਺ͷ࡞ۀऀͱͷίϛϡχέʔγϣϯ/Ϛωʔδϝϯτ͕ϘτϧωοΫʹͳΓεέʔϧ͸ࠔ೉ •
࡞ۀऀ΁ͷ࡞ۀ಺༰ࢦಋ΍࣭໰΁ͷճ౴ͳͲɺࢥͬͨҎ্ʹ࡞ۀ͕ൃੜ͢Δ • εέʔϧͤ͞Δʹ͸ґཔऀଆʹ؅ཧऀΛཱͯͯɺ࡞ۀ಺༰ʹशख़ͯ͠΋Β͏ඞཁ͕͋Δ ௚઀ґཔܕͷ·ͱΊ → ؅ཧ޻਺ͷ௿ݮͱσʔλ࡞੒ͷεέʔϧΞ΢τͷͨΊʹ ɹΞϊςʔγϣϯ࡞੒ձࣾ΁ґཔ͢Δ͜ͱʹ

23 σʔλ࡞੒ͷ࣮ྫ - ΞϊςʔγϣϯαʔϏεܕ

24 • ࣍ʹΞϊςʔγϣϯαʔϏεͷձࣾʹґཔ͢Δ͜ͱʹ • ؅ཧ޻਺ͷ࡟ݮͱσʔλऩू଎౓޲্ͷͨΊ • ॳظݕূΛૉૣ͘ߦ͏ͨΊʹҰ࣌తͳίετ૿͸ߏΘͳ͍ • ෳ਺ࣾʹݟੵ΋ΓΛґཔ •
ࢥ͍ͭ͘ΞϊςʔγϣϯαʔϏεΛఏڙ͍ͯ͠ΔձࣾΛϦετΞοϓ͠ɺϝʔϧΛૹΔ • ࠓճ͸λεΫ͕গ͠ෳࡶʢର࿩/ੜ੒λεΫʣͳͷͰɺϦϞʔτϛʔςΟϯάͷґཔ΋ߦͬͨ • ࠓճ͸FastLabel͞Μʹґཔ͢Δ͜ͱʹ • ܾΊख͸஋ஈ + ରԠͷஸೡ͞ • (ੲTwitterͰ΍ΓऔΓ͕͋ΓΞϊςʔγϣϯπʔϧ࡞ͬͯͯ໘നͦ͏ͳձࣾͩͬͨͱ͍͏ͷ΋) ୈ2εςοϓɿΞϊςʔγϣϯ࡞੒ձࣾ΁ͷґཔ

25 ΞϊςʔγϣϯαʔϏεʹґཔ͢Δ͜ͱͰɺ֤޻ఔ͕Ͳ͏ͳΔ͔ ΞϊςʔγϣϯαʔϏε ࣄલ४උ ืूɾܖ໿క݁ɾґཔ ࡞ۀ ࡞ۀ׬ྃ ݕ඼ ݁Ռͷूܭ ࣄલ४උɾґཔ
ݕ඼ ݁Ռड͚औΓ

26 • ࡞ۀऀͷϚωʔδϝϯτ͓Αͼ֤छίϛϡχέʔγϣϯϥΠϯ͕؆ུԽ • େ෯ͳ؅ཧ޻਺ݮ ࡞ۀऀͱͷίϛϡχέʔγϣϯϥΠϯ͕؆ུԽ Ϋϥ΢υιʔγϯάϓϥοτϑΥʔϜͷ৔߹ ΞϊςʔγϣϯαʔϏεͷ৔߹

27 • ࡞ۀ಺༰͸΄΅มߋͤͣ • ΞϊςʔγϣϯΨΠυϥΠϯ౳͸ͦͷ··ར༻ • ࡞ۀϓϥοτϑΥʔϜ͚ͩFastLabelಠࣗͷ΢ΣϒΞϓϦέʔγϣϯΛར༻ • ίϛϡχέʔγϣϯखஈ͕Slackʹʂ •
ϚϧνϫʔΫεϖʔενϟϯωϧΛ࡞੒͠ɺslack্ͰίϛϡχέʔγϣϯՄೳʹ • UbieଆͷϓϩμΫτΦʔφʔ΍։ൃऀ΋ࢀՃ͠ɺٞ࿦΍৘ใڞ༗ʹࢀՃͰ͖Δ • ϝʔϧͱҧ͍ɺίϛϡχέʔγϣϯͷ৺ཧతϋʔυϧ͕Լ͕Δ (ΤϯδχΞʹ͸خ͍͠) Ϋϥ΢υιʔγϯά͔Βͷ࡞ۀͷมߋ఺

28 ୲౰ऀͱͷίϛϡχέʔγϣϯ ݟੵ΋Γґཔʢܧଓґཔͷ࣌ʣ ࡞ۀ಺༰ͷ֬ೝ Ξϊςʔγϣϯ݁Ռͷೲ඼

29 • σʔλͷ࣭͸มΘΒͣ • Ϋϥ΢υιʔγϯάͰࣗ෼Ͱίϯτϩʔϧͨ࣌͠ͱൺֱͯ͠ɺ࣭͸શ͘มΘΒͣ • ࡞ۀऀͷ؅ཧ޻਺͕େ෯ʹ࡟ݮ͞Εͨ • Ϋϥ΢υιʔγϯάͱൺֱͯ͠ɺࣄ຿తͳ࡞ۀΛେ෯ʹݮΒͤΔ •
Πϯλϥϓτ͕গͳ͘ͳΔɺࣗ෼͕શମͷϘτϧωοΫʹͳΔ͜ͱ͕ແ͍ • ݸʑͷ࡞ۀऀͷ࡞ۀ݁ՌͷूܭͳͲͷࡉ͔͍࡞ۀ΋ݮͬͨ • ࠷ॳͷλεΫઆ໌΍ґཔ࣌ͷίϛϡχέʔγϣϯίετ͚ͩඍ૿ • ग़໭ΓΛͳͨ͘͢Ίʹ͸͜ͷ෦෼͸ඞਢ ΞϊςʔγϣϯαʔϏεར༻ͷ݁Ռ

30 • ໨తͱ͍ͯͨ͠؅ཧ޻਺࡟ݮ͓Αͼσʔλ࡞੒ͷεέʔϧԽ͸ୡ੒Ͱ͖ͨ • ॳظݕূʹඞཁͳ͚ͩͷσʔλΛूΊΔ͜ͱ͕Ͱ͖ͨ • ΞϊςʔγϣϯαʔϏεଆʹɺ͍͔ʹ࡞ۀΛཧղͯ͠΋Β͏/దٓํ޲मਖ਼Ͱ͖Δ͔ • ࡞ۀऀʹ௚઀ࢦࣔ͠ͳ͘ͳͬͨ͜ͱͰɺؒ઀తʹΞϊςʔγϣϯͷ࣭Λίϯτϩʔϧ͢Δ͜ͱ ʹͳΔ
• σʔλ࡞੒Λεέʔϧͤ͞Δ or ܧଓతͳґཔ͕༰қ • ಉ͡ํ๏ͷΞϊςʔγϣϯͳΒ͹ɺઆ໌౳ͷॳظίετ͕ෆཁʹͳΔ఺͕େ͖͍ • ࡞ۀऀͷՔಇΛαʔϏεଆͰࣄલʹ֬อͰ͖Δͷ΋ϝϦοτ ΞϊςʔγϣϯαʔϏεܕͷ·ͱΊ

31 σʔλ࡞੒ʹ͓͚Δૉૣ͍Ձ஋ݕূͷॏཁੑ

32 • ϓϥοτϑΥʔϜͷબ୒͸ͦΕͧΕಘखෆಘख͕͋Δ • Ϋϥ΢υιʔγϯάɿͱʹ͔͘ॳಈ͕ૣ͍ɺίετΛ཈͑ΒΕΔ • ΞϊςʔγϣϯαʔϏεձࣾɿґཔऀ(ࣗ෼)ͷରԠίετΛݮΒͤΔɺεέʔϧͤ͞ΒΕΔ • Ͱ͸PoCஈ֊ͷϓϩδΣΫτ΍ελʔτΞοϓʹ͓͍ͯͲ͏ཱͪճΕ͹Α͍ͷ͔ʁ •
ͱΓ͋͑ͣΑ͘෼͔Βͳ͍͚ͲΞϊςʔγϣϯαʔϏεձࣾʹ౤͛ΔɺͰ͸౰વͳ͕Βବ໨ • ෆ࣮֬ੑͷղফͱߴ଎ͳݕূ͕ඞཁ ࠓճͷܦݧΛ౿·͑ͨΞϊςʔγϣϯσʔλͷ࡞Γํ

33 • Ξϊςʔγϣϯͷ࡞ۀ • ৗʹ૝ఆͰ͖ͳ͍σʔλ΍ᐆດͳϧʔϧɺྫ֎έʔε͕ग़ͯ͘Δ • ΞϊςʔγϣϯΨΠυϥΠϯΛ࠷ॳ͔Β׬ᘳʹ࡞Δ͜ͱ͸ෆՄೳ • ࡞ۀऀͷೳྗ΍Ξ΢τϓοτͷ࣭ •
࡞ۀऀͷϨϕϧ͸ҰఆίϯτϩʔϧՄೳͳର৅͕ͩɺͦͷೳྗ΍Ξ΢τϓοτͷ࣭ʹ͸౰વ͹ Β͖͕ͭ͋Δ • ͦͷ͹Β͖ͭ͸Ξϊςʔγϣϯ݅਺͕૿͑Δ͝ͱʹ૿େ͍ͯ͘͠ • ඞཁʹͳΔσʔλྔ • ػցֶशʹ͓͍ͯʮͲΕ͘Β͍σʔλ͕͋Ε͹͍͍Ͱ͔͢ʁʯͱ͍͏࣭໰͔Β͸ಀ͛ΒΕͳ͍ • ࣮ࡍʹ࡞੒ͨ͠σʔλΛݩʹػցֶशϞσϧΛֶश/ධՁ͠ͳ͍ͱΘ͔Βͳ͍ զʑ͸ԿΛ஌Βͳ͍͔ʁ

34 • Ξϊςʔγϣϯͷ࡞ۀ • ৗʹ૝ఆͰ͖ͳ͍σʔλ΍ᐆດͳϧʔϧɺྫ֎έʔε͕ग़ͯ͘Δ • ΞϊςʔγϣϯΨΠυϥΠϯΛ࠷ॳ͔Β׬ᘳʹ࡞Δ͜ͱ͸ෆՄೳ • ࡞ۀऀͷೳྗ΍Ξ΢τϓοτͷ࣭ •
࡞ۀऀͷϨϕϧ͸ҰఆίϯτϩʔϧՄೳͳର৅͕ͩɺͦͷೳྗ΍Ξ΢τϓοτͷ࣭ʹ͸౰વ͹ Β͖͕ͭ͋Δ • ͦͷ͹Β͖ͭ͸Ξϊςʔγϣϯ݅਺͕૿͑Δ͝ͱʹ૿େ͍ͯ͘͠ • ඞཁʹͳΔσʔλྔ • ػցֶशʹ͓͍ͯʮͲΕ͘Β͍σʔλ͕͋Ε͹͍͍Ͱ͔͢ʁʯͱ͍͏࣭໰͔Β͸ಀ͛ΒΕͳ͍ • ࣮ࡍʹ࡞੒ͨ͠σʔλΛݩʹػցֶशϞσϧΛֶश/ධՁ͠ͳ͍ͱΘ͔Βͳ͍ զʑ͸ԿΛ஌Βͳ͍͔ʁ λεΫͷઃܭऀ = ґཔऀ ͔͠൑அͰ͖ͳ͍ ΞϊςʔγϣϯαʔϏεଆʹ ೚ͤΔ͜ͱ͸Մೳ ػցֶशΤϯδχΞ = ґཔऀ ͔͠ධՁͰ͖ͳ͍

35 • λεΫઃܭ͸ਓʹ೚ͤΒΕͳ͍ • ػցֶशʹͲ͏͍͏Πϯϓοτ/Ξ΢τϓοτΛظ଴͢Δ͔Λߟ͑ଓ͚ͳ͚Ε͹͍͚ͳ͍ • ૉૣ͘ݕূ͠ํ޲मਖ਼Λ܁Γฦ͍ͯ͘͠ɺมԽʹదԠ͢Δ • ιϑτ΢ΣΞ։ൃͰ͍͏ΞδϟΠϧ։ൃ •
ΞϊςʔγϣϯΑΔσʔλ࡞੒ʹ͓͍ͯ΋ಉ༷ • ·ͣ͸ࣗ෼͔Βɺͦͯ͠पΓΛר͖ࠐΜͰ͍͘ • ·ͣࣗ෼ࣗ਎Ͱݕূ΍దԠͷαΠΫϧΛճͤΔΑ͏ʹͳΔ • ͦΕΛΑΓߴ଎ʹճ͢͜ͱ͕Ͱ͖Δํ๏Λ໛ࡧ͍ͯ͘͠ • Ұॹʹݕূͯ͘͠ΕΔΞϊςʔγϣϯαʔϏεΛݟ͚͍ͭͯ͘͜ͱ͕େࣄ ෆ࣮֬ੑʹରԠ͢ΔͨΊʹ

36 • ʮίΤΧϧςʯʹ͓͚Δ໰਍ର࿩͔ΒͷΧϧςੜ੒λεΫͷσʔλ࡞੒ • ҩࢣͷΑ͏ͳߴ୯Ձͳ࿑ྗΛඞཁͱ͢ΔλεΫΛɺ޻෉ͯ͠Ұൠͷ࡞ۀऀͰ΋Մೳʹ • 2छྨͷํ๏ͰΞϊςʔγϣϯσʔλΛ࡞੒ • Ϋϥ΢υιʔγϯάϓϥοτϑΥʔϜͱΞϊςʔγϣϯαʔϏεͦΕͧΕʹಘखෆಘख͕͋Δ •
؅ཧ޻਺ͱۚમతίετͷτϨʔυΦϑͳͳ͔ɺ͍͔ʹσʔλ࡞੒Λεέʔϧ͍͔ͤͯ͘͞ • ૉૣ͘σʔλΛߏங͠ݕূΛճͨ͢Ίʹ͸ • λεΫઃܭऀ͕ओମతʹෆ࣮֬ੑΛ௵͍ͯ͘͠ඞཁ͕͋Δ • ҰॹʹݕূΛճ͢ύʔτφʔͱͯ͠ͷɺΫϥ΢υιʔγϯά΍ΞϊςʔγϣϯαʔϏε શମͷ·ͱΊ

37 ͓͢͢Ίࢀߟจݙ • ʮΫϥ΢υιʔγϯά͕ෆՄೳΛՄೳʹ͢Δʯ৿ౢ ްߦ ஶ ڞཱग़൛ • Ϋϥ΢υιʔγϯάͷશମײΛ௫Ήͷʹ࠷ద •
ಡΈ෺ͱͯ͠ॻ͔Ε͓ͯΓɺ۩ମࣄྫ͕๛෋Ͱɺ਺͕ࣜগͳ͍ • ʮHuman-in-the-Loop ػցֶश ʯ Yukino Baba • https://speakerdeck.com/yukinobaba/human-in-the-loop-machine-learning • Ϋϥ΢υιʔγϯάͰ͍͔ʹ඼࣭Λ୲อ͢Δ͔ͷݚڀࣄྫ͕๛෋ʹ঺հ͞Ε͍ͯΔ • σʔλͷ࣭ʹରͯ͠ͷΞϓϩʔν͕ࢀߟʹͳΔ Appendix

対話型AIの構築における工夫とデータセットの重要性 - 素早くデータを構築し検証するためには

対話型AIの構築における工夫とデータセットの重要性 - 素早くデータを構築し検証するためには

yag_ays

More Decks by yag_ays

Other Decks in Research

Featured

Transcript

ର࿩ܕAIͷߏஙʹ͓͚Δ޻෉ͱσʔληοτͷॏཁੑ ૉૣ͘σʔλΛߏங͠ݕূ͢ΔͨΊʹ͸ 2022/09/30 Ubieגࣜձࣾ Ԟా ༟थ

2 Ԟా ༟थ Yuki Okuda Recruit → Sansan → Ubie

3 ࠓ೔࿩͢͜ͱ / ࿩͞ͳ͍͜ͱ ࿩͢͜ͱ • ʮίΤΧϧςʯʹ͓͚Δ໰਍ର࿩͔ΒͷΧϧςੜ੒ • ͲͷΑ͏ͳλεΫͷσʔλΛΞϊςʔγϣϯʹΑΓ࡞੒͔ͨ͠ •

4 • ࡞ۀऀ • Ξϊςʔγϣϯ࡞ۀΛߦ͏ਓɻΞϊςʔλʔɺΫϥ΢υϫʔΧʔͱ΋ݴ͏ • ୀ۶ͳσʔλ࡞੒࡞ۀΛࠜؾڧ͘ߦͬͯ͘ΕΔ༗Γ೉͍ଘࡏ • ґཔऀ •

5 ʮίΤΧϧςʯʹ͓͚Δ໰਍ର࿩͔ΒͷΧϧςੜ੒

6 ʮίΤΧϧςʯ͸໰਍ձ࿩͔ΒࣗಈͰΧϧςΛੜ੒͢ΔϓϩμΫτ ʮࠓ೔͸Ͳ͏͞Ε·͔ͨ͠ʁʯ ʮࠓே͔Β಄͕௧ͯ͘ɺు͖ؾ΋গ͋͠ΔΜͰ͢ʯ ɾࠓே͔Β಄௧ ɾᅅؾ • ҩࢣͷ໰਍ͷԻ੠͔ΒϦΞϧλΠϜͰจࣈى͜͠ & Χϧςੜ੒Λߦ͏

7 • Ի੠ೝࣝɿҩࢣͱױऀͷձ࿩ͷจࣈى͜͠ • ҩྍ෼໺ͷઐ໳༻ޠͷରԠɺಉԻҟٛޠ౳΁ͷରԠ • e.g. A1cʢ͑ʔΘΜ͠ʔ, ݂ӷݕࠪͷ߲໨໊ʣɺײછͱסᚔ •

8 • ύϒϦοΫʹར༻Մೳͳσʔληοτͷෆࡏ • ݸਓ৘ใ؍఺Ͱױऀσʔλ͸৻ॏʹऔΓѻΘΕɺݚڀͱ͍͑Ͳ༰қʹެ։Ͱ͖ͳ͍ • ҰํͰɺප໊΍ҩྍτϐοΫͷࣙॻͳͲ͸ެ։͞Ε͍ͯΔ • ҩࢣ΍؃ޢࢣͱ͍ͬͨҩྍैࣄऀ͸ߴ୯Ձ •

9 • Ұൠతʹ͸ػցֶशʹΑͬͯ༧ଌ/ੜ੒͢Δ໨తม਺Λɺ࡞ۀऀ͕࡞੒͢Δ • ࠓճͷ৔߹ɺ࡞ۀऀ͸ΧϧςΛॻ͚ΔҩࢣͰͳ͍ͱͰ͖ͳ͍ → ߴ୯ՁͰֻ͓͕͔ۚΔ ҩࢣͰͳ͍ී௨ͷ࡞ۀऀ͕σʔλ࡞੒Ͱ͖ΔΑ͏ʹλεΫΛม׵͢Δ ௨ৗ ʮࠓ೔͸Ͳ͏͞Ε·͔ͨ͠ʁʯ

10 • Ұൠతʹ͸ػցֶशʹΑͬͯ༧ଌ/ੜ੒͢Δ໨తม਺Λɺ࡞ۀऀ͕࡞੒͢Δ • ࠓճͷ৔߹ɺ࡞ۀऀ͸ΧϧςΛॻ͚ΔҩࢣͰͳ͍ͱͰ͖ͳ͍ → ߴ୯ՁͰֻ͓͕͔ۚΔ • ΋͠໨తม਺͕ܾ·͍ͬͯΔͷͰ͋Ε͹ɺٯʹσʔλ෦෼Λ࡞੒͢Δͱ͍͏λεΫʹม׵Ͱ͖Δ •

11 σʔλ࡞੒ͷ࣮ྫ - ௚઀ґཔܕ

12 • ୈ1εςοϓͱͯ͠Ϋϥ΢υιʔγϯάΛར༻ͯ͠σʔλऩू • ͱʹ͔͘ਫ਼౓͕௿ͯ͘΋ྑ͍ͷͰσʔλ͕͋Ε͹Χϧςੜ੒͕Ͱ͖Δ͜ͱΛݕূ͍ͨ͠ • ΢Σϒ্Ͱґཔऀͱ࡞ۀऀ͕௚઀΍ΓऔΓ͢ΔΫϥ΢υιʔγϯάͷϓϥοτϑΥʔϜΛར༻ • ґཔ಺༰ •

13 ϝϦοτ • Ձ֨ަব͕ՄೳͰɺൺֱత҆Ձʹ཈͑ΒΕΔ • ࢧ෷͍ํ๏: ݻఆใु / ࣌ؒ୯Ձ Λબ୒

14 Ϋϥ΢υιʔγϯάʹΑΔΞϊςʔγϣϯ࡞ۀͷྲྀΕ ࣄલ४උ ืूɾܖ໿క݁ɾґཔ ࡞ۀ ࡞ۀ׬ྃ ݕ඼ ݁Ռͷूܭ

15 • Ξϊςʔγϣϯ༻ͷσʔληοτ࡞੒ • ࡞ۀऀ͝ͱʹσʔλΛ෼ׂ͢Δ • ׬શϥϯμϜ͕ྑ͍ͷ͔ɺಉҰ࡞ۀऀʹಉ ͡܏޲ͷσʔλΛ೚ͤͨ΄͏͕ྑ͍ͷ͔ • ΞϊςʔγϣϯΨΠυϥΠϯΛ࡞੒

16 ࣮ࡍʹ࡞੒ͨ͠ΞϊςʔγϣϯΨΠυϥΠϯ

17 ࣮ࡍʹ࡞੒ͨ͠ΞϊςʔγϣϯΨΠυϥΠϯ ࡞ۀํ๏ πʔϧͷ࢖͍ํ΍खॱ ۩ମྫ ྑ͍ೖྗ/ѱ͍ೖྗͷྫࣔ શମͷ֓ཁ ɾͳͥ͜ͷλεΫΛ͢Δͷ͔

18 • ฏқͳݴ༿ͰΘ͔Γ΍͘͢આ໌͠ɺεΫϦʔϯγϣοτ΍ಈըΛଟ༻͢Δ • ࡞ۀऀ͸ҰൠͷਓͳͷͰɺͳΔ΂͘ԣจࣈ΍ઐ໳༻ޠ͸࢖Θͣʹฏқͳݴ༿Λ࢖͏ • ࣮ࡍͷπʔϧͷ࢖͍ํΛը૾΍ಈըͰઆ໌͢Δͱཧղ͕ૣ͍ • ࡞ۀͷ۩ମྫΛఏࣔ͢Δ •

19 • ืू • ืूจΛ࡞੒ͯ͠ग़ߘ • ࡞ۀ಺༰ͷઆ໌ • ୯Ձ /

20 ࡞ۀલͷίϛϡχέʔγϣϯɿ࡞ۀऀͱͷίϛϡχέʔγϣϯ ܖ໿ޙͷѫࡰͱґཔ ݕ඼ͱ௥ՃରԠ

21 • جຊతʹ͸࡞ۀऀͷ࡞ۀ͕׬ྃ͢ΔͷΛ଴ͭ • ͨͩ͠ฒྻͰෳ਺ͷ࡞ۀऀʹґཔ͍ͯ͠Δͱɹ ίϛϡχέʔγϣϯ͕ൃੜ͢ΔͨΊຖேϓϥο τϑΥʔϜͷνϟοτཝΛνΣοΫ͢Δ • ࡞ۀʹؔ͢Δ࣭໰΁ͷճ౴ରԠ •

23 σʔλ࡞੒ͷ࣮ྫ - ΞϊςʔγϣϯαʔϏεܕ

24 • ࣍ʹΞϊςʔγϣϯαʔϏεͷձࣾʹґཔ͢Δ͜ͱʹ • ؅ཧ޻਺ͷ࡟ݮͱσʔλऩू଎౓޲্ͷͨΊ • ॳظݕূΛૉૣ͘ߦ͏ͨΊʹҰ࣌తͳίετ૿͸ߏΘͳ͍ • ෳ਺ࣾʹݟੵ΋ΓΛґཔ •

25 ΞϊςʔγϣϯαʔϏεʹґཔ͢Δ͜ͱͰɺ֤޻ఔ͕Ͳ͏ͳΔ͔ ΞϊςʔγϣϯαʔϏε ࣄલ४උ ืूɾܖ໿క݁ɾґཔ ࡞ۀ ࡞ۀ׬ྃ ݕ඼ ݁Ռͷूܭ ࣄલ४උɾґཔ

26 • ࡞ۀऀͷϚωʔδϝϯτ͓Αͼ֤छίϛϡχέʔγϣϯϥΠϯ͕؆ུԽ • େ෯ͳ؅ཧ޻਺ݮ ࡞ۀऀͱͷίϛϡχέʔγϣϯϥΠϯ͕؆ུԽ Ϋϥ΢υιʔγϯάϓϥοτϑΥʔϜͷ৔߹ ΞϊςʔγϣϯαʔϏεͷ৔߹

27 • ࡞ۀ಺༰͸΄΅มߋͤͣ • ΞϊςʔγϣϯΨΠυϥΠϯ౳͸ͦͷ··ར༻ • ࡞ۀϓϥοτϑΥʔϜ͚ͩFastLabelಠࣗͷ΢ΣϒΞϓϦέʔγϣϯΛར༻ • ίϛϡχέʔγϣϯखஈ͕Slackʹʂ •

28 ୲౰ऀͱͷίϛϡχέʔγϣϯ ݟੵ΋Γґཔʢܧଓґཔͷ࣌ʣ ࡞ۀ಺༰ͷ֬ೝ Ξϊςʔγϣϯ݁Ռͷೲ඼

29 • σʔλͷ࣭͸มΘΒͣ • Ϋϥ΢υιʔγϯάͰࣗ෼Ͱίϯτϩʔϧͨ࣌͠ͱൺֱͯ͠ɺ࣭͸શ͘มΘΒͣ • ࡞ۀऀͷ؅ཧ޻਺͕େ෯ʹ࡟ݮ͞Εͨ • Ϋϥ΢υιʔγϯάͱൺֱͯ͠ɺࣄ຿తͳ࡞ۀΛେ෯ʹݮΒͤΔ •

31 σʔλ࡞੒ʹ͓͚Δૉૣ͍Ձ஋ݕূͷॏཁੑ

33 • Ξϊςʔγϣϯͷ࡞ۀ • ৗʹ૝ఆͰ͖ͳ͍σʔλ΍ᐆດͳϧʔϧɺྫ֎έʔε͕ग़ͯ͘Δ • ΞϊςʔγϣϯΨΠυϥΠϯΛ࠷ॳ͔Β׬ᘳʹ࡞Δ͜ͱ͸ෆՄೳ • ࡞ۀऀͷೳྗ΍Ξ΢τϓοτͷ࣭ •

34 • Ξϊςʔγϣϯͷ࡞ۀ • ৗʹ૝ఆͰ͖ͳ͍σʔλ΍ᐆດͳϧʔϧɺྫ֎έʔε͕ग़ͯ͘Δ • ΞϊςʔγϣϯΨΠυϥΠϯΛ࠷ॳ͔Β׬ᘳʹ࡞Δ͜ͱ͸ෆՄೳ • ࡞ۀऀͷೳྗ΍Ξ΢τϓοτͷ࣭ •

35 • λεΫઃܭ͸ਓʹ೚ͤΒΕͳ͍ • ػցֶशʹͲ͏͍͏Πϯϓοτ/Ξ΢τϓοτΛظ଴͢Δ͔Λߟ͑ଓ͚ͳ͚Ε͹͍͚ͳ͍ • ૉૣ͘ݕূ͠ํ޲मਖ਼Λ܁Γฦ͍ͯ͘͠ɺมԽʹదԠ͢Δ • ιϑτ΢ΣΞ։ൃͰ͍͏ΞδϟΠϧ։ൃ •

37 ͓͢͢Ίࢀߟจݙ • ʮΫϥ΢υιʔγϯά͕ෆՄೳΛՄೳʹ͢Δʯ৿ౢ ްߦ ஶ ڞཱग़൛ • Ϋϥ΢υιʔγϯάͷશମײΛ௫Ήͷʹ࠷ద •