Upgrade to Pro — share decks privately, control downloads, hide ads and more …

目と耳を持った自然言語処理 - スタートアップにおける価値創出のために

目と耳を持った自然言語処理 - スタートアップにおける価値創出のために

yag_ays

May 10, 2022
Tweet

More Decks by yag_ays

Other Decks in Technology

Transcript

  1. 5 ෳࡶԽ͢ΔػցֶशΛ༻͍ͨαʔϏε։ൃͱԠ༻ൣғͷ޿͕Γ • ୯ҰͷػցֶशϞσϧΛ౰ͯ͸ΊΔ͚ͩͰ͸੒ՌΛग़ͤͳ͘ͳ͖͍ͬͯͯΔ • ػցֶशͷίϞσΟςΟԽʢਓ޻஌ೳ, AIͱݺ͹Εೝ஌͕޿͕ͬͨʣ • ਓؒʹ΋ػցʹ΋ෳࡶͳ͜ͱΛཁٻ͞ΕΔΑ͏ʹͳ͖ͬͯͨ •

    ΑΓՁ஋ͷ͋ΔҰ࿈ͷಈ࡞Λεέʔϧ͢ΔܗͰ୅ସ͢Δೳྗͷඞཁੑ • Α͏΍͘ݱ࣮ͷ໰୊Λղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳ͖ͬͯͨ • ࣗવݴޠॲཧΛऔΓר͘ঢ়گ • “Web” ͱ͍͏ॻ͖ݴ༿͔ͭେن໛σʔλͳੈք͕த৺ • ݹ͘͸εύϜϝʔϧ൑ఆɻۙ೥ͩͱػց຋༁΍ػցཁ໿ɺࡶஊԠ౴ • ͦΕҎ֎ͷपลྖҬ΍ɺଞͷυϝΠϯͱͷؔ܎ੑ΋ੜ͖ͯͨ͡ • ෺ཧతͳॻྨ΍จࣈ৘ใɺਓؒͷ੠ͷձ࿩Ի੠ͳͲ ໨ͱ͔ࣖΒೖͬͯ͘Δ৘ใΛࣗવݴޠॲཧͰѻ͏
  2. 6 • 👀 : ը૾৘ใ • 2࣍ݩฏ໘্ʹจࣈ΍จॻ͕഑ஔ͞ΕͨςΩετΛɺOCRʹΑͬͯจࣈى͜͢͠Δ • จࣈͷ഑ஔ΍ϑΥϯτɺ৭ɺਤද౳ͱ͍ͬͨϨΠΞ΢τ͕ҙຯΛ࣋ͭ •

    e.g. ܖ໿ॻ΍੥ٻॻɺϨγʔτɺ࿦จɺͳͲ • 👂 : Ի੠৘ใ • ୯Ұ·ͨ͸ෳ਺ͷਓ͕ؒൃ࿩͢ΔԻ੠ΛɺԻ੠ೝࣝʹΑͬͯจࣈྻʹม׵͢Δ • ࿩͠ݴ༿ͱ͍͏ɺจ๏తഁ୼΍ݴ͍ؒҧ͑ͳͲ͕༰қʹى͜Γ͏Δ • e.g. ೔ৗձ࿩ɺࡶஊɺεϚʔτεϐʔΧʔͷ໰͍߹ΘͤɺͳͲ ໨΍ࣖΛܦͯಘΒΕͨ৘ใ͸ɺݴ༿ͱͯ͠ͷ࣭͕Web༝དྷͱҟͳΔ
  3. 7 ՝୊1: ໨΍ࣖΛࣗ࡞͢Δͷ͸ࠔ೉ • OCR΍Ի੠ೝࣝΤϯδϯ͢΂ͯΛࣗࣾͰ಺੡͢Δͷ͸೉͍͠ • ͦΕ͕ग़དྷΔͷ͸σʔλ & ਓࡐΛ༗͢ΔҰ෦ͷେاۀͷΈ •

    ܧଓతͳϝϯςφϯε΍ਫ਼౓޲্ʹ΋ଟେͳίετ͕͔͔Δ • ݱ࣮తʹ͸ɺ֎෦اۀͷαʔϏεΛར༻͢Δ͜ͱʹͳΔ • ࣌ؒ΋͓ۚ΋ແ͍ελʔτΞοϓ͸ಛʹ • ֎෦ͷ໨΍ࣖͷਫ਼౓Λɺར༻ऀଆ͕ྑ͍ͯ͘͘͜͠ͱ͸೉͍͠ • ֎෦αʔϏεΛར༻͢ΔҎ্ɺͦΕࣗମͷੑೳΛ޲্ͤ͞Δ͜ͱ͸ࠔ೉ • ࣮ߦ࣌ͷύϥϝʔλ΍֎෦৘ใΛར༻Ͱ͖ΔαʔϏε͸ଘࡏ͢Δ͕ɺద༻ൣғ͸ݶఆత • Ұఆͷਫ਼౓Ͱڐ༰͢Δ΄͔ແ͍
  4. 8 • ػցֶशϞσϧ͕௚ྻʹܨ͕Γɺਫ਼౓ֻ͕͚ࢉͰ௿Լ͍ͯ͘͠ • ͋ΔػցֶशϞσϧͷग़ྗ͕ɺ࣍ͷػցֶशϞσϧͷೖྗʹͳΔ • e.g. OCR݁ՌͷςΩετநग़݁ՌΛɺ࣍ͷࣗવݴޠॲཧϞσϧ͕ར༻͠λεΫΛղ͘ • (ײ֮తʹ͸)

    ਫ਼౓͕ ML_A 90% Ͱ ML_B 80% Ͱ͋Ε͹ɺ࿈݁͢Ε͹શମͰ͸ 72% ʹͳΔ • ML_AͱML_BΛ౷߹ͯ͠End2EndͳϞσϧΛ࡞Δ͜ͱ͕ຊདྷ͸๬·͍͕͠ɺσʔλ४උ΍ ࣮૷؍఺Ͱݱ࣮ʹ͸೉͍͜͠ͱ͕ଟ͍ ՝୊2: ෳ਺ͷػցֶशϞσϧ͕ґଘ͢Δ͜ͱʹىҼ͢Δਫ਼౓௿Լ ػցֶशϞσϧA ػցֶशϞσϧB
  5. 9 • ෳࡶԽ͢ΔػցֶशγεςϜ • ࣮՝୊Λղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹͳͬͨҰํͰɺෳࡶ͔ͭ޿ൣғͳྖҬΛΧόʔ͢Δඞཁ • ࣗવݴޠॲཧʹ͓͚Δ໨ͱࣖ • ը૾ೝࣝʹΑΓಘͨυΩϡϝϯτ্ͷจࣈ৘ใ •

    Ի੠ೝࣝʹΑΓಘΒΕͨൃ࿩ͷจࣈܥྻ৘ใ • 2छྨͷ՝୊ • ൚༻తͳΤϯδϯΛ࡞Δ͜ͱ͕೉͘͠ɺ֎෦αʔϏεʹґଘͤ͟ΔΛಘͳ͍ • ෳ਺ͷػցֶशϞσϧʹґଘ͢Δ͜ͱʹΑΔਫ਼౓௿Լ ͜͜·Ͱͷ·ͱΊ
  6. 11 • ͓ༀεΩϟϯɺ঺հঢ়εΩϟϯͱ͍͏αʔϏεΛఏڙ • ױऀ͞Μ͕࣋ࢀͨ͠ࢴഔମͷ৘ใΛεΩϟϯ͠ɺɹ OCRʹΑΔจࣈى͜͠ͱ৘ใநग़Λߦ͏ • ໊લͳͲͷݸਓ৘ใͷϚεΩϯάॲཧ • ͓ༀखாͷจݴͷத͔Βɺॲํ͞Ε͍ͯΔༀࡎΛநग़͢Δ

    • ೔ຊͰॲํ͞Ε͍ͯΔༀࡎ໊͸ط஌ (DBͱͯ͠ଘࡏ) ͓ༀखா΍঺հঢ়͔Βͷ৘ใநग़ ϛϠBMࡉཻ Χϩφʔϧৣ 仏௧࣌ ேன༦ 3แ 2ৣ ※ ࢲ͕ण࢘Λ৯΂ͨ൩ʹ ң௎Ԍʹͳͬͨͱ͖ͷॲํ
  7. 12 ͓ༀεΩϟϯͷॲཧͷྲྀΕ 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ର৅ྖҬͷநग़ɺ֯౓ͷิਖ਼ɺը૾ͷ௒ղ૾

    3. OCRʹΑΓจࣈͱ࠲ඪ৘ใΛಘΔ • ෳ਺୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦෼จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ੒͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏ੒ͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅ౓Λࢉग़ • ޡݕग़๷ࢭͳͲͷޙॲཧΛ௥Ճ ҩྍػؔʹઃஔ͢ΔεΩϟφͱPCͷߏ੒
  8. 13 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ର৅ྖҬͷநग़ɺ֯౓ͷิਖ਼ɺը૾ͷ௒ղ૾ 3.

    OCRʹΑΓจࣈͱ࠲ඪ৘ใΛಘΔ • ෳ਺୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦෼จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ੒͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏ੒ͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅ౓Λࢉग़ • ޡݕग़๷ࢭͳͲͷޙॲཧΛ௥Ճ ͓ༀεΩϟϯͷॲཧͷྲྀΕ εΩϟϯը૾͔ΒඞཁͳྖҬ΁
  9. 14 x0 y0 x1 y1 ਍ 20 12 26 18

    ྍ 31 11 37 17 Պ 42 12 48 18 ɿ 56 15 62 21 ಺ 63 12 69 18 Պ 72 11 78 17 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ର৅ྖҬͷநग़ɺ֯౓ͷิਖ਼ɺը૾ͷ௒ղ૾ 3. OCRʹΑΓจࣈͱ࠲ඪ৘ใΛಘΔ • ෳ਺୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦෼จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ੒͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏ੒ͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅ౓Λࢉग़ • ޡݕग़๷ࢭͳͲͷޙॲཧΛ௥Ճ ͓ༀεΩϟϯͷॲཧͷྲྀΕ ࠷খ୯Ґͷจࣈͱͦͷ࠲ඪΛऔಘ͢Δ
  10. 15 1. ࢴΛεΩϟϯ͢Δ • ը૾ͱͯ͠औΓࠐΉ 2. औಘը૾ͷิਖ਼ • ର৅ྖҬͷநग़ɺ֯౓ͷิਖ਼ɺը૾ͷ௒ղ૾ 3.

    OCRʹΑΓจࣈͱ࠲ඪ৘ใΛಘΔ • ෳ਺୯ҐͰग़ྗ͞ΕΔ͕ɺจࣈ୯ҐͷΈΛར༻ 4. ෦෼จࣈྻΛख͕͔Γʹɺༀࡎ໊Λ࠶ߏ੒͍ͯ͘͠ • OCRಡΈऔΓϛεͷิਖ਼ • ࠶ߏ੒ͨ͠จࣈྻͱDBͷༀࡎ໊ͱͷྨࣅ౓Λࢉग़ • ޡݕग़๷ࢭͳͲͷޙॲཧΛ௥Ճ \ϒ ϓ^ \ϩ ޱ^ \ϯ ι^ \ 0 %^ Χϩφʔϧৣ200 Χϩφʔϧৣ200 Χϩφʔϧৣ300 ίΧʔϧৣ300 Χϩφʔϧࡉཻ20% 100% 90% 80% 60% Query Documents ͓ༀεΩϟϯͷॲཧͷྲྀΕ ༀࡎ໊ͷྨࣅ౓ʹΑΓ൑ఆ͢Δ Α͋͘ΔಡΈऔΓϛε
  11. 16 ϦΞϧσʔλͳΒͰ͸ͷ೉͠͞ͷྫ 1ͭͷༀࡎʹ2໊ͭલ͕هࡌ͞ΕΔ Χϩφʔϧৣ ҰൠɿΞητΞϛϊϑΣϯৣNH • ઌൃༀ/ޙൃༀͷ۠ผ • δΣωϦοΫҩༀ඼ͷ໊લͷԣʹɺݩͱ ͳͬͨༀࡎ໊͕ซه͞ΕΔ͜ͱ͕͋Δ

    • ॲํ͞Εͨༀࡎ͸1͕ͭͩɺԿ΋ߟ͑ͣʹ நग़͢Δͱ2ͭදࣔ͞ΕΔ • ܩઢͷͳ͍ςʔϒϧߏ଄ • ಥવͷվߦ • OCRͱͯ͠͸ߏ଄΍จ຺Λߟྀͨ͠ಡΈ औΓΛߦ͑ͳ͍ͷͰɺநग़จࣈྻ͕ҙਤ ͨ͠ॱ൪ʹฒ͹ͣɺ෼அ͞ΕΔ ҉໧ͷߏ଄Խ ϩΩιϓϩϑΣϯφճৣ೔෼ τϦ΢ϜৣNHʮ αϫΠʯ
  12. 17 • લॲཧ/ޙॲཧ • ࡱ૾ը૾͔Βͷ஫໨ྖҬநग़ɺ֯౓ิਖ਼ɺ৭ௐิਖ਼౳͸ಠ࣮ࣗ૷ • OCR • GCPͷCloud Vision

    APIΛར༻ • ࣙॻ • จࣈೝࣝޡΓʹϩόετʹͳΔΑ͏ʹɺ෦෼จࣈྻͷྨࣅ౓ܭࢉͳͲ΋ߟྀͨࣙ͠ॻ࡞Γ • ՄࢹԽ΍ਫ਼౓ධՁ༻ͷWebΞϓϦέʔγϣϯ • ։ൃޮ཰Λ্͛ΔͨΊʹࣗ࡞ • ը૾ͱจࣈ৘ใΛߦ͖དྷ͢Δඞཁ͕͋ΔͨΊ։ൃ΍σόοά͕ඇৗʹ೉͍ͨ͠Ί • OCRͷ݁ՌͰ(x:100, y:200, ͋) ͱݴΘΕͯ΋෼͔Βͳ͍ ࣮ࡍʹͲͷΑ͏ͳػೳΛ࣮૷͍ͯ͠Δͷ͔
  13. 19 • ػցֶश΍ࣗવݴޠॲཧΛऔΓר͘αʔϏε։ൃͷ՝୊ • ෳ਺ͷػցֶशϞσϧʹґଘ͢ΔෳࡶͳγεςϜ΍֎෦αʔϏε΁ͷґଘ • ػցֶशࣗମͷෳࡶ͞ʹཱͪ޲͔Θͳ͚Ε͹͍͚ͳ͍ • ಉ࣌ʹɺαʔϏεͷશମઃܭ΍ϏδωεϞσϧࣗମʹ΋ओମతʹؔΘ͍ͬͯ͘͜ͱ͕ඞཁ •

    ػೳͷҰ෦͑͞୲౰͍ͯ͠Ε͹ɺPO΍୭͔͕࢒ΓΛ্ख͍͜ͱ΍ͬͯ͘ΕΔΑ͏ͳ͜ͱ͸ك • Ͱ͸ελʔτΞοϓͷػցֶशΤϯδχΞ΍σʔλαΠΤϯςΟετ͸ɺԿΛҙࣝ͠ͳΕ͹͍ ͚ͳ͍ͷ͔ʁ ͜͜·Ͱͷ·ͱΊ
  14. 21 • ࣄۀ΍αʔϏε͕֑͔ΒམͪΔͷΛ๷͙ • ͋ΔαʔϏεʹ͓͚Δػցֶशͷಋೖ͕ɺຊ౰ʹେৎ෉ͦ͏͔Λ൑அ͢Δ໾໨ • ݱ࣮తʹՄೳ > ཧ࿦తʹ͸Մೳ >

    ݱ࣮తʹ͸ෆՄೳ > ཧ࿦తʹෆՄೳ • ͦΕͱಉ࣌ʹ஌ݟ͋ΔਓؒʹҙݟΛٻΊΒΕΔ / ҙݟΛड͚ೖΕΔจԽͷৢ੒΋େࣄ • Α͋͘Δ֑ͷύλʔϯ • ໌Β͔ʹ՝୊͕೉͗͢͠Δέʔε • ઐ໳ٕೳ΍ෳࡶͳॲཧ͕ඞཁͰɺਓؒͰ΋ਖ਼֬ʹߦ͏͜ͱ͕೉͍͠ • Ͱ͖ͨͱ͜ΖͰɺͦΕ΄Ͳࣄۀʹͱͬͯخ͘͠ͳ͍έʔε • ͦΕਓ͕ؒ΍ͬͨ΄͏͕ૣ͘ͳ͍ʁ • ࠷৽ٕज़Λ࢖ͬͯ੒ՌΛ্͍͛ͨͱ͍͏έʔε • AIΛ࢖ͬͯΈ͍ͨ ֑͔ΒམͪΔͷΛ๷͙
  15. 23 ελʔτΞοϓʹ͓͚Δ֑ͷδϨϯϚ • ৗʹᷤ౻ͱܾஅͷ࿈ଓ • ʮ͍ͭ͜ɺ͍ͭ΋ػցֶशҊ݅ͷ૬ஊʹNoͬͯݴͬͯΔͳʯͱ৺ͷதͷࣗ෼͕ᅤ͘ • ͳͥͦͷΑ͏ͳ൑அΛ͔ͨ͠ΛυΩϡϝϯτʹ·ͱΊ͓ͯ͘ͱɺৼΓฦΓ΍ڞ༗ʹྑ͍ • ग़དྷΔͱग़དྷͳ͍ͷؒʹ͸ແ਺ͷάϥσʔγϣϯ͕͋Δ

    • ͲͷΑ͏ͳ৚݅ͷͱ͖ʹՄೳ/ෆՄೳͳͷ͔ ձࣾʹͱͬͯେࣄͳλεΫͳͷ͸෼͔Δ ΍ͬͯΈͳ͍ͱ෼͔Βͳ͍͔΋…… ೉͍͠ͱ͖ͬͺΓஅͬͯ͹͔ͬΓ͸ਏ͍ ໌Β͔ʹ೉͍͠λεΫ͸ࢭΊ͍ͨ ӡ༻ͳͲผͷํ๏Ͱղܾ͍ͤͨ͞ ࠓ͸ଞͷॏཁͳ՝୊ʹ஫ྗ͍ͨ͠
  16. 24 • 100ͷࢥߟΑΓ1ͷ࣮ફ • ෆ࣮֬ੑΛԼ͛ͭͭมԽʹରԠͰ͖ΔΑ͏ͳΞδϟΠϧతΞϓϩʔν • ։࢝ॳظ΄Ͳɺࣦഊʹର͢Δই͕ઙ͘ࡁΉ • UbieͰ͸ʮLaunch and

    Launchʯͱ͍͏ValueΛେࣄʹ͍ͯ͠Δ • ॳखͰେ͖ͳ΋ͷΛ࡞Γ͗͢ͳ͍ • ݕূ͍߲ͨ͠໨ΛຬͨͤΔΑ͏ʹɺͱʹ͔͘࠷୹Ͱΰʔϧʹ޲͔͏ ૉૣ͘ݕূ͢Δ
  17. 25 • ػցֶश؍఺ • ͲΜͳσʔλ͕ೖྗͱͯ͠ೖͬͯ͘Δ͔ʁ • ܧଓతʹՁ஋͋Δσʔλ͕஝ੵ͞ΕΔঢ়ଶΛ࡞ΕΔͷ͔ʁ • ͲͷΑ͏ͳػցֶशͷख๏͕ར༻Ͱ͖Δͷ͔ʁ •

    ͲΕ͘Β͍ͷσʔλྔ͕͋Ε͹े෼ͳͷ͔ʁ • naiveͳख๏ͷਫ਼౓ɺཧ࿦తͳݶքʢਓؒʣͷਫ਼౓͸ͲΕ͘Β͍͔ʁ • ඞཁͱ͞ΕΔԠ౴࣌ؒɺಈ࡞؀ڥͳͲͷϩδοΫҎ֎ͷ੍໿͸͋Δ͔ʁ • Ϗδωε؍఺ • ސ٬͸ػցֶशϞσϧͷਫ਼౓͕ͲΕ͘Β͍ʹͳΕ͹ຬ଍͢Δ͔ʁ ஌Βͳ͍͜ͱΛݮΒͯ͠ɺෆ࣮֬ੑΛԼ͛Δ
  18. 26 • bootstrap໰୊ • ػցֶशϞσϧΛ࡞Δʹ͸ֶश/ධՁ༻ͷσʔλ͕ඞཁɻσʔλΛஷΊΔʹ͸ଟ͘ͷϢʔβʹར ༻ͯ͠΋ΒΘͳ͍ͱ͍͚ͳ͍ɻར༻ͯ͠΋Β͏ʹ͸͋Δఔ౓ͷਫ਼౓ͷػցֶशϞσϧ͕ඞཁɻ ػցֶशϞσϧΛ࡞Δʹ͸…… (࠷ॳʹ໭Δ) • Կ΋ແ͍தͰɺͲ͏ݕূ͢Δͷ͔ʁ

    • ΰϛਫ਼౓Ͱ΋͍͍ͷͰɺಈ͘ϞϊΛ࡞੒͢ΔʢPoCʣ • ܭࢉػͷ୅ΘΓʹਓ͕ؒखಈͰରԠ͢ΔʢΦζͷຐ๏࢖͍ϝιουʣ • [େࣄ!!!] ͻͨ͢Βࣗ෼ͰΞϊςʔγϣϯͯ͠σʔλΛ࡞Δ ݕূʹཱͪ͸͔ͩΔน - ͳʹ΋ͳ͍͔Βͦ͜ग़དྷΔίτ https://www.amazon.co.jp/dp/4763137492
  19. 27 • ༩͑ΒΕͨλεΫͷળ͠ѱ͠Λ൑அ͠ૉૣ͘ݕূ͢Δʹ͸ɺৗʹ෢ثΛຏ͍͓ͯ͘ඞཁ͕͋Δ • ٕज़ • ಈ࡞͢ΔϓϩάϥϜ΍࣮ߦ؀ڥɺσʔλ੔ܗͷํ๏ͳͲ • ܦݧ •

    λεΫઃܭ΍ղ๏ɺΞϊςʔγϣϯ࡞ۀܦݧͳͲ • ஌ࣝ • ଞࣾͷࣄྫɺۙ೥ͷओཁͳ࿦จͳͲ • ৗʹ࠷৽ͷ΋ͷͰ͋Δඞཁ͸ͳ͍ • Ή͠Ζ࢖͍ݹ͞Εٕͨज़ͷํ͕ɺॳखͰద༻͢Δʹ͸ͪΐ͏Ͳྑ͍ʢϕʔεϥΠϯͱͯ͠ʣ ৗʹ෢ثΛຏ͍͓ͯ͘
  20. 28 • ൚༻తʹ࢖͑ΔֶशࡁΈϞσϧΛ͍ͭͰ΋࢖͑ΔΑ͏ʹ͓ͯ͘͠ • Կ΋σʔλ͕ແͯ͘΋ॳखͰ࢖͑Δ෢ثΛ͓࣋ͬͯ͘ͱศར • ۩ମྫ • ܗଶૉղੳɿMeCab, Sudachi

    • ݻ༗දݱநग़ɿspaCy+GiNZA • େن໛ݴޠϞσϧɿBERT, RoBERTa, T5, GPT-2,3ͳͲͷ೔ຊޠରԠϞσϧ • ݕࡧɿElasticsearch • ࣙॻɿNEologd, ֤υϝΠϯͰ੔උ͞Ε͍ͯΔ୯ޠாʢe.g. ҩྍυϝΠϯͳΒສපࣙॻʣ • ஫ҙ • Hugging FaceͷTransformers͸։ൃεϐʔυ͕ૣͯ͘௥ै͢Δͷ͸େมͳͷͰɺ΄Ͳ΄Ͳʹ ෢ثͦͷ1ɿֶशࡁΈϞσϧ΍֤छπʔϧ
  21. 29 • ࢖͏༧ఆ͕ͳͯ͘΋ɺͱʹ͔͘ݴޠࢿݯ͸ҙࣝͯ͠ूΊ͓ͯ͘ • ೔ࠒ͔ΒूΊΔบΛ෇͚͓ͯ͘ͱɺඞཁͳͱ͖ʹ͙͢ར༻Ͱ͖Δ/ूΊΒΕΔ • ۩ମྫ • WikipediaͷCirrusίʔύεɺLivedoor χϡʔείʔύεͳͲͷ഑෍͞Ε͍ͯΔίʔύε

    • ಛఆυϝΠϯͷ΢ΣϒαΠτͷΫϩʔϧʢχϡʔεαΠτɺϒϩάɺTwitter౳ʣ • ख๏ • Scrapyɿpagination͕͋Δߏ଄Խ͞Εͨ΢ΣϒαΠτ͕ର৅ • Selenium: jsΛར༻ͨ͠ϒϥ΢βͷϨϯμϦϯάΛཁ͢ΔಈతͳαΠτ͕ର৅ • WgetίϚϯυ: αΠτʹྻڍ͞ΕΔಛఆͷ֦ுࢠͷϑΝΠϧ΍ϖʔδશମΛҰׅͰऔಘ • Pandas: pd.read_html()ͰHTMLͷςʔϒϧΛDataFrameͱͯ͠ಡΈࠐΊΔ ෢ثͦͷ2ɿݴޠࢿݯʢίʔύε, σʔλ, ࣙॻʣ
  22. 30 • ղ͘΂͖໰୊Λ࣮ݱ͢Δ্ͰɺΞϊςʔγϣϯͷ͜ͱΛৗʹҙࣝ͢Δ • Ξϊςʔγϣϯ͕σʔλͷ࣭ΛܾΊΔ • ΞϊςʔγϣϯΨΠυϥΠϯͷࡦఆ = ࣗવݴޠͷ஌ࣝͱυϝΠϯ஌ࣝͷ༥߹ •

    ٬؍త͔ͭҰ؏ੑΛ࣋ͬͨΨΠυϥΠϯΛ࡞੒ͯ͠ɺ͔ͭਓʹڭ͑Δͷ͸ຊ౰ʹ೉͍͠ • πʔϧ΍αʔϏεͷ۩ମྫ • ແঈɿDoccano, Label Studio • Prodigy: spaCyΛ࡞͍ͬͯΔExplosion.ai͕։ൃ͍ͯ͠ΔΞϊςʔγϣϯπʔϧ • FastLabel: FastLabel͕ࣾఏڙ͢Δ༗ঈͷΞϊςʔγϣϯπʔϧ & ΞϊςʔγϣϯαʔϏε • UbieͰ΋σʔλ࡞੒Λґཔ͍͖ͤͯͨͩ͞·ͨ͠ʢ˞ COI͸͋Γ·ͤΜʣ ෢ثͦͷ3ɿΞϊςʔγϣϯͷܦݧͱମ੍
  23. 31 • ݴޠॲཧֶձ೥࣍େձ • ೔ຊޠͷݚڀ੒Ռ͕ू·Δࠃ಺࠷େͷࣗવݴޠॲཧͷֶձ • ༧ߘू͕͢΂ͯެ։͞Ε͍ͯΔͷͰաڈͷݚڀࣄྫ΋ࢀর͠΍͍͢ • Paper with

    Code • λεΫ/σʔληοτԣஅͰ࿦จͷख๏΍ਫ਼౓ΛൺֱͰ͖ΔαΠτ • ࿦จͷެࣜ/ඇެࣜͷ࣮૷৘ใ (GitHubͷϦϯΫ) ͕ඥ෇͚ΒΕ͍ͯΔ • χϡʔεαΠτ/ϒϩά/χϡʔεϨλʔ/Twitter • ݸਓత͓͢͢Ί: εςʔτɾΦϒɾAIɾΨΠυɺΦʔδε૯ݚʮ͸͡Ίͯͷࣗવݴޠॲཧʯ ෢ثͦͷଞɿ༗༻ͳ৘ใݯ
  24. 32 • ෳࡶԽ͢Δࣗવݴޠॲཧ • ը૾ೝࣝ΍Ի੠ೝࣝͱͷ૊Έ߹Θ͕ͤ૿͖͑ͯͨ • ෳ਺ͷػցֶशϞσϧʹΑΔਫ਼౓௿Լ΍֎෦αʔϏεґଘ͸Ұఆ໔Εͳ͍ • Ubieͷࣄྫ •

    OCRʹΑΓจࣈىͨ͜͠͠υΩϡϝϯτத͔Βͷ৘ใநग़ • ελʔτΞοϓͰٻΊΒΕΔ͜ͱ • ϓϩδΣΫτ͕ࣦഊ͠ͳ͍Α͏ʹɺ֑͔ΒམͪΔͷΛ๷͙ • ͦͷͨΊʹ͸ૉૣ͘ݕূͯ͠ෆ࣮֬ੑΛԼ͛Δඞཁ͕͋Δ • ͦͷͨΊʹ͸ৗʹ෢ثΛຏ͍͓͍͍ͯͯͭͰ΋࢖͑ΔΑ͏ʹ͓ͯ͘͠ ·ͱΊ