【WebDBフォーラム2017】Sansanにおける 名刺画像データ化フローと 機械学習の取り組み

620c94b3affc3376c62540a64ce7ba36?s=47 vaaaaanquish
September 22, 2017

【WebDBフォーラム2017】Sansanにおける 名刺画像データ化フローと 機械学習の取り組み

WebDBフォーラム2017登壇資料
http://db-event.jpn.org/webdbf2017/index.html

Sansan株式会社は,国内外に向けた名刺管理サービスを提供しており,年間約2億枚の名刺をデータ化,管理している.サービスによってユーザから取り込まれる名刺画像は,画像処理,OCR,機械学習及び,Sansanが持つデータベース,人を介してデータ化されている.本発表では,Sansan社内における名刺データ化の各フローにおける取り組みを紹介すると共に,それらを支える基盤技術について事例を交えて報告する.

620c94b3affc3376c62540a64ce7ba36?s=128

vaaaaanquish

September 22, 2017
Tweet

Transcript

  1. 4BOTBOʹ͓͚Δ ໊ࢗը૾σʔλԽϑϩʔͱ ػցֶशͷऔΓ૊Έ 4BOTBOגࣜձࣾ 3%3FTFBSDIFSՏ߹ढ़య

  2. 2 ࣗݾ঺հ 4BOTBOͱ໊ࢗͷσʔλԽ 4BOTBOגࣜձࣾʹ͍ͭͯ 4BOTBOͷ໊ࢗσʔλԽϑϩʔ ػցֶशͷऔΓ૊Έ ը૾ೝࣝʹ͓͚Δػցֶश ଞػցֶशϓϩδΣΫτ ػցֶशϓϩδΣΫτͷεεϝ ͓ΘΓʹ

    "HFOEB
  3. 3 ࣗݾ঺հ 4BOTBOגࣜձࣾ %40$3% ৽ଔೖࣾ೥ ߴઐ େֶӃ ػցֶश͕޷͖ ,BHHMF !WBBBBBORVJTI

  4. 4BOTBOͱ໊ࢗͷσʔλԽ 4

  5. 4BOTBOגࣜձࣾͱ͸ 5 ๏ਓ޲໊͚ࢗ؅ཧαʔϏε ݸਓ޲໊͚ࢗΞϓϦ εΩϟφɺΞϓϦܦ༝Ͱ໊ࢗը૾ͷσʔλԽͱ؅ཧ ࣾҎ্ͷاۀಋೖɺ೥ؒ໿ԯຕͷ໊ࢗΛॲཧ ਓखʹΑΔਖ਼֬ͳσʔλԽ

  6. ̎ͭͷϓϩμΫτ 6 ࣾһͷ໊ࢗަ׵Λձࣾͷࢿ࢈ʹ ࣾ಺ͷ໊ࢗΛҰׅ؅ཧ ʮྡͷσεΫͷ˓˓͞Μ͕࣮͸औҾઌͷ໾һͱ஌Γ߹͍ͩͬͨʯʮૣ͘ݴͬͯΑʙʯ ໊ࢗަ׵Λਓͷܨ͕Γͱଊ͑اۀͷࢿ࢈ʹ

  7. ̎ͭͷϓϩμΫτ 7 ݸਓ޲໊͚ࢗ4/4ΞϓϦ ݸਓ޲͚ͷ໊ࢗΛى఺ʹͨ͠4/4ΞϓϦ ϑΟʔυ΍ϝοηʔδͱ͍ͬͨػೳʹՃ໊͑ࢗަ׵ػೳɺاۀϖʔδ &JHIUͰϏδωεͷ΍ΓऔΓ͕׬݁

  8. 8 ໊ࢗσʔλԽϑϩʔ ໨ࢹΦϖϨʔλ Ϋϥ΢υΦϖϨʔλ Ξ΢τιʔγϯά ໨ࢹΦϖϨʔλ ͦΕͧΕ3%͕"1*ఏڙ ϚΠΫϩαʔϏε

  9. 0$3 ࣾ಺֎  ΦϖϨʔλʹΑΔखೖྗ ࣙॻͷࢀর ෳ਺ͷ৚݅ʹΑΔϚονϯά จࣈɺإɺϩΰ౳ͷݕग़ ߲໨಺༰ͷਪఆ
 ࣗવݴޠॲཧ ػցֶश

     ΦϖϨʔλʹΑΔ໨ࢹ ࣙॻͷࢀরɺϚονϯά ۣܗݕग़ Τοδݕग़  ϗϫΠτχϯά ը૾֦େ ௒ղ૾ XBJGVY 9 ໊ࢗσʔλԽͷཁૉٕज़
  10. 10 4BOTBOͷ໊ࢗσʔλԽ ਓɺٕज़ɺσʔλϕʔεʹΑΔ໊ࢗͷσʔλԽ

  11. ػցֶशͷऔΓ૊Έ 11

  12. 12 ػցֶशϓϩδΣΫτͷ঺հ %FFQ)FBU.BQ.PEFM
 %FFQ-FBSOJOHʹΑΔը૾෼ׂͷֶश
 %FFQ-BOH%FUFDUPS.PEFM
 ໊ࢗը૾͔Βͷݴޠ൑ఆ
 σʔλԽγεςϜͷ࠷దԽ
 *OTQFDUPS
 ༳ΕͷٵऩͱσʔλϕʔεͷΫϨϯδϯά
 ໊دͤνΣοΫ


    ϛεݕ஌
  13. 13 %FFQ)FBU.BQ.PEFM ࢀߟz1ZSBNJE4DFOF1BSTJOH/FUXPSL )FOHTIVBOH;IBP +JBOQJOH4IJ 9JBPKVBO2J 9JBPHBOH8BOH +JBZB+JB *&&&$POGFSFODFPO$PNQVUFS7JTJPOBOE1BUUFSO3FDPHOJUJPO $713

     IUUQTIT[IBPHJUIVCJPQSPKFDUTQTQOFU %FFQ-FBSOJOHϞσϧ ෼ׂͷ݁ՌΛֶशͤ͞Δ ͭͷϞσϧ
 ໊ࢗ಺ͷ߲໨ۣܗͷਪఆ
 ߲໨໊ͷਪఆ Ϟσϧ୯ମͰ΋ͷਫ਼౓
 طଘͷγεςϜͱ૊Έ߹Θͤ
  14. %FFQ-BOH%FUFDUPS.PEFM z+BQBOFTFz ࢀߟz%FFQ3FTJEVBM-FBSOJOHGPS*NBHF3FDPHOJUJPO ,BJNJOH)F 9JBOHZV;IBOH 4IBPRJOH3FO +JBO4VO IUUQTBSYJWPSHBCT ໊͔ࢗΒݴޠΛ൑ఆ
 ೔ຊޠɺӳޠɺதࠃޠɺ೔ຊޠӳޠɺʜ


    ΦϖϨʔλೖྗ৘ใͱϑΟʔυόοΫ͔Βֶश σʔλԽϑϩʔͷ࠷దԽ ɹͦͷݴޠͷυϝΠϯΛ࣋ͭΦϖϨʔλ΁ͷৼΓ෼͚ ɹ0$3౳΁ͷࣄલ৘ใ΁ ֶशγεςϜΛճ͍ͯ͘͠ࣄͰଟݴޠԽʹରԠ
  15. 15 ଞػցֶशͷऔΓ૊Έ σʔλԽγεςϜͷ࠷దԽ - *OTQFDUPSνΣοΫ ‣ΦϖϨʔλͷೖྗͷϛεΛֶश ࣗવݴޠॲཧ ػցֶश  ‣ܾఆ໦

    "VUP&ODPEFSͳͲʮ΋͔ͯ͠͠ɿʯ͕ՄೳͳϞσϧ ‣ਫ਼౓Λ୲อ͠ͳ͕ΒίετΛ࠷దԽ - औΓࠐΈຕ਺ͷ༧ଌ ‣աڈͷձࣾͷऔΓࠐΈ΍ن໛ɺӦۀൺ཰ ‣#PPTUJOHʹΑΔઢܗճؼ HCMJOFS  ‣ΦϖϨʔλௐ੔ɺΩϟϯϖʔϯ΍ަবࡐྉ
 ༳ΕٵऩͱσʔλϕʔεΫϨϯδϯά - ໊دͤνΣοΫ ‣اۀ৘ใɺ໊ࢗऔΓࠐΈຕ਺ɺਓ໊ͷ௝͠͞౳Λಛ௃ྔԽ ‣ܾఆ໦ͳͲઆ໌ม਺͕෼͔Γ΍͍͢ϞσϧͰ࡞ΓˠΦϖϨʔλ΁ - ϛεݕ஌ ‣σʔλϕʔεͷೖྗ࣌ظ౳ͷ৘ใΛݩʹϛεݕ஌ ‣ݹ͍γεςϜʹΑΔσʔλΛΫϨϯδϯά 4POTPOגࣜձࣾ ʔʔʔ  ŠŠŠ
  16. ػցֶशϓϩδΣΫτͷεεϝ 16

  17. 17 4BOTBOʹ͓͚Δػցֶशج൫ طଘͷߴਫ਼౓σʔλԽՄೳͳγεςϜʹ৐ͤΔ طଘج൫ͱ૊Έ߹Θͤɺൺֱ zػցֶशཁΒͳ͍Ͷzͱ͍͏൑அ΋༰қʹ
 ػցֶशϓϩδΣΫτ͸ܧଓతͳ1%$"͕ඞਢ
 ղੳ݁ՌΛཷΊࠐΉͨΊͷผͷ؀ڥ σʔλϕʔεج൫ͱ෼ੳج൫ ࠷దͳαʔϏεબ୒ͱػցֶशΠϯϑϥ
 3%಺ʹΞʔΩςΫτ5FBN

    (JU΍%PDLFSͷར༻
 3%಺ͷڞ௨Խ͞Εͨ෼ੳج൫
  18. 18 ػցֶश༻ͷσʔλ ೖྗ ೖྗ ෼ׂνΣοΫ ࣾ಺ͰͷਓʹΑΔσʔλνΣοΫ
 
 ʼػցֶश༻ͷUSBJO UFTUσʔλνΣοΫ
 ɹػցֶशΤϯδχΞͷ࢓ࣄͷେ൒Λ઎ΊΔσʔλ࡞Γ΋෼ࢄ


    ɹσʔλ͸ੜϞϊ
 σʔλΛ࡞ΔਓɺλΠϛϯάʹΑͬͯ൑அج४͕มԽͯ͠͠·͏
 ɹɹࣾ಺ͷίϛϡχέʔγϣϯͰυϝΠϯΛڞ༗Ͱ͖Δ
 ɹɹλεΫ΍σʔλɺλΠϛϯάʹԠͨ͡ܗࣜ
 ɹϓϩδΣΫτʹΑͬͯ਺ेສʙ਺ඦສͷֶशσʔλ
 
 ʼ%#಺ͷաڈσʔλνΣοΫ
 ɹ(BSCBHFJO (BSCBHFPVU 
 ɹաڈͷσʔλ͕៉ྷʹͳ͍ͬͯ͘ࣄͰ
 ɹػցֶशϓϩδΣΫτͷεϐʔυ͸ܶతʹ޲্͢Δ * Garbage in, Garbage Out: How Purportedly Great Machine Learning Models Can Be Screwed Up By Bad Data [2017, Black Hat USA, Hillary Sanders] ໨ࢹνΣοΫ
  19. ਓɺٕज़ɺσʔλϕʔεʹΑΔ໊ࢗͷσʔλԽ 19 ػցֶशϓϩδΣΫτͷαΠΫϧ ը૾ೝࣝ ػցֶश AWS ໨ࢹνΣοΫ ֶशσʔλ࡞Γ ΫϨϯδϯά ࣙॻ

    Ϛονϯά
  20. 20 ͦͯ͠σʔλαΠΤϯε΁ ໾৬มԽݕ஌ɺϦίϝϯυ اۀͷΫϥελϦϯάɺۀछ ਓɺձࣾͷΩʔϫʔυͷநग़ ޿ࠂ഑৴γεςϜͷ࠷దԽ ϑΟʔυͷ࠷దԽ ࣍ձ͏΂͖ਓɺձࣾɺ෦ॺͷϦίϝϯυ ΩʔϚϯͷϦίϝϯυ
 ɹɹɹɹɹɹɹɹɹɹɹʜ

    FUD
  21. ͓ΘΓʹ 21

  22. 22 4BOTBOͱ໊ࢗͷσʔλԽͱػցֶशͷऔΓ૊ΈΛૡ͍ఠΜͰ঺հ ػցֶशΛϓϩδΣΫτͰ࢖͏ͨΊʹඞཁͳ΋ͷ
 ५୔ͳ؀ڥ
 େྔͷ៉ྷͳσʔλ
 ૬Ԡͷج൫ٕज़ͱ%#ͱΠϯϑϥ
 ࣾ಺ͷཧղ ༏लͳ3%ϝϯόʔɺڞಉݚڀઌΛืूத
 ɹ५୔ͳσʔλɺ؀ڥɺֶձࢀՃ΍ొஃɺ,BHHMF෦ɺษڧձʜFUD
 ɹ,BHHMF(SBOE.BTUFS

    .BTUFS 0QFO$74IBSQ࡞ऀͳͲ໊͕ࡏ੶ ͓ΘΓʹ
  23. None