Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【WebDBフォーラム2017】Sansanにおける 名刺画像データ化フローと 機械学習の取り組み

vaaaaanquish
PRO
September 22, 2017

【WebDBフォーラム2017】Sansanにおける 名刺画像データ化フローと 機械学習の取り組み

WebDBフォーラム2017登壇資料
http://db-event.jpn.org/webdbf2017/index.html

Sansan株式会社は,国内外に向けた名刺管理サービスを提供しており,年間約2億枚の名刺をデータ化,管理している.サービスによってユーザから取り込まれる名刺画像は,画像処理,OCR,機械学習及び,Sansanが持つデータベース,人を介してデータ化されている.本発表では,Sansan社内における名刺データ化の各フローにおける取り組みを紹介すると共に,それらを支える基盤技術について事例を交えて報告する.

vaaaaanquish
PRO

September 22, 2017
Tweet

More Decks by vaaaaanquish

Other Decks in Technology

Transcript

  1. 4BOTBOʹ͓͚Δ
    ໊ࢗը૾σʔλԽϑϩʔͱ
    ػցֶशͷऔΓ૊Έ
    4BOTBOגࣜձࣾ
    3%3FTFBSDIFSՏ߹ढ़య

    View Slide

  2. 2
    ࣗݾ঺հ
    4BOTBOͱ໊ࢗͷσʔλԽ
    4BOTBOגࣜձࣾʹ͍ͭͯ
    4BOTBOͷ໊ࢗσʔλԽϑϩʔ
    ػցֶशͷऔΓ૊Έ
    ը૾ೝࣝʹ͓͚Δػցֶश
    ଞػցֶशϓϩδΣΫτ
    ػցֶशϓϩδΣΫτͷεεϝ
    ͓ΘΓʹ
    "HFOEB

    View Slide

  3. 3
    ࣗݾ঺հ
    4BOTBOגࣜձࣾ
    %40$3%
    ৽ଔೖࣾ೥
    ߴઐ େֶӃ
    ػցֶश͕޷͖
    ,BHHMF
    !WBBBBBORVJTI

    View Slide

  4. 4BOTBOͱ໊ࢗͷσʔλԽ
    4

    View Slide

  5. 4BOTBOגࣜձࣾͱ͸
    5
    ๏ਓ޲໊͚ࢗ؅ཧαʔϏε ݸਓ޲໊͚ࢗΞϓϦ
    εΩϟφɺΞϓϦܦ༝Ͱ໊ࢗը૾ͷσʔλԽͱ؅ཧ
    ࣾҎ্ͷاۀಋೖɺ೥ؒ໿ԯຕͷ໊ࢗΛॲཧ
    ਓखʹΑΔਖ਼֬ͳσʔλԽ

    View Slide

  6. ̎ͭͷϓϩμΫτ
    6
    ࣾһͷ໊ࢗަ׵Λձࣾͷࢿ࢈ʹ
    ࣾ಺ͷ໊ࢗΛҰׅ؅ཧ
    ʮྡͷσεΫͷ˓˓͞Μ͕࣮͸औҾઌͷ໾һͱ஌Γ߹͍ͩͬͨʯʮૣ͘ݴͬͯΑʙʯ
    ໊ࢗަ׵Λਓͷܨ͕Γͱଊ͑اۀͷࢿ࢈ʹ

    View Slide

  7. ̎ͭͷϓϩμΫτ
    7
    ݸਓ޲໊͚ࢗ4/4ΞϓϦ
    ݸਓ޲͚ͷ໊ࢗΛى఺ʹͨ͠4/4ΞϓϦ
    ϑΟʔυ΍ϝοηʔδͱ͍ͬͨػೳʹՃ໊͑ࢗަ׵ػೳɺاۀϖʔδ
    &JHIUͰϏδωεͷ΍ΓऔΓ͕׬݁

    View Slide

  8. 8
    ໊ࢗσʔλԽϑϩʔ
    ໨ࢹΦϖϨʔλ
    Ϋϥ΢υΦϖϨʔλ
    Ξ΢τιʔγϯά
    ໨ࢹΦϖϨʔλ
    ͦΕͧΕ3%͕"1*ఏڙ ϚΠΫϩαʔϏε

    View Slide

  9. 0$3 ࣾ಺֎

    ΦϖϨʔλʹΑΔखೖྗ
    ࣙॻͷࢀর
    ෳ਺ͷ৚݅ʹΑΔϚονϯά
    จࣈɺإɺϩΰ౳ͷݕग़
    ߲໨಺༰ͷਪఆ

    ࣗવݴޠॲཧ ػցֶश

    ΦϖϨʔλʹΑΔ໨ࢹ
    ࣙॻͷࢀরɺϚονϯά
    ۣܗݕग़ Τοδݕग़

    ϗϫΠτχϯά
    ը૾֦େ ௒ղ૾ XBJGVY

    9
    ໊ࢗσʔλԽͷཁૉٕज़

    View Slide

  10. 10
    4BOTBOͷ໊ࢗσʔλԽ
    ਓɺٕज़ɺσʔλϕʔεʹΑΔ໊ࢗͷσʔλԽ

    View Slide

  11. ػցֶशͷऔΓ૊Έ
    11

    View Slide

  12. 12
    ػցֶशϓϩδΣΫτͷ঺հ
    %FFQ)FBU.BQ.PEFM

    %FFQ-FBSOJOHʹΑΔը૾෼ׂͷֶश

    %FFQ-BOH%FUFDUPS.PEFM

    ໊ࢗը૾͔Βͷݴޠ൑ఆ

    σʔλԽγεςϜͷ࠷దԽ

    *OTQFDUPS

    ༳ΕͷٵऩͱσʔλϕʔεͷΫϨϯδϯά

    ໊دͤνΣοΫ

    ϛεݕ஌

    View Slide

  13. 13
    %FFQ)FBU.BQ.PEFM
    ࢀߟz1ZSBNJE4DFOF1BSTJOH/FUXPSL
    )FOHTIVBOH;IBP +JBOQJOH4IJ 9JBPKVBO2J 9JBPHBOH8BOH +JBZB+JB
    *&&&$POGFSFODFPO$PNQVUFS7JTJPOBOE1BUUFSO3FDPHOJUJPO $713

    IUUQTIT[IBPHJUIVCJPQSPKFDUTQTQOFU
    %FFQ-FBSOJOHϞσϧ
    ෼ׂͷ݁ՌΛֶशͤ͞Δ
    ͭͷϞσϧ

    ໊ࢗ಺ͷ߲໨ۣܗͷਪఆ

    ߲໨໊ͷਪఆ
    Ϟσϧ୯ମͰ΋ͷਫ਼౓

    طଘͷγεςϜͱ૊Έ߹Θͤ

    View Slide

  14. %FFQ-BOH%FUFDUPS.PEFM
    z+BQBOFTFz
    ࢀߟz%FFQ3FTJEVBM-FBSOJOHGPS*NBHF3FDPHOJUJPO
    ,BJNJOH)F 9JBOHZV;IBOH 4IBPRJOH3FO +JBO4VO
    IUUQTBSYJWPSHBCT
    ໊͔ࢗΒݴޠΛ൑ఆ

    ೔ຊޠɺӳޠɺதࠃޠɺ೔ຊޠӳޠɺʜ

    ΦϖϨʔλೖྗ৘ใͱϑΟʔυόοΫ͔Βֶश
    σʔλԽϑϩʔͷ࠷దԽ
    ɹͦͷݴޠͷυϝΠϯΛ࣋ͭΦϖϨʔλ΁ͷৼΓ෼͚
    ɹ0$3౳΁ͷࣄલ৘ใ΁
    ֶशγεςϜΛճ͍ͯ͘͠ࣄͰଟݴޠԽʹରԠ

    View Slide

  15. 15
    ଞػցֶशͷऔΓ૊Έ
    σʔλԽγεςϜͷ࠷దԽ
    - *OTQFDUPSνΣοΫ
    ‣ΦϖϨʔλͷೖྗͷϛεΛֶश ࣗવݴޠॲཧ ػցֶश

    ‣ܾఆ໦ "VUP&ODPEFSͳͲʮ΋͔ͯ͠͠ɿʯ͕ՄೳͳϞσϧ
    ‣ਫ਼౓Λ୲อ͠ͳ͕ΒίετΛ࠷దԽ
    - औΓࠐΈຕ਺ͷ༧ଌ
    ‣աڈͷձࣾͷऔΓࠐΈ΍ن໛ɺӦۀൺ཰
    ‣#PPTUJOHʹΑΔઢܗճؼ HCMJOFS

    ‣ΦϖϨʔλௐ੔ɺΩϟϯϖʔϯ΍ަবࡐྉ

    ༳ΕٵऩͱσʔλϕʔεΫϨϯδϯά
    - ໊دͤνΣοΫ
    ‣اۀ৘ใɺ໊ࢗऔΓࠐΈຕ਺ɺਓ໊ͷ௝͠͞౳Λಛ௃ྔԽ
    ‣ܾఆ໦ͳͲઆ໌ม਺͕෼͔Γ΍͍͢ϞσϧͰ࡞ΓˠΦϖϨʔλ΁
    - ϛεݕ஌
    ‣σʔλϕʔεͷೖྗ࣌ظ౳ͷ৘ใΛݩʹϛεݕ஌
    ‣ݹ͍γεςϜʹΑΔσʔλΛΫϨϯδϯά
    4POTPOגࣜձࣾ
    ʔʔʔ

    ŠŠŠ

    View Slide

  16. ػցֶशϓϩδΣΫτͷεεϝ
    16

    View Slide

  17. 17
    4BOTBOʹ͓͚Δػցֶशج൫
    طଘͷߴਫ਼౓σʔλԽՄೳͳγεςϜʹ৐ͤΔ
    طଘج൫ͱ૊Έ߹Θͤɺൺֱ
    zػցֶशཁΒͳ͍Ͷzͱ͍͏൑அ΋༰қʹ

    ػցֶशϓϩδΣΫτ͸ܧଓతͳ1%$"͕ඞਢ

    ղੳ݁ՌΛཷΊࠐΉͨΊͷผͷ؀ڥ
    σʔλϕʔεج൫ͱ෼ੳج൫
    ࠷దͳαʔϏεબ୒ͱػցֶशΠϯϑϥ

    3%಺ʹΞʔΩςΫτ5FBN
    (JU΍%PDLFSͷར༻

    3%಺ͷڞ௨Խ͞Εͨ෼ੳج൫

    View Slide

  18. 18
    ػցֶश༻ͷσʔλ
    ೖྗ
    ೖྗ
    ෼ׂνΣοΫ
    ࣾ಺ͰͷਓʹΑΔσʔλνΣοΫ


    ʼػցֶश༻ͷUSBJO UFTUσʔλνΣοΫ

    ɹػցֶशΤϯδχΞͷ࢓ࣄͷେ൒Λ઎ΊΔσʔλ࡞Γ΋෼ࢄ

    ɹσʔλ͸ੜϞϊ

    σʔλΛ࡞ΔਓɺλΠϛϯάʹΑͬͯ൑அج४͕มԽͯ͠͠·͏

    ɹɹࣾ಺ͷίϛϡχέʔγϣϯͰυϝΠϯΛڞ༗Ͱ͖Δ

    ɹɹλεΫ΍σʔλɺλΠϛϯάʹԠͨ͡ܗࣜ

    ɹϓϩδΣΫτʹΑͬͯ਺ेສʙ਺ඦສͷֶशσʔλ


    ʼ%#಺ͷաڈσʔλνΣοΫ

    ɹ(BSCBHFJO (BSCBHFPVU

    ɹաڈͷσʔλ͕៉ྷʹͳ͍ͬͯ͘ࣄͰ

    ɹػցֶशϓϩδΣΫτͷεϐʔυ͸ܶతʹ޲্͢Δ
    * Garbage in, Garbage Out: How Purportedly Great Machine Learning Models Can Be Screwed Up By Bad Data [2017, Black Hat USA, Hillary Sanders]
    ໨ࢹνΣοΫ

    View Slide

  19. ਓɺٕज़ɺσʔλϕʔεʹΑΔ໊ࢗͷσʔλԽ
    19
    ػցֶशϓϩδΣΫτͷαΠΫϧ
    ը૾ೝࣝ
    ػցֶश
    AWS
    ໨ࢹνΣοΫ
    ֶशσʔλ࡞Γ
    ΫϨϯδϯά
    ࣙॻ
    Ϛονϯά

    View Slide

  20. 20
    ͦͯ͠σʔλαΠΤϯε΁
    ໾৬มԽݕ஌ɺϦίϝϯυ
    اۀͷΫϥελϦϯάɺۀछ
    ਓɺձࣾͷΩʔϫʔυͷநग़
    ޿ࠂ഑৴γεςϜͷ࠷దԽ
    ϑΟʔυͷ࠷దԽ
    ࣍ձ͏΂͖ਓɺձࣾɺ෦ॺͷϦίϝϯυ
    ΩʔϚϯͷϦίϝϯυ

    ɹɹɹɹɹɹɹɹɹɹɹʜ FUD

    View Slide

  21. ͓ΘΓʹ
    21

    View Slide

  22. 22
    4BOTBOͱ໊ࢗͷσʔλԽͱػցֶशͷऔΓ૊ΈΛૡ͍ఠΜͰ঺հ
    ػցֶशΛϓϩδΣΫτͰ࢖͏ͨΊʹඞཁͳ΋ͷ

    ५୔ͳ؀ڥ

    େྔͷ៉ྷͳσʔλ

    ૬Ԡͷج൫ٕज़ͱ%#ͱΠϯϑϥ

    ࣾ಺ͷཧղ
    ༏लͳ3%ϝϯόʔɺڞಉݚڀઌΛืूத

    ɹ५୔ͳσʔλɺ؀ڥɺֶձࢀՃ΍ొஃɺ,BHHMF෦ɺษڧձʜFUD

    ɹ,BHHMF(SBOE.BTUFS .BTUFS 0QFO$74IBSQ࡞ऀͳͲ໊͕ࡏ੶
    ͓ΘΓʹ

    View Slide

  23. View Slide