Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【WebDBフォーラム2017】Sansanにおける 名刺画像データ化フローと 機械学習の取り組み

vaaaaanquish
September 22, 2017

【WebDBフォーラム2017】Sansanにおける 名刺画像データ化フローと 機械学習の取り組み

WebDBフォーラム2017登壇資料
http://db-event.jpn.org/webdbf2017/index.html

Sansan株式会社は,国内外に向けた名刺管理サービスを提供しており,年間約2億枚の名刺をデータ化,管理している.サービスによってユーザから取り込まれる名刺画像は,画像処理,OCR,機械学習及び,Sansanが持つデータベース,人を介してデータ化されている.本発表では,Sansan社内における名刺データ化の各フローにおける取り組みを紹介すると共に,それらを支える基盤技術について事例を交えて報告する.

vaaaaanquish

September 22, 2017
Tweet

More Decks by vaaaaanquish

Other Decks in Technology

Transcript

  1. 0$3 ࣾ಺֎  ΦϖϨʔλʹΑΔखೖྗ ࣙॻͷࢀর ෳ਺ͷ৚݅ʹΑΔϚονϯά จࣈɺإɺϩΰ౳ͷݕग़ ߲໨಺༰ͷਪఆ
 ࣗવݴޠॲཧ ػցֶश

     ΦϖϨʔλʹΑΔ໨ࢹ ࣙॻͷࢀরɺϚονϯά ۣܗݕग़ Τοδݕग़  ϗϫΠτχϯά ը૾֦େ ௒ղ૾ XBJGVY 9 ໊ࢗσʔλԽͷཁૉٕज़
  2. 13 %FFQ)FBU.BQ.PEFM ࢀߟz1ZSBNJE4DFOF1BSTJOH/FUXPSL )FOHTIVBOH;IBP +JBOQJOH4IJ 9JBPKVBO2J 9JBPHBOH8BOH +JBZB+JB *&&&$POGFSFODFPO$PNQVUFS7JTJPOBOE1BUUFSO3FDPHOJUJPO $713

     IUUQTIT[IBPHJUIVCJPQSPKFDUTQTQOFU %FFQ-FBSOJOHϞσϧ ෼ׂͷ݁ՌΛֶशͤ͞Δ ͭͷϞσϧ
 ໊ࢗ಺ͷ߲໨ۣܗͷਪఆ
 ߲໨໊ͷਪఆ Ϟσϧ୯ମͰ΋ͷਫ਼౓
 طଘͷγεςϜͱ૊Έ߹Θͤ
  3. %FFQ-BOH%FUFDUPS.PEFM z+BQBOFTFz ࢀߟz%FFQ3FTJEVBM-FBSOJOHGPS*NBHF3FDPHOJUJPO ,BJNJOH)F 9JBOHZV;IBOH 4IBPRJOH3FO +JBO4VO IUUQTBSYJWPSHBCT ໊͔ࢗΒݴޠΛ൑ఆ
 ೔ຊޠɺӳޠɺதࠃޠɺ೔ຊޠӳޠɺʜ


    ΦϖϨʔλೖྗ৘ใͱϑΟʔυόοΫ͔Βֶश σʔλԽϑϩʔͷ࠷దԽ ɹͦͷݴޠͷυϝΠϯΛ࣋ͭΦϖϨʔλ΁ͷৼΓ෼͚ ɹ0$3౳΁ͷࣄલ৘ใ΁ ֶशγεςϜΛճ͍ͯ͘͠ࣄͰଟݴޠԽʹରԠ
  4. 15 ଞػցֶशͷऔΓ૊Έ σʔλԽγεςϜͷ࠷దԽ - *OTQFDUPSνΣοΫ ‣ΦϖϨʔλͷೖྗͷϛεΛֶश ࣗવݴޠॲཧ ػցֶश  ‣ܾఆ໦

    "VUP&ODPEFSͳͲʮ΋͔ͯ͠͠ɿʯ͕ՄೳͳϞσϧ ‣ਫ਼౓Λ୲อ͠ͳ͕ΒίετΛ࠷దԽ - औΓࠐΈຕ਺ͷ༧ଌ ‣աڈͷձࣾͷऔΓࠐΈ΍ن໛ɺӦۀൺ཰ ‣#PPTUJOHʹΑΔઢܗճؼ HCMJOFS  ‣ΦϖϨʔλௐ੔ɺΩϟϯϖʔϯ΍ަবࡐྉ
 ༳ΕٵऩͱσʔλϕʔεΫϨϯδϯά - ໊دͤνΣοΫ ‣اۀ৘ใɺ໊ࢗऔΓࠐΈຕ਺ɺਓ໊ͷ௝͠͞౳Λಛ௃ྔԽ ‣ܾఆ໦ͳͲઆ໌ม਺͕෼͔Γ΍͍͢ϞσϧͰ࡞ΓˠΦϖϨʔλ΁ - ϛεݕ஌ ‣σʔλϕʔεͷೖྗ࣌ظ౳ͷ৘ใΛݩʹϛεݕ஌ ‣ݹ͍γεςϜʹΑΔσʔλΛΫϨϯδϯά 4POTPOגࣜձࣾ ʔʔʔ  ŠŠŠ
  5. 18 ػցֶश༻ͷσʔλ ೖྗ ೖྗ ෼ׂνΣοΫ ࣾ಺ͰͷਓʹΑΔσʔλνΣοΫ
 
 ʼػցֶश༻ͷUSBJO UFTUσʔλνΣοΫ
 ɹػցֶशΤϯδχΞͷ࢓ࣄͷେ൒Λ઎ΊΔσʔλ࡞Γ΋෼ࢄ


    ɹσʔλ͸ੜϞϊ
 σʔλΛ࡞ΔਓɺλΠϛϯάʹΑͬͯ൑அج४͕มԽͯ͠͠·͏
 ɹɹࣾ಺ͷίϛϡχέʔγϣϯͰυϝΠϯΛڞ༗Ͱ͖Δ
 ɹɹλεΫ΍σʔλɺλΠϛϯάʹԠͨ͡ܗࣜ
 ɹϓϩδΣΫτʹΑͬͯ਺ेສʙ਺ඦສͷֶशσʔλ
 
 ʼ%#಺ͷաڈσʔλνΣοΫ
 ɹ(BSCBHFJO (BSCBHFPVU 
 ɹաڈͷσʔλ͕៉ྷʹͳ͍ͬͯ͘ࣄͰ
 ɹػցֶशϓϩδΣΫτͷεϐʔυ͸ܶతʹ޲্͢Δ * Garbage in, Garbage Out: How Purportedly Great Machine Learning Models Can Be Screwed Up By Bad Data [2017, Black Hat USA, Hillary Sanders] ໨ࢹνΣοΫ