Upgrade to Pro — share decks privately, control downloads, hide ads and more …

サービスコア技術名刺データ化/Sansan R&D Architect Work Style

Sansan
December 18, 2018

サービスコア技術名刺データ化/Sansan R&D Architect Work Style

■イベント
公立はこだて未来大学での授業

■登壇概要
タイトル:サービスコア技術名刺データ化 -研究と開発と運用と-
登壇者:Data Strategy and Operation Center R&Dアーキテクト 島 貴宏

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

Sansan

December 18, 2018
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. 自己紹介 - 島 貴宏 - 2011年 公立はこだて未来大学大学院修了 - 川嶋研究室, 画像処理専攻

    - 2013年 Sansan株式会社入社 (2017年から札幌ラボ) - 私の入社と同時にR&D部門が創設されました - 以来、広く研究・開発・運用に携わっています - 2016年から チーフR&Dアーキテクト を名乗り、設計や運用の改善含め幅広く担当しています
  2. 8 Sansan の R&D 博士(物理学)、博士(数理科学)、 博士(計算機科学) 各1名 多 様 な

    研 究 者 博 士 学 位 画像処理、データサイエンス(統計学、自然言語、機械学習)、 社会科学・計量経済学・労働経済学、データビジュアライゼーションの 各スペシャリスト ※世界的機械学習コンペ Kaggle のタイトルホルダ ※ Grandmaster 2名
  3. 11 脳科学 項目判別の結果を学習 ◦単体モデルで項目矩形、項目名の推定 ◦精度 98 % ※画像はダミー名刺です。 参考資料:”Pyramid Scene

    Parsing Network” Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 https://hszhao.github.io/projects/pspnet/ ディープラーニングを用いた項目判定
  4. 12 脳科学 ディープラーニングを用いた言語判定 名刺画像から言語を判定 ◦4言語(日英中韓)に対応 ◦データ化フローの効率化 ◦オペレータへの振り分けの自動化 ◦精度 98 %

    参考資料:”Deep Residual Learning for Image Recognition” Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun https://arxiv.org/abs/1512.03385 言語判定モデル 日本語名刺 英語名刺 中国語名刺 その他言語 韓国語名刺 名 刺
  5. 16 現 職 Yonyon株式会社 田中 太郎 前 職 Sansan株式会社 田中

    太郎 例)時系列や人脈の類似性に基づく名刺の 新旧判定、同一企業/人物判定 など 共 通 ビッグデータやネットワーク類似度に基づく、 高精度な名寄せ ープロファイリング 統計学・確率論 自然言語処理
  6. 19 人と人の出会いを最適化 社内の人脈を有効活用 レコメンデーション ー3分野の応用 統計学・確率論 自然言語処理 企業と企業の出会いを最適化(検証中) コンタクトすべき企業のホワイトリストを生成 知人の推測

    より人脈を広げる 企業と人の出会いを最適化 ユーザーに合った求人マッチング パーソナライズされたタイムリーな情報を提供 ニュースフィードのレコメンデーション
  7. 20 S a n s a n レコメンデーションエンジン Sansanに蓄積された 名刺情報

    成果の理解+人物の分析 出会いがもたらす成果の予 測 出会うべき時、出会うべき人 を確実に捉える S a n s a n ビジネスデータベース 出会いの最適化によって働き方を革新する ー出会う、が、世界を変えていくー ー3分野の応用(レコメンデーションがもたらす未来の価値) 統計学・確率論 自然言語処理
  8. 21 AI活用・研究の紹介 Sansan Labs AI を活用した実験的機能 / サービスの提供 社員の強みをキーワード化 バーチャル組織図

    企業間距離の変遷 社内キーパーソン Sansan Labs ABMダッシュボード 顧客ごとのタッチポイントを俯瞰 自分や同僚の強みを可視化 自社と親密/疎遠になっている顧客を抽出 人脈をもとに真のチームを可視化 顧客との関係拡大に寄与した社員を抽出
  9. 研究開発の例:影除去 • 弊社の名刺は非常に難しい。 顔写真が「影っぽい」ので間違えがち。 • 答えを決め難い。テストケースすら書きにくい。 • OCRの精度(成功しやすさ)で測る • PSNRで測る

    [人間の感覚とあまり一致しない] • 人間の知覚に近い尺度で測る (ECCV 2018 PIRM Workshop で示されている手法など https://www.pirm2018.org/PIRM-SR.html) こういうのも何とかしたい
  10. 大学との研究の違い • (弊社の場合) 最新の研究を追いかける必要は、必ずしもない。枯れた技 術でも充分成果になる。 • むしろノウハウがあり製品化が容易 • ある程度の段階での割り切り(諦め?)も肝心 •

    とはいえ、競合企業もいる。枯れた技術で出したその次から、試されていく。 • 研究自体を追い求めたいか、世に出すことを価値と捉えるか。 進路はよくお考え下さい!
  11. 分業制の課題 - 開発者も研究要素にある程度詳しくないと大変 - 一般的に開発チームはある程度全員で共通の技術知識を持つものだが、 R&Dではそれが乏しい。 - 得意な領域が異なる (言語:C++, Python,

    R, … 機械学習やWeb等のフレームワークも多 彩) - Gitに不慣れな人も普通にいる - ローカルで少量の処理しか念頭にない実装が出てきて、それを製品化可 能なレベルにもっていくのが大変。 - 負荷等のインフラ問題、依存データの問題、実装の問題、ログの問題、など
  12. R&Dアーキテクトの業務内容 - 技術指針の決定 - コーディング規約 - Web Application Framework の標準化

    - 新サービス設計の相談役 - 設計レビュー - コードレビュー - 日常的に質問を受ける - 開発環境整備 - シンクライアント化 - CI/CD環境の構築 - 社内ライブラリ管理サーバの構築 - ライブラリやミドルウェアのアップデート - 基盤構築 - OCR共通処理サービス - KPI - 障害対応 - システム運用 - たまに研究開発
  13. 例1. シンクライアント化 - 以下の課題から - さまざまなデータを取り扱う - 本番データを用いて開発・分析を行う - ローカルに本番データを取得するのは怖い

    - ハイエンドPCに縛られる - 重い - 在宅勤務や障害対応のためにPCを持ち帰るのは苦行 - サービスの価値をいち早く届けたい
  14. コードレビュー • リリースにはGitHubのpull requestを義務付け、私は全て目を通す。 • 専門性が高くて、何が書いてあるかよくわからない • なかなか「研究者らしい」実装 • レビューしていたら1日終わるのはよくある

    • ここ数年来の経験から、見る側も見られる側も、場数を踏むしか無いと 思っています。必要次第でヘルプに入りつつ、粘り強くコメント。 • かなり運用に乗ってきたと感じます。