$30 off During Our Annual Pro Sale. View Details »

画像系研究員の今までとこれから / The past and future of a researcher

Sansan DSOC
December 13, 2021

画像系研究員の今までとこれから / The past and future of a researcher

■イベント 
:Sansan R&D・エンジニア新卒LT会
https://sansan.connpass.com/event/228690/

■登壇概要
タイトル:画像系研究員の今までとこれから
発表者: 
R&D 研究員  内田 奏

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

December 13, 2021
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. 画像系研究員の今までとこれから
    技術本部 DSOC 研究開発部 Automation Group 研究員
    内⽥ 奏
    Sansan R&D・エンジニア新卒LT会

    View Slide

  2. Data Strategy and Operation Center
    ⾃⼰紹介
    2020/03: 東京電機⼤学⼤学院 ⼯学研究科 情報通信⼯学専攻 修了
    局所特徴量を⽤いたトラッキング,Metric Learningを⽤いたファッション
    画像の特徴抽出,超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事
    2020/04:Sansan株式会社 ⼊社(インターンとしては2018/10より在籍)
    画像⽣成技術を応⽤した名刺画像補正や独⾃開発OCRに関する研究に従事
    内⽥ 奏
    So Uchida
    s_aiueo32 S-aiueo32
    Sansan 株式会社
    技術本部 DSOC R&D Automation Group 研究員

    View Slide

  3. 今まで

    View Slide

  4. Data Strategy and Operation Center
    DSOCとの出会い
    M1の8⽉にDSOCのサマーインターンシップに参加

    View Slide

  5. Data Strategy and Operation Center
    サマーインターンシップ
    共通のデータからそれぞれのテーマを設定・分析・成果発表
    • ビジネス上の課題は何か? / 何がユーザの価値につながるか?
    • 実現可能性を踏まえ,メンターと相談しながらテーマを決定
    最終成果報告会
    中間報告会

    View Slide

  6. Data Strategy and Operation Center
    サマーインターンを通して
    テーブルデータほぼ未経験からなんとか切り抜けた
    • メンター社員の⼿厚いサポート
    • 時間を意識して仕事に向き合うこと
    > 短期的な実現可能性を考慮したテーマ選定
    > 時間を意識したコーディング
    • 処理時間の可視化・把握 / 実⾏回数等で優先順位を設けて⼯夫するか判断
    インターン仲間が超優秀
    • 異分野の強い⼈が集まるため,様々なアイデアが出てくる
    • 「こんな⼈たちと働きたい」という気持ちになる

    View Slide

  7. Data Strategy and Operation Center
    ⻑期インターンシップ
    超解像
    • 超解像: 画像の解像度を上げる技術
    • 名刺を拡⼤して⽂字認識精度向上
    ホワイトニング
    • カメラ撮影名刺の影除去&輝度の引き上げ
    • Eightで名刺を取り込むと体験できます!!!
    M1の10⽉から画像タスクを任せてもらうことに

    View Slide

  8. Data Strategy and Operation Center
    ⻑期インターンを通して
    AWS/GCP上での開発を経験
    • 開発は基本的にEC2インスタンスおよびその他リソースを利⽤
    > 必要とあらばGPUを浴びることも可能
    ⾃⾝の専⾨性を評価してもらえる
    • 多様なメンバーが個々⼈の強みを認識・評価しあう⾵⼟がある
    • ⾃分の作ったモデルがビジネス的にOKなのかも評価
    > Data Management Groupによるチェック・フィードバック
    普通の業務以外にも⾊々経験できた
    • Sansan Builders Blogでの連載, 弊社主催勉強会への登壇 etc.

    View Slide

  9. Data Strategy and Operation Center
    新卒⼊社 & 京都勤務

    View Slide

  10. Data Strategy and Operation Center
    京都勤務でやったこと
    DSOC OCR ⼊⾨
    • 名刺に特化したOCRライブラリ開発は最優先課題の1つ
    > OCRの信頼性向上によるデータ化コスト削減
    > 即時データ化によるユーザ体験の向上
    • 性能改善のプロセスを学ぶ
    > 処理の意図を確認しながら再現実装
    > 性能評価・ミス分析
    > ミス分析結果を基に既存モデル改良
    キーワード: Class-Incremental Learning

    View Slide

  11. Data Strategy and Operation Center
    最近やったこと
    10
    全項⽬版 DSOC OCR
    • ⽂字認識部分を担当
    > 既存のモデルを使わず,モデルを⼀新する判断
    > 学習データ整備・モデル開発・API開発までやる
    > 先⽇プロダクション環境に無事リリースしました 🎉
    複数⾏テキストに対する
    Attentionマップの遷移
    ⽂字列検出結果

    View Slide

  12. これから

    View Slide

  13. Data Strategy and Operation Center
    グループ構成 (⼊社時点)
    Sansan⻑岡ラボ (2名)
    Sansan Innovation Lab(2名) 表参道オフィスに
    私ただ 1名

    View Slide

  14. Data Strategy and Operation Center
    グループ構成 (2022/04時点, 予定)
    Sansan⻑岡ラボ (2名)
    Sansan Innovation Lab(2名) 表参道オフィスに
    研究員 6名
    絶賛採⽤拡⼤中!!!

    View Slide

  15. Data Strategy and Operation Center
    やることは⼭積み
    14
    名刺OCRの完成系を⽬指す
    • 様々な分野の知識が必要
    > ⾔語処理・グラフニューラルネットワーク etc.
    > 専⾨は違えど根底となる知識は共通している場合が多いです
    • アカデミアにも貢献していきたい
    マルチプロダクトの根幹を担う
    • データ化の精度・スピードは事業成⻑に直結

    View Slide

  16. 「こんな⼈たちと働きたい」
    15

    View Slide

  17. そう思える環境に
    ⾶び込んでいってください!!!

    View Slide

  18. View Slide