$30 off During Our Annual Pro Sale. View Details »

学⽣時代の経験は研究開発業務で活きるのか / Will experience as a student be useful in R&D work?

Sansan DSOC
December 13, 2021

学⽣時代の経験は研究開発業務で活きるのか / Will experience as a student be useful in R&D work?

■イベント 
:Sansan R&D・エンジニア新卒LT会
https://sansan.connpass.com/event/228690/

■登壇概要
タイトル:学⽣時代の経験は研究開発業務で活きるのか
発表者: 
R&D 研究員  青見 樹

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

December 13, 2021
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. 学⽣時代の経験は
    研究開発業務で活きるのか
    Sansan株式会社 技術本部 DSOC 研究開発部
    ⻘⾒ 樹
    2021.12.13 Sansan R&D・エンジニア新卒LT会

    View Slide

  2. Data Strategy and Operation Center
    ⾃⼰紹介
    • 2021年3⽉ 電気通信⼤学⼤学院 博⼠前期課程修了
    • 2021年4⽉ Sansan株式会社⼊社
    ⻘⾒ 樹
    Itsuki Aomi
    nersonu nersonu
    Sansan 株式会社 技術本部 DSOC
    研究開発部 Data Analysis Group 研究員

    View Slide

  3. 配属してからの取り組み
    2

    View Slide

  4. Data Strategy and Operation Center
    Sansan が提供する代表的なサービス
    クラウド名刺管理サービス 名刺アプリ クラウド請求書受領サービス

    View Slide

  5. Data Strategy and Operation Center
    契約書のデータ化
    4
    クラウドサインに “Contract One” という名称で契約書データ化技術を
    提供している
    https://jp.corp-sansan.com/news/2020/contract-one_launch.html より引⽤

    View Slide

  6. Data Strategy and Operation Center
    契約書PDF⼊⼒/データ化ソリューション
    契約書PDF⼊⼒/
    データ化
    ソリューション
    ⼊⼒
    データ化
    ⾃動化エンジン
    オペレーター
    名刺データ化ノウハウを活かした、契約書データ化ソリューション
    契約書PDF
    契約書データ
    ユーザ企業

    View Slide

  7. Data Strategy and Operation Center
    契約書データ化技術と研究開発
    ・契約書の様々な項⽬を抽出することに向き合う
    ・ ⼊⼒が PDFデータ
    ・画像処理もテキスト処理も可能
    ・座標情報も活⽤可能
    ・ データ抽出の⾃動化
    ・ルールベースや固有表現抽出⼿法の検討
    ・ データ化候補の提⽰
    ・出⼒の事後確率利⽤の検討

    View Slide

  8. Data Strategy and Operation Center
    研究員はどこまで開発するの? (⻘⾒の場合)
    7
    1. ロジックの検討
    ・ 実装したいロジックの要求性能は?誤って判定する場合の影響は?
    ・ モデルの解釈性は必要?そもそも改善の必要性は?
    2. ロジックを実装するための設計
    ・ 処理時間は?最⼤メモリ使⽤量は?⼊出⼒は?コストは?
    ・ システムの開発メンバーと摺合せ・連携する。専⾨外のメンバーへどう伝えるか
    3. ロジックの実装
    ・ アルゴリズムやデータのやり取りの仕組みを Python で実装
    ・ Docker でコンテナ化したり、⼿元でテストできるようにしたり

    View Slide

  9. Data Strategy and Operation Center
    実務での研究開発の難しさと⾯⽩さ
    8
    ・ ただ精度を上げればいいというわけではない
    ・ 例えば、「⼈の作業時短をすることでコストを削減する」のような
    最適化したい⽬的を明確にする
    ・ 性能の善し悪しだけで判断するのではなく、実際のプロダクトの要件に耐えうる
    処理速度を満たすか、最⼤メモリ使⽤量は問題無いか等を考慮する
    ・ ⾃分勝⼿なコードを書いていいわけではない
    ・ 何をやっているか他の研究員がわかるように⼼がけてコードを書く
    ・ レビューしてもらいながら、テストも書きながら
    ・ 研究と同じように巨⼈の肩に乗る。既存のコードや、時にはエンジニアに頼る

    View Slide

  10. 学⽣時代にやったことは役に⽴つのか?
    9

    View Slide

  11. Data Strategy and Operation Center
    学⽣時代にやっていたこと
    10
    ・ 研究
    ・ ベイジアンネットワーク分類器のモデル平均
    ・ 項⽬反応理論を⽤いた⾃動採点機のモデル平均
    ・ 取り組み
    ・ JASMAC主催「データ解析コンペティション」へ参加してみたり
    ・ ハッカソンに出てみたり
    ・ アルバイトやインターン
    ・ Android Java 書いたり、Visual C++ 書いたり、GAS でツール作ったり
    ・ IT系企業で数社、データサイエンティストとしてインターンに⾏ったり

    View Slide

  12. Data Strategy and Operation Center
    スキルについて (⻘⾒の場合)
    11
    https://speakerdeck.com/sansandsoc/how-do-the-skills-developed-in-university-are-used-in-analyzing-the-job-market を参考に作製
    ⻘⾒の業務で活きていること 活きていないこと
    学⽣時代に興味があり
    習熟できたもの
    • 数理統計・機械学習の基礎や作法
    • ⾃然⾔語処理・画像処理の基礎知識
    • データハンドリング・可視化
    • ⼀定の論理的⽂章・発表に関するスキル
    • Python, SQL
    • コンピュータサイエンスの基礎的な知識
    • 論⽂や専⾨書の読み⽅
    • 数理統計・機械学習の特定領域への専⾨知識
    • GCPに関する基礎知識
    (使⽤しているプロダクトもある)
    • Android Java, C, C++ 等⾔語の開発経験
    学⽣時代に興味があり
    習熟できなかったもの
    • AWSに関する基礎知識
    (GCPよりAWSを使うことが多い)
    • チーム開発の作法
    • 専⾨外の⼈に⾃分の研究をうまく伝える能⼒
    (サイエンス・コミュニケーション)
    • 競技プログラミング
    • 数理統計・機械学習の深い知識
    興味のなかったこと • ビジネス的観点
    • ⽬標設定や振り返りの⽅法

    View Slide

  13. Data Strategy and Operation Center
    スキルについて (⻘⾒の場合)
    12
    https://speakerdeck.com/sansandsoc/how-do-the-skills-developed-in-university-are-used-in-analyzing-the-job-market を参考に作製
    学⽣時代に興味があり
    習熟できなかったもの
    • AWSに関する基礎知識
    (GCPよりAWSを使うことが多い)
    • チーム開発の作法
    • 専⾨外の⼈に⾃分の研究をうまく伝える能⼒
    (サイエンス・コミュニケーション)
    • 競技プログラミング
    • 数理統計・機械学習の深い知識
    学⽣時代に、やっておけば業務に
    役⽴つのでは?と思っていたが、
    習熟出来なかったものが多い
    学⽣時代に、やっておけば業務に
    役⽴つのでは?と思っていたが、
    意外と必要になっていない

    View Slide

  14. Data Strategy and Operation Center
    スキルについて (⻘⾒の場合)
    13
    ⻘⾒の業務で活きていること 活きていないこと
    学⽣時代に興味があり
    習熟できたもの
    • 数理統計・機械学習の基礎や作法
    • ⾃然⾔語処理・画像処理の基礎知識
    • データハンドリング・可視化
    • ⼀定の論理的⽂章・発表に関するスキル
    • Python, SQL
    • コンピュータサイエンスの基礎的な知識
    • 論⽂や専⾨書の読み⽅
    • 数理統計・機械学習の特定領域への専⾨知識
    • GCPに関する基礎知識
    (使⽤しているプロダクトもある)
    • Android Java, C, C++ 等⾔語の開発経験
    学⽣時代に興味があり
    習熟できなかったもの
    • AWSに関する基礎知識
    (GCPよりAWSを使うことが多い)
    • チーム開発の作法
    • 専⾨外の⼈に⾃分の研究をうまく伝える能⼒
    (サイエンス・コミュニケーション)
    • 競技プログラミング
    • 数理統計・機械学習の深い知識
    興味のなかったこと • ビジネス的観点
    • ⽬標設定や振り返りの⽅法
    https://speakerdeck.com/sansandsoc/how-do-the-skills-developed-in-university-are-used-in-analyzing-the-job-market を参考に作製

    View Slide

  15. Data Strategy and Operation Center
    【再掲】研究員はどこまで開発するの? (⻘⾒の場合)
    14
    1. ロジックの検討
    ・ 実装したいロジックの要求性能は?誤って判定する場合の影響は?
    ・ モデルの解釈性は必要?そもそも改善の必要性は?
    2. ロジックを実装するための設計
    ・ 処理時間は?最⼤メモリ使⽤量は?⼊出⼒は?コストは?
    ・ システムの開発メンバーと摺合せ・連携する。専⾨外のメンバーへどう伝えるか
    3. ロジックの実装
    ・ アルゴリズムやデータのやり取りの仕組みを Python で実装
    ・ Docker でコンテナ化したり、⼿元でテストできるようにしたり

    View Slide

  16. Data Strategy and Operation Center
    まとめ
    15
    ・ 実務での研究開発は難しいことも多いが、⾯⽩さがある
    ・ 研究と同様に「なぜ」を深掘っていくことが⼤切。⾃分もまだ全然出来ていな
    いので伸ばしていきたい⼒
    ・ 学⽣時代にやっていたことは⼤抵なんらかの役に⽴っている
    ・ 「○○のために」みたいなモチベーションも良いが、好きなことを好きなだけ
    やっておくほうが継続するし習熟すると勝⼿に感じている
    ・ 学⽣時代の研究が直接活きることは少ないが、その過程で培った基礎知識や
    論理的思考は⾮常に役に⽴つ

    View Slide

  17. View Slide