Upgrade to Pro — share decks privately, control downloads, hide ads and more …

学⽣時代の経験は研究開発業務で活きるのか / Will experience as a student be useful in R&D work?

A2cac4b3dcb2bc0b87917ddc034ef708?s=47 Sansan DSOC
December 13, 2021

学⽣時代の経験は研究開発業務で活きるのか / Will experience as a student be useful in R&D work?

■イベント 
:Sansan R&D・エンジニア新卒LT会
https://sansan.connpass.com/event/228690/

■登壇概要
タイトル:学⽣時代の経験は研究開発業務で活きるのか
発表者: 
R&D 研究員  青見 樹

▼Twitter
https://twitter.com/SansanRandD

A2cac4b3dcb2bc0b87917ddc034ef708?s=128

Sansan DSOC

December 13, 2021
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. 学⽣時代の経験は 研究開発業務で活きるのか Sansan株式会社 技術本部 DSOC 研究開発部 ⻘⾒ 樹 2021.12.13 Sansan

    R&D・エンジニア新卒LT会
  2. Data Strategy and Operation Center ⾃⼰紹介 • 2021年3⽉ 電気通信⼤学⼤学院 博⼠前期課程修了

    • 2021年4⽉ Sansan株式会社⼊社 ⻘⾒ 樹 Itsuki Aomi nersonu nersonu Sansan 株式会社 技術本部 DSOC 研究開発部 Data Analysis Group 研究員
  3. 配属してからの取り組み 2

  4. Data Strategy and Operation Center Sansan が提供する代表的なサービス クラウド名刺管理サービス 名刺アプリ クラウド請求書受領サービス

  5. Data Strategy and Operation Center 契約書のデータ化 4 クラウドサインに “Contract One”

    という名称で契約書データ化技術を 提供している https://jp.corp-sansan.com/news/2020/contract-one_launch.html より引⽤
  6. Data Strategy and Operation Center 契約書PDF⼊⼒/データ化ソリューション 契約書PDF⼊⼒/ データ化 ソリューション ⼊⼒

    データ化 ⾃動化エンジン オペレーター 名刺データ化ノウハウを活かした、契約書データ化ソリューション 契約書PDF 契約書データ ユーザ企業
  7. Data Strategy and Operation Center 契約書データ化技術と研究開発 ・契約書の様々な項⽬を抽出することに向き合う ・ ⼊⼒が PDFデータ

    ・画像処理もテキスト処理も可能 ・座標情報も活⽤可能 ・ データ抽出の⾃動化 ・ルールベースや固有表現抽出⼿法の検討 ・ データ化候補の提⽰ ・出⼒の事後確率利⽤の検討
  8. Data Strategy and Operation Center 研究員はどこまで開発するの? (⻘⾒の場合) 7 1. ロジックの検討

    ・ 実装したいロジックの要求性能は?誤って判定する場合の影響は? ・ モデルの解釈性は必要?そもそも改善の必要性は? 2. ロジックを実装するための設計 ・ 処理時間は?最⼤メモリ使⽤量は?⼊出⼒は?コストは? ・ システムの開発メンバーと摺合せ・連携する。専⾨外のメンバーへどう伝えるか 3. ロジックの実装 ・ アルゴリズムやデータのやり取りの仕組みを Python で実装 ・ Docker でコンテナ化したり、⼿元でテストできるようにしたり
  9. Data Strategy and Operation Center 実務での研究開発の難しさと⾯⽩さ 8 ・ ただ精度を上げればいいというわけではない ・

    例えば、「⼈の作業時短をすることでコストを削減する」のような 最適化したい⽬的を明確にする ・ 性能の善し悪しだけで判断するのではなく、実際のプロダクトの要件に耐えうる 処理速度を満たすか、最⼤メモリ使⽤量は問題無いか等を考慮する ・ ⾃分勝⼿なコードを書いていいわけではない ・ 何をやっているか他の研究員がわかるように⼼がけてコードを書く ・ レビューしてもらいながら、テストも書きながら ・ 研究と同じように巨⼈の肩に乗る。既存のコードや、時にはエンジニアに頼る
  10. 学⽣時代にやったことは役に⽴つのか? 9

  11. Data Strategy and Operation Center 学⽣時代にやっていたこと 10 ・ 研究 ・

    ベイジアンネットワーク分類器のモデル平均 ・ 項⽬反応理論を⽤いた⾃動採点機のモデル平均 ・ 取り組み ・ JASMAC主催「データ解析コンペティション」へ参加してみたり ・ ハッカソンに出てみたり ・ アルバイトやインターン ・ Android Java 書いたり、Visual C++ 書いたり、GAS でツール作ったり ・ IT系企業で数社、データサイエンティストとしてインターンに⾏ったり
  12. Data Strategy and Operation Center スキルについて (⻘⾒の場合) 11 https://speakerdeck.com/sansandsoc/how-do-the-skills-developed-in-university-are-used-in-analyzing-the-job-market を参考に作製

    ⻘⾒の業務で活きていること 活きていないこと 学⽣時代に興味があり 習熟できたもの • 数理統計・機械学習の基礎や作法 • ⾃然⾔語処理・画像処理の基礎知識 • データハンドリング・可視化 • ⼀定の論理的⽂章・発表に関するスキル • Python, SQL • コンピュータサイエンスの基礎的な知識 • 論⽂や専⾨書の読み⽅ • 数理統計・機械学習の特定領域への専⾨知識 • GCPに関する基礎知識 (使⽤しているプロダクトもある) • Android Java, C, C++ 等⾔語の開発経験 学⽣時代に興味があり 習熟できなかったもの • AWSに関する基礎知識 (GCPよりAWSを使うことが多い) • チーム開発の作法 • 専⾨外の⼈に⾃分の研究をうまく伝える能⼒ (サイエンス・コミュニケーション) • 競技プログラミング • 数理統計・機械学習の深い知識 興味のなかったこと • ビジネス的観点 • ⽬標設定や振り返りの⽅法
  13. Data Strategy and Operation Center スキルについて (⻘⾒の場合) 12 https://speakerdeck.com/sansandsoc/how-do-the-skills-developed-in-university-are-used-in-analyzing-the-job-market を参考に作製

    学⽣時代に興味があり 習熟できなかったもの • AWSに関する基礎知識 (GCPよりAWSを使うことが多い) • チーム開発の作法 • 専⾨外の⼈に⾃分の研究をうまく伝える能⼒ (サイエンス・コミュニケーション) • 競技プログラミング • 数理統計・機械学習の深い知識 学⽣時代に、やっておけば業務に 役⽴つのでは?と思っていたが、 習熟出来なかったものが多い 学⽣時代に、やっておけば業務に 役⽴つのでは?と思っていたが、 意外と必要になっていない
  14. Data Strategy and Operation Center スキルについて (⻘⾒の場合) 13 ⻘⾒の業務で活きていること 活きていないこと

    学⽣時代に興味があり 習熟できたもの • 数理統計・機械学習の基礎や作法 • ⾃然⾔語処理・画像処理の基礎知識 • データハンドリング・可視化 • ⼀定の論理的⽂章・発表に関するスキル • Python, SQL • コンピュータサイエンスの基礎的な知識 • 論⽂や専⾨書の読み⽅ • 数理統計・機械学習の特定領域への専⾨知識 • GCPに関する基礎知識 (使⽤しているプロダクトもある) • Android Java, C, C++ 等⾔語の開発経験 学⽣時代に興味があり 習熟できなかったもの • AWSに関する基礎知識 (GCPよりAWSを使うことが多い) • チーム開発の作法 • 専⾨外の⼈に⾃分の研究をうまく伝える能⼒ (サイエンス・コミュニケーション) • 競技プログラミング • 数理統計・機械学習の深い知識 興味のなかったこと • ビジネス的観点 • ⽬標設定や振り返りの⽅法 https://speakerdeck.com/sansandsoc/how-do-the-skills-developed-in-university-are-used-in-analyzing-the-job-market を参考に作製
  15. Data Strategy and Operation Center 【再掲】研究員はどこまで開発するの? (⻘⾒の場合) 14 1. ロジックの検討

    ・ 実装したいロジックの要求性能は?誤って判定する場合の影響は? ・ モデルの解釈性は必要?そもそも改善の必要性は? 2. ロジックを実装するための設計 ・ 処理時間は?最⼤メモリ使⽤量は?⼊出⼒は?コストは? ・ システムの開発メンバーと摺合せ・連携する。専⾨外のメンバーへどう伝えるか 3. ロジックの実装 ・ アルゴリズムやデータのやり取りの仕組みを Python で実装 ・ Docker でコンテナ化したり、⼿元でテストできるようにしたり
  16. Data Strategy and Operation Center まとめ 15 ・ 実務での研究開発は難しいことも多いが、⾯⽩さがある ・

    研究と同様に「なぜ」を深掘っていくことが⼤切。⾃分もまだ全然出来ていな いので伸ばしていきたい⼒ ・ 学⽣時代にやっていたことは⼤抵なんらかの役に⽴っている ・ 「◦◦のために」みたいなモチベーションも良いが、好きなことを好きなだけ やっておくほうが継続するし習熟すると勝⼿に感じている ・ 学⽣時代の研究が直接活きることは少ないが、その過程で培った基礎知識や 論理的思考は⾮常に役に⽴つ
  17. None