■イベント :Sansan R&D・エンジニア新卒LT会 https://sansan.connpass.com/event/228690/
■登壇概要 タイトル:学⽣時代の経験は研究開発業務で活きるのか 発表者: R&D 研究員 青見 樹
▼Twitter https://twitter.com/SansanRandD
学⽣時代の経験は研究開発業務で活きるのかSansan株式会社 技術本部 DSOC 研究開発部⻘⾒ 樹2021.12.13 Sansan R&D・エンジニア新卒LT会
View Slide
Data Strategy and Operation Center⾃⼰紹介• 2021年3⽉ 電気通信⼤学⼤学院 博⼠前期課程修了• 2021年4⽉ Sansan株式会社⼊社⻘⾒ 樹Itsuki Aominersonu nersonuSansan 株式会社 技術本部 DSOC研究開発部 Data Analysis Group 研究員
配属してからの取り組み2
Data Strategy and Operation CenterSansan が提供する代表的なサービスクラウド名刺管理サービス 名刺アプリ クラウド請求書受領サービス
Data Strategy and Operation Center契約書のデータ化4クラウドサインに “Contract One” という名称で契約書データ化技術を提供しているhttps://jp.corp-sansan.com/news/2020/contract-one_launch.html より引⽤
Data Strategy and Operation Center契約書PDF⼊⼒/データ化ソリューション契約書PDF⼊⼒/データ化ソリューション⼊⼒データ化⾃動化エンジンオペレーター名刺データ化ノウハウを活かした、契約書データ化ソリューション契約書PDF契約書データユーザ企業
Data Strategy and Operation Center契約書データ化技術と研究開発・契約書の様々な項⽬を抽出することに向き合う・ ⼊⼒が PDFデータ・画像処理もテキスト処理も可能・座標情報も活⽤可能・ データ抽出の⾃動化・ルールベースや固有表現抽出⼿法の検討・ データ化候補の提⽰・出⼒の事後確率利⽤の検討
Data Strategy and Operation Center研究員はどこまで開発するの? (⻘⾒の場合)71. ロジックの検討・ 実装したいロジックの要求性能は?誤って判定する場合の影響は?・ モデルの解釈性は必要?そもそも改善の必要性は?2. ロジックを実装するための設計・ 処理時間は?最⼤メモリ使⽤量は?⼊出⼒は?コストは?・ システムの開発メンバーと摺合せ・連携する。専⾨外のメンバーへどう伝えるか3. ロジックの実装・ アルゴリズムやデータのやり取りの仕組みを Python で実装・ Docker でコンテナ化したり、⼿元でテストできるようにしたり
Data Strategy and Operation Center実務での研究開発の難しさと⾯⽩さ8・ ただ精度を上げればいいというわけではない・ 例えば、「⼈の作業時短をすることでコストを削減する」のような最適化したい⽬的を明確にする・ 性能の善し悪しだけで判断するのではなく、実際のプロダクトの要件に耐えうる処理速度を満たすか、最⼤メモリ使⽤量は問題無いか等を考慮する・ ⾃分勝⼿なコードを書いていいわけではない・ 何をやっているか他の研究員がわかるように⼼がけてコードを書く・ レビューしてもらいながら、テストも書きながら・ 研究と同じように巨⼈の肩に乗る。既存のコードや、時にはエンジニアに頼る
学⽣時代にやったことは役に⽴つのか?9
Data Strategy and Operation Center学⽣時代にやっていたこと10・ 研究・ ベイジアンネットワーク分類器のモデル平均・ 項⽬反応理論を⽤いた⾃動採点機のモデル平均・ 取り組み・ JASMAC主催「データ解析コンペティション」へ参加してみたり・ ハッカソンに出てみたり・ アルバイトやインターン・ Android Java 書いたり、Visual C++ 書いたり、GAS でツール作ったり・ IT系企業で数社、データサイエンティストとしてインターンに⾏ったり
Data Strategy and Operation Centerスキルについて (⻘⾒の場合)11https://speakerdeck.com/sansandsoc/how-do-the-skills-developed-in-university-are-used-in-analyzing-the-job-market を参考に作製⻘⾒の業務で活きていること 活きていないこと学⽣時代に興味があり習熟できたもの• 数理統計・機械学習の基礎や作法• ⾃然⾔語処理・画像処理の基礎知識• データハンドリング・可視化• ⼀定の論理的⽂章・発表に関するスキル• Python, SQL• コンピュータサイエンスの基礎的な知識• 論⽂や専⾨書の読み⽅• 数理統計・機械学習の特定領域への専⾨知識• GCPに関する基礎知識(使⽤しているプロダクトもある)• Android Java, C, C++ 等⾔語の開発経験学⽣時代に興味があり習熟できなかったもの• AWSに関する基礎知識(GCPよりAWSを使うことが多い)• チーム開発の作法• 専⾨外の⼈に⾃分の研究をうまく伝える能⼒(サイエンス・コミュニケーション)• 競技プログラミング• 数理統計・機械学習の深い知識興味のなかったこと • ビジネス的観点• ⽬標設定や振り返りの⽅法
Data Strategy and Operation Centerスキルについて (⻘⾒の場合)12https://speakerdeck.com/sansandsoc/how-do-the-skills-developed-in-university-are-used-in-analyzing-the-job-market を参考に作製学⽣時代に興味があり習熟できなかったもの• AWSに関する基礎知識(GCPよりAWSを使うことが多い)• チーム開発の作法• 専⾨外の⼈に⾃分の研究をうまく伝える能⼒(サイエンス・コミュニケーション)• 競技プログラミング• 数理統計・機械学習の深い知識学⽣時代に、やっておけば業務に役⽴つのでは?と思っていたが、習熟出来なかったものが多い学⽣時代に、やっておけば業務に役⽴つのでは?と思っていたが、意外と必要になっていない
Data Strategy and Operation Centerスキルについて (⻘⾒の場合)13⻘⾒の業務で活きていること 活きていないこと学⽣時代に興味があり習熟できたもの• 数理統計・機械学習の基礎や作法• ⾃然⾔語処理・画像処理の基礎知識• データハンドリング・可視化• ⼀定の論理的⽂章・発表に関するスキル• Python, SQL• コンピュータサイエンスの基礎的な知識• 論⽂や専⾨書の読み⽅• 数理統計・機械学習の特定領域への専⾨知識• GCPに関する基礎知識(使⽤しているプロダクトもある)• Android Java, C, C++ 等⾔語の開発経験学⽣時代に興味があり習熟できなかったもの• AWSに関する基礎知識(GCPよりAWSを使うことが多い)• チーム開発の作法• 専⾨外の⼈に⾃分の研究をうまく伝える能⼒(サイエンス・コミュニケーション)• 競技プログラミング• 数理統計・機械学習の深い知識興味のなかったこと • ビジネス的観点• ⽬標設定や振り返りの⽅法https://speakerdeck.com/sansandsoc/how-do-the-skills-developed-in-university-are-used-in-analyzing-the-job-market を参考に作製
Data Strategy and Operation Center【再掲】研究員はどこまで開発するの? (⻘⾒の場合)141. ロジックの検討・ 実装したいロジックの要求性能は?誤って判定する場合の影響は?・ モデルの解釈性は必要?そもそも改善の必要性は?2. ロジックを実装するための設計・ 処理時間は?最⼤メモリ使⽤量は?⼊出⼒は?コストは?・ システムの開発メンバーと摺合せ・連携する。専⾨外のメンバーへどう伝えるか3. ロジックの実装・ アルゴリズムやデータのやり取りの仕組みを Python で実装・ Docker でコンテナ化したり、⼿元でテストできるようにしたり
Data Strategy and Operation Centerまとめ15・ 実務での研究開発は難しいことも多いが、⾯⽩さがある・ 研究と同様に「なぜ」を深掘っていくことが⼤切。⾃分もまだ全然出来ていないので伸ばしていきたい⼒・ 学⽣時代にやっていたことは⼤抵なんらかの役に⽴っている・ 「○○のために」みたいなモチベーションも良いが、好きなことを好きなだけやっておくほうが継続するし習熟すると勝⼿に感じている・ 学⽣時代の研究が直接活きることは少ないが、その過程で培った基礎知識や論理的思考は⾮常に役に⽴つ