Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンティストとしてどう学んでいくべきか/東京大学講義: データマイニング概論: #10

Kyojin.Syo
January 16, 2023

データサイエンティストとしてどう学んでいくべきか/東京大学講義: データマイニング概論: #10

東京大学講義のデータマイニング概論の第10回目の講義で講演した内容です

講義シラバス: https://catalog.he.u-tokyo.ac.jp/detail?code=0590105&year=2022

Kyojin.Syo

January 16, 2023
Tweet

Other Decks in Technology

Transcript

  1. 東京大学講義: データマイニング概論: #10 ~データサイエンティストとしてどう学んでいくべきか~ 2023/01/16 蕭 喬仁: @yp_genzitsu

  2. 自己紹介 2 蕭 喬仁 Syo Kyojin 略歴 2018/03 東京大学工学部 PSIコース

    卒業 (工学部長賞) 山口研にて北極海の海氷分布予測について研究 2020/03 東京大学大学院工学系研究科 TMIコース 修了 坂田・森研にてSNSを用いた社会問題の早期抽出 について研究 (websci20にて学生特別賞を受賞) 2020/04 ソフトバンク (機械学習エンジニア) 画像認識系PJ x 9, 自然言語処理系PJ x 1に従事 2022/12 Japan Digital Design (リサーチャー) 金融領域の機械学習モデリングに従事 副業 NABLAS株式会社 法人向け機械学習研修講座の講師・TA・教材作成 東京大学 SNSを用いた社会問題の早期抽出システムの構築 ヨモギテクノロジーズ web小説解析サイトのAI開発 & 個人事業主として個別案件に対応 趣味 カードゲーム (Magic The Gathering, バトルグラウン ド) サウナ・温泉 機械学習関係の情報収集
  3. 主な活動内容 3 ついに小説のタイトルとあらすじを「AIが評価」する時代が来た…! https://gendai.media/articles/-/84742 世界初、水中で複数の対象を自律的に追尾する画像認識 トラッキング技術による1対多接続の光無線通信に成功 https://www.softbank.jp/corp/news/press/sbkk/2022/20220422_01/

  4. 4 【厳選】機械学習の学習におすすめのTwitterアカウント40選 https://qiita.com/goto_yuta_/items/2283ce81db1ae84c0a58 宣伝①: 機械学習関係の情報を呟いてますっ

  5. 宣伝②: 副業先にて教材作成者・TAを募集中です! 5 自由な働き方!AI人材育成講座の教材コンテンツ作成メンバー募集! https://www.wantedly.com/projects/1186406 学生大歓迎!機械学習のスキルを磨くAI人材育成講座のアシスタント募集! https://www.wantedly.com/projects/1218251

  6. 本日のテーマ 6 データサイエンティストとしてどう学んでいくべきか?

  7. データサイエンティストを悩ませる大問題 7 勉強すべきこと多すぎ問題

  8. データ分析がカバーする技術分野はとても広い 8 • テーブルデータ • 時系列データ • 画像 • 自然言語処理

    • グラフデータ • 音声データ …
  9. 一つの技術分野の中にも関連タスクが多数存在 9 【保存版】さまざまなAI画像処理の手法を学べるレシピ50選(2022年8月版) https://qiita.com/AxrossRecipe_SB/items/c85ab5e70805f85a5eef

  10. 一つのタスクに関してもモデル・アルゴリズムが多数提案 10 Paper with Code, Image Classification on ImageNet https://paperswithcode.com/sota/image-classification-on-imagenet

  11. 一方で、MLの実務適用にはエンジニアリングスキルも必要 11 End-To-End MLOps Platform at LINE https://speakerdeck.com/techverse_2022/end-to-end-mlops-platform-at-line?slide=6

  12. さらには”ビジネス力”なるものも必要に 12 データサイエンティスト スキルチェックリスト ver3.0.1 https://www.datascientist.or.jp/common/docs/skillcheck_ver3.00.pdf

  13. 13 データサイエンティストに必要なスキル ~蕭の解釈~ 統計 / 数学 スキル 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える モデリング

    スキル エンジニアリング スキル 情報収集 スキル ビジネス スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 事業構造やKPIを理解した上で円滑なプロジェクト運営を実施し、分析結果や プロジェクトの成果を他者に適切に理解させられる
  14. [再掲] データサイエンティストを悩ませる大問題 14 勉強すべきこと多すぎ問題

  15. [再掲] データサイエンティストを悩ませる大問題 15 勉強すべきこと多すぎ問題 → どのように学ぶと良いかの一例を紹介

  16. 16 おすすめの学習法 統計 / 数学 スキル • 大学の講義を受講 ◦ 線形代数や確率論、数理統計などがおすすめ

    (とても難しい...) • 数式を追いながら専門書を精読 ◦ 友人やゼミの間で輪読会を開くのもおすすめ • 数式を追いながら論文を精読 ◦ 読んだ論文の手法の再現実装してみると理解が深まる 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える (´-`).。oO (専門書や論文の精読はとても辛いですが、替え難い自信を獲得できます)
  17. 17 おすすめの専門書 統計 / 数学 スキル 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える

  18. 18 • 実装に焦点を当てた参考書を読んでみる ◦ 「機械学習帳」のような無料コンテンツも最近増えている ◦ 松尾研が開催している各種講座もおすすめ • 界隈でよく利用されているライブラリを触ってみる ◦

    numpy, pandas, matplotlib, scikit-learn, PyTorch, TensorFlow, pytorch- image-models, transformers … etc. • データ分析コンペティションへの参加 ◦ discussionやコードの共有が盛んなkaggleがおすすめ おすすめの学習法 モデリング スキル 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える (´-`).。oO(とにかく手を動かすことが大事)
  19. 19 おすすめの参考書 モデリング スキル 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える

  20. 20 おすすめの学習法 エンジニアリング スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える • 界隈でよく利用されているツールを触ってみる ◦ Linux,

    git, Docker, MySQL, PostgreSQL, Kubernetes, AWS, GCP ◦ 体系的にまとまっている書籍やレクチャー動画などがおすすめ • エンジニアインターンやアルバイトなどに参加してみる ◦ 学生のうちは求められるハードルが比較的低いので参加しやすい ◦ 研究室の先輩から教わるのも◎ • 個人開発でミニアプリやbotを作成してみる ◦ publicに公開せずとも自分だけが利用するもので十分 (´-`).。oO(とにかく手を動かすことが大事)
  21. 21 おすすめの学習法 情報収集 スキル 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる • 真面目に卒論・修論に取り組む ◦ 論文の探し方・読み方・まとめ方を磨くことで得られる物はとても大きい

    • 実際に情報収集してみる ◦ SNS, ニュースレター, RSSリーダーを活用して気になる情報を読んでみる ◦ 読んだだけだとすぐに忘れるので、何かしらの形でアウトプットすると◎ • 情報発信してみる ◦ 矛盾しているようだが、発信することで初めて得られる情報もあったりする...
  22. 22 おすすめの情報ソース 情報収集 スキル • Twitter: https://twitter.com/ ◦ 国内外の最新情報を収集するのに最適 •

    Kaggle: https://www.kaggle.com/ ◦ 過去コンペのsolutionを眺めておくだけでも勉強になる • zenn: https://zenn.dev ◦ 興味のあるトピックの記事を定期的に見ておくと◎ • ML-news: https://www.machine-learning.news/list/article ◦ 機械学習関係の情報をキュレーションしているサイト 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる (´-`).。oO(他にも色々ありますが、自分のレベルに合ったものを選ばないと辛いだけです)
  23. 情報収集に関する悩み 23 続かない

  24. 24 情報収集を習慣化するためには... 情報収集 スキル • 情報をまとめる場所を決めておく ◦ 気になる情報を見つけてもすぐ読む時間があるわけではない ◦ いつ、どこでも、気軽にアクセスしやすい場所が◎

    ▪ ブラウザのタブはアカウントを共有しないとダメなので△ ◦ 自分の場合はTwitterのDMを活用 • 情報収集する時間/トリガーを決めておく ◦ 自分の場合は.... ▪ 朝起きた時に、布団の中でTwitterをチェック → 気になるものをDMに保存 ▪ 通勤途中・計算待ち時間の間に、気になったものをざっと読む ▪ 夜歯を磨いた後に、面白かったものをgithubにメモ 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる (´-`).。oO (学生時代の自分は全くの3日坊主でした)
  25. 25 情報収集を習慣化するためには... 情報収集 スキル • 情報をまとめる場所を決めておく ◦ 気になる情報を見つけてもすぐ読む時間があるわけではない ◦ いつ、どこでも、気軽にアクセスしやすい場所が◎

    ▪ ブラウザのタブはアカウントを共有しないとダメなので△ ◦ 自分の場合はTwitterのDMを活用 • 情報収集する時間/トリガーを決めておく ◦ 自分の場合は.... ▪ 朝起きた時に、布団の中でTwitterをチェック → 気になるものをDMに保存 ▪ 通勤途中・計算待ち時間の間に、ざっと読む ▪ 夜歯を磨いた後に、面白かったものをgithubにメモ 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 正解はないので、試行錯誤することが大事
  26. 26 おすすめの学習法 ビジネス スキル 事業構造やKPIを理解した上で円滑なプロジェクト運営を実施し、分析結果や プロジェクトの成果を他者に適切に理解させられる • インターンや企業との共同研究に参加してみる ◦ 解くべき課題の決定から実際に解決するまでを見れるとなお良し

    • ビジネス本を読んでみる ◦ なんだかんだで社会人になっても本から学ぶことが多い (´-`).。oO (学ぶ機会は社会人になってからいくらでもあるので、優先度は低め...)
  27. [再掲] データサイエンティストを悩ませる大問題 27 勉強すべきこと多すぎ問題 → どのように学ぶと良いかの一例を紹介 → とはいえ、多くない??

  28. 28 [再掲] データサイエンティストに必要なスキル ~蕭の解釈~ 統計 / 数学 スキル 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える

    モデリング スキル エンジニアリング スキル 情報収集 スキル ビジネス スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 事業構造やKPIを理解した上で円滑なプロジェクト運営を実施し、分析結果や プロジェクトの成果を他者に適切に理解させられる
  29. 29 とはいったものの... 統計 / 数学 スキル 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える モデリング スキル

    エンジニアリング スキル 情報収集 スキル ビジネス スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 事業構造やKPIを理解した上で円滑なプロジェクト運営を実施し、分析結果や プロジェクトの成果を他者に適切に理解させられる 全てに精通していなくても大丈夫
  30. 30 データサイエンス関係の典型的なロール リサーチャー 最新の技術動向を調査し、革新的なモデルやアルゴリズムの研究開発や対外発表を行う 機械学習エンジニア 機械学習モデルの開発やシステム連携のためのモジュール開発、それらの運用を行う データアナリスト (データサイエンティスト) 統計学/機械学習の知識を活用しながら課題の設定や施策立案、効果測定などを行う MLOpsエンジニア

    / データエンジニア データ基盤や機械学習分析基盤、商用システム基盤の設計や構築、運用を行う
  31. 31 統計 / 数学 スキル モデリング スキル エンジニアリング スキル 情報収集

    スキル ビジネス スキル 担当ロールによって必要なスキルに濃淡がある (蕭の主観) リサーチャー 機械学習 エンジニア データ アナリスト MLOps/データ エンジニア ★★★★★ ★★★☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★☆☆☆ ★★★★★★★★ ★★★☆☆ ★★★☆☆
  32. 32 統計 / 数学 スキル モデリング スキル エンジニアリング スキル 情報収集

    スキル ビジネス スキル 自分はリサーチャーと機械学習エンジニアの間あたり リサーチャー 機械学習 エンジニア データ アナリスト MLOps/データ エンジニア ★★★★★ ★★★☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★☆☆☆ ★★★★★★★★ ★★★☆☆ ★★★☆☆ 蕭の 守備範囲
  33. 33 時勢的にはMLOps/データエンジニアがホット MLOps/データ エンジニア ★★☆☆☆ ★★☆☆☆ ★★★★★★★★ ★★★☆☆ ★★★☆☆ The

    state of AI in 2022—and a half decade in review https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2022-and-a-half-decade-in-review#talent (´-`).。oO (流行も大事だが、自分が心から楽しめるものが一番)
  34. [再掲] データサイエンティストを悩ませる大問題 34 勉強すべきこと多すぎ問題 → どのように学ぶと良いかの一例を紹介 → とはいえ、多くない?? → 目指すロールに必要なものを重点的に伸ばす!

  35. より本格的にキャリア構築の方法論を知りたければ... 35 How to Build Your Career in AI https://info.deeplearning.ai/how-to-build-a-career-in-ai-book#MYL-form

  36. 36 Thank you for listening ! Any Question? Contact Address:

    [email protected] Twitter: @yp_genzitsu