Slide 1

Slide 1 text

東京大学講義: データマイニング概論: #10 ~データサイエンティストとしてどう学んでいくべきか~ 2023/01/16 蕭 喬仁: @yp_genzitsu

Slide 2

Slide 2 text

自己紹介 2 蕭 喬仁 Syo Kyojin 略歴 2018/03 東京大学工学部 PSIコース 卒業 (工学部長賞) 山口研にて北極海の海氷分布予測について研究 2020/03 東京大学大学院工学系研究科 TMIコース 修了 坂田・森研にてSNSを用いた社会問題の早期抽出 について研究 (websci20にて学生特別賞を受賞) 2020/04 ソフトバンク (機械学習エンジニア) 画像認識系PJ x 9, 自然言語処理系PJ x 1に従事 2022/12 Japan Digital Design (リサーチャー) 金融領域の機械学習モデリングに従事 副業 NABLAS株式会社 法人向け機械学習研修講座の講師・TA・教材作成 東京大学 SNSを用いた社会問題の早期抽出システムの構築 ヨモギテクノロジーズ web小説解析サイトのAI開発 & 個人事業主として個別案件に対応 趣味 カードゲーム (Magic The Gathering, バトルグラウン ド) サウナ・温泉 機械学習関係の情報収集

Slide 3

Slide 3 text

主な活動内容 3 ついに小説のタイトルとあらすじを「AIが評価」する時代が来た…! https://gendai.media/articles/-/84742 世界初、水中で複数の対象を自律的に追尾する画像認識 トラッキング技術による1対多接続の光無線通信に成功 https://www.softbank.jp/corp/news/press/sbkk/2022/20220422_01/

Slide 4

Slide 4 text

4 【厳選】機械学習の学習におすすめのTwitterアカウント40選 https://qiita.com/goto_yuta_/items/2283ce81db1ae84c0a58 宣伝①: 機械学習関係の情報を呟いてますっ

Slide 5

Slide 5 text

宣伝②: 副業先にて教材作成者・TAを募集中です! 5 自由な働き方!AI人材育成講座の教材コンテンツ作成メンバー募集! https://www.wantedly.com/projects/1186406 学生大歓迎!機械学習のスキルを磨くAI人材育成講座のアシスタント募集! https://www.wantedly.com/projects/1218251

Slide 6

Slide 6 text

本日のテーマ 6 データサイエンティストとしてどう学んでいくべきか?

Slide 7

Slide 7 text

データサイエンティストを悩ませる大問題 7 勉強すべきこと多すぎ問題

Slide 8

Slide 8 text

データ分析がカバーする技術分野はとても広い 8 ● テーブルデータ ● 時系列データ ● 画像 ● 自然言語処理 ● グラフデータ ● 音声データ …

Slide 9

Slide 9 text

一つの技術分野の中にも関連タスクが多数存在 9 【保存版】さまざまなAI画像処理の手法を学べるレシピ50選(2022年8月版) https://qiita.com/AxrossRecipe_SB/items/c85ab5e70805f85a5eef

Slide 10

Slide 10 text

一つのタスクに関してもモデル・アルゴリズムが多数提案 10 Paper with Code, Image Classification on ImageNet https://paperswithcode.com/sota/image-classification-on-imagenet

Slide 11

Slide 11 text

一方で、MLの実務適用にはエンジニアリングスキルも必要 11 End-To-End MLOps Platform at LINE https://speakerdeck.com/techverse_2022/end-to-end-mlops-platform-at-line?slide=6

Slide 12

Slide 12 text

さらには”ビジネス力”なるものも必要に 12 データサイエンティスト スキルチェックリスト ver3.0.1 https://www.datascientist.or.jp/common/docs/skillcheck_ver3.00.pdf

Slide 13

Slide 13 text

13 データサイエンティストに必要なスキル ~蕭の解釈~ 統計 / 数学 スキル 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える モデリング スキル エンジニアリング スキル 情報収集 スキル ビジネス スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 事業構造やKPIを理解した上で円滑なプロジェクト運営を実施し、分析結果や プロジェクトの成果を他者に適切に理解させられる

Slide 14

Slide 14 text

[再掲] データサイエンティストを悩ませる大問題 14 勉強すべきこと多すぎ問題

Slide 15

Slide 15 text

[再掲] データサイエンティストを悩ませる大問題 15 勉強すべきこと多すぎ問題 → どのように学ぶと良いかの一例を紹介

Slide 16

Slide 16 text

16 おすすめの学習法 統計 / 数学 スキル ● 大学の講義を受講 ○ 線形代数や確率論、数理統計などがおすすめ (とても難しい...) ● 数式を追いながら専門書を精読 ○ 友人やゼミの間で輪読会を開くのもおすすめ ● 数式を追いながら論文を精読 ○ 読んだ論文の手法の再現実装してみると理解が深まる 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える (´-`).。oO (専門書や論文の精読はとても辛いですが、替え難い自信を獲得できます)

Slide 17

Slide 17 text

17 おすすめの専門書 統計 / 数学 スキル 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える

Slide 18

Slide 18 text

18 ● 実装に焦点を当てた参考書を読んでみる ○ 「機械学習帳」のような無料コンテンツも最近増えている ○ 松尾研が開催している各種講座もおすすめ ● 界隈でよく利用されているライブラリを触ってみる ○ numpy, pandas, matplotlib, scikit-learn, PyTorch, TensorFlow, pytorch- image-models, transformers … etc. ● データ分析コンペティションへの参加 ○ discussionやコードの共有が盛んなkaggleがおすすめ おすすめの学習法 モデリング スキル 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える (´-`).。oO(とにかく手を動かすことが大事)

Slide 19

Slide 19 text

19 おすすめの参考書 モデリング スキル 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える

Slide 20

Slide 20 text

20 おすすめの学習法 エンジニアリング スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える ● 界隈でよく利用されているツールを触ってみる ○ Linux, git, Docker, MySQL, PostgreSQL, Kubernetes, AWS, GCP ○ 体系的にまとまっている書籍やレクチャー動画などがおすすめ ● エンジニアインターンやアルバイトなどに参加してみる ○ 学生のうちは求められるハードルが比較的低いので参加しやすい ○ 研究室の先輩から教わるのも◎ ● 個人開発でミニアプリやbotを作成してみる ○ publicに公開せずとも自分だけが利用するもので十分 (´-`).。oO(とにかく手を動かすことが大事)

Slide 21

Slide 21 text

21 おすすめの学習法 情報収集 スキル 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる ● 真面目に卒論・修論に取り組む ○ 論文の探し方・読み方・まとめ方を磨くことで得られる物はとても大きい ● 実際に情報収集してみる ○ SNS, ニュースレター, RSSリーダーを活用して気になる情報を読んでみる ○ 読んだだけだとすぐに忘れるので、何かしらの形でアウトプットすると◎ ● 情報発信してみる ○ 矛盾しているようだが、発信することで初めて得られる情報もあったりする...

Slide 22

Slide 22 text

22 おすすめの情報ソース 情報収集 スキル ● Twitter: https://twitter.com/ ○ 国内外の最新情報を収集するのに最適 ● Kaggle: https://www.kaggle.com/ ○ 過去コンペのsolutionを眺めておくだけでも勉強になる ● zenn: https://zenn.dev ○ 興味のあるトピックの記事を定期的に見ておくと◎ ● ML-news: https://www.machine-learning.news/list/article ○ 機械学習関係の情報をキュレーションしているサイト 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる (´-`).。oO(他にも色々ありますが、自分のレベルに合ったものを選ばないと辛いだけです)

Slide 23

Slide 23 text

情報収集に関する悩み 23 続かない

Slide 24

Slide 24 text

24 情報収集を習慣化するためには... 情報収集 スキル ● 情報をまとめる場所を決めておく ○ 気になる情報を見つけてもすぐ読む時間があるわけではない ○ いつ、どこでも、気軽にアクセスしやすい場所が◎ ■ ブラウザのタブはアカウントを共有しないとダメなので△ ○ 自分の場合はTwitterのDMを活用 ● 情報収集する時間/トリガーを決めておく ○ 自分の場合は.... ■ 朝起きた時に、布団の中でTwitterをチェック → 気になるものをDMに保存 ■ 通勤途中・計算待ち時間の間に、気になったものをざっと読む ■ 夜歯を磨いた後に、面白かったものをgithubにメモ 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる (´-`).。oO (学生時代の自分は全くの3日坊主でした)

Slide 25

Slide 25 text

25 情報収集を習慣化するためには... 情報収集 スキル ● 情報をまとめる場所を決めておく ○ 気になる情報を見つけてもすぐ読む時間があるわけではない ○ いつ、どこでも、気軽にアクセスしやすい場所が◎ ■ ブラウザのタブはアカウントを共有しないとダメなので△ ○ 自分の場合はTwitterのDMを活用 ● 情報収集する時間/トリガーを決めておく ○ 自分の場合は.... ■ 朝起きた時に、布団の中でTwitterをチェック → 気になるものをDMに保存 ■ 通勤途中・計算待ち時間の間に、ざっと読む ■ 夜歯を磨いた後に、面白かったものをgithubにメモ 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 正解はないので、試行錯誤することが大事

Slide 26

Slide 26 text

26 おすすめの学習法 ビジネス スキル 事業構造やKPIを理解した上で円滑なプロジェクト運営を実施し、分析結果や プロジェクトの成果を他者に適切に理解させられる ● インターンや企業との共同研究に参加してみる ○ 解くべき課題の決定から実際に解決するまでを見れるとなお良し ● ビジネス本を読んでみる ○ なんだかんだで社会人になっても本から学ぶことが多い (´-`).。oO (学ぶ機会は社会人になってからいくらでもあるので、優先度は低め...)

Slide 27

Slide 27 text

[再掲] データサイエンティストを悩ませる大問題 27 勉強すべきこと多すぎ問題 → どのように学ぶと良いかの一例を紹介 → とはいえ、多くない??

Slide 28

Slide 28 text

28 [再掲] データサイエンティストに必要なスキル ~蕭の解釈~ 統計 / 数学 スキル 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える モデリング スキル エンジニアリング スキル 情報収集 スキル ビジネス スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 事業構造やKPIを理解した上で円滑なプロジェクト運営を実施し、分析結果や プロジェクトの成果を他者に適切に理解させられる

Slide 29

Slide 29 text

29 とはいったものの... 統計 / 数学 スキル 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える モデリング スキル エンジニアリング スキル 情報収集 スキル ビジネス スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 事業構造やKPIを理解した上で円滑なプロジェクト運営を実施し、分析結果や プロジェクトの成果を他者に適切に理解させられる 全てに精通していなくても大丈夫

Slide 30

Slide 30 text

30 データサイエンス関係の典型的なロール リサーチャー 最新の技術動向を調査し、革新的なモデルやアルゴリズムの研究開発や対外発表を行う 機械学習エンジニア 機械学習モデルの開発やシステム連携のためのモジュール開発、それらの運用を行う データアナリスト (データサイエンティスト) 統計学/機械学習の知識を活用しながら課題の設定や施策立案、効果測定などを行う MLOpsエンジニア / データエンジニア データ基盤や機械学習分析基盤、商用システム基盤の設計や構築、運用を行う

Slide 31

Slide 31 text

31 統計 / 数学 スキル モデリング スキル エンジニアリング スキル 情報収集 スキル ビジネス スキル 担当ロールによって必要なスキルに濃淡がある (蕭の主観) リサーチャー 機械学習 エンジニア データ アナリスト MLOps/データ エンジニア ★★★★★ ★★★☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★☆☆☆ ★★★★★★★★ ★★★☆☆ ★★★☆☆

Slide 32

Slide 32 text

32 統計 / 数学 スキル モデリング スキル エンジニアリング スキル 情報収集 スキル ビジネス スキル 自分はリサーチャーと機械学習エンジニアの間あたり リサーチャー 機械学習 エンジニア データ アナリスト MLOps/データ エンジニア ★★★★★ ★★★☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★☆☆☆ ★★★★★★★★ ★★★☆☆ ★★★☆☆ 蕭の 守備範囲

Slide 33

Slide 33 text

33 時勢的にはMLOps/データエンジニアがホット MLOps/データ エンジニア ★★☆☆☆ ★★☆☆☆ ★★★★★★★★ ★★★☆☆ ★★★☆☆ The state of AI in 2022—and a half decade in review https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2022-and-a-half-decade-in-review#talent (´-`).。oO (流行も大事だが、自分が心から楽しめるものが一番)

Slide 34

Slide 34 text

[再掲] データサイエンティストを悩ませる大問題 34 勉強すべきこと多すぎ問題 → どのように学ぶと良いかの一例を紹介 → とはいえ、多くない?? → 目指すロールに必要なものを重点的に伸ばす!

Slide 35

Slide 35 text

より本格的にキャリア構築の方法論を知りたければ... 35 How to Build Your Career in AI https://info.deeplearning.ai/how-to-build-a-career-in-ai-book#MYL-form

Slide 36

Slide 36 text

36 Thank you for listening ! Any Question? Contact Address: [email protected] Twitter: @yp_genzitsu