Upgrade to Pro — share decks privately, control downloads, hide ads and more …

はじめてのデータパイプライン

60fedea9977c27c39221a808c3d9f1d1?s=47 Fukushima
April 19, 2020
240

 はじめてのデータパイプライン

はじめてデータパイプラインを構築し、それを講座化するまでの過程と思考をスライドにしています。

60fedea9977c27c39221a808c3d9f1d1?s=128

Fukushima

April 19, 2020
Tweet

Transcript

  1. はじめてのデータパイプライン Fukushima

  2. 2 この発表について データパイプライン構築の入門ではない。ただの個人の体験記である。 DLGのコンペに参加して講座を書くようになるまでの過程と勉強内容、思考を話す。 8月 9月 10月 11月 12月 1月

    2月 3月 4月 5月 6月 7月 DLG参加 AWS、Django 終了予定 ✓ 出来事 ✓ 勉強内容 コンペ参加 講座執筆 データパイプライン、ETLなどの概念 Linuxなど GCP、API、Pandas
  3. 3 自己紹介 大学院2年生です。 Fukushima ✓ 名前 ✓ 大学所属 ✓ DLG

    ✓ 将来 ✓ 趣味 認知情報科学専攻:統計解析をRでやってました。 Slack分析データパイプライン講座、ポーカー実況 エンジニア ポーカー、パレオダイエット、リフティング、ギター、スヌーカーなど
  4. 4 データマネジメントに関するコンペ前のレベル コンペに参加する前はWebアプリを勉強中だった。 データに関しては、整理された実験データしか扱ったことはなかった。 Linuxコマンドちょっと知ってる。Webアプリ勉強中。 ✓ エンジニア系 ✓ データマネジメント ✓

    統計解析 ✓ BI ✓ その他 データをマネジメントするという概念すら知らない。 実験データの統計解析をRで4年。Pythonでやったことない。 BIという概念すら知らない。
  5. 5 データマネジメントに関する今のレベル クラウドインフラを用いてWebアプリやデータパイプラインを作成した。 データパイプラインに関する会話にもついていけるようになった。 Linuxコマンドちょっと知ってる。AWSを用いてWebアプリ作成 した。 ✓ エンジニア系 ✓ データマネジメント

    ✓ 統計解析 ✓ BI ✓ その他 データマネジメントやデータパイプラインの概念が分かる。実際に データパイプラインを構築できる(簡単なものなら)。 実験データの統計解析をRで4年。Pythonでデータを扱える。 BIツールを知っている。使いたい。 筋トレ中
  6. 6 After Before 文学少女へアナロジー レベル感的には、スポーツをしたことがない文学少女が草野球の町内対抗戦で 自チームに貢献できる野球少女になるのと同義ではないかと思っている。

  7. 7 • 試合観戦 • チーム戦力 • 紅白戦 • チーム練習 •

    自主練習 • 自主学習 文学少女が野球少女になるまでの一般的な流れ 友達に誘われて野球観戦をして、そこからルールを覚えたり練習したりする。 草野球チームに参加する。紅白試合に出たりして、地区大会でチームに貢献できるようになる。
  8. 8 • チーム戦力 • チーム練習 • 自己学習 • 紅白試合 爆速でチームに貢献できるようになるまでの流れ

    まず紅白試合に参加する。その実績から草野球チームに参加する。 自主練をしたりチーム練習をしながら腕をあげていき、試合に参加してチームに貢献する。
  9. 9 僕がデータマネジメントを習得?するまでの流れ DLGで開かれたコンペに参加した。そこでデータパイプラインを作成した。 講座作成のためにコンペでの経験と本の知識を止揚させて体系化している。 というように、主に2つのパートに分けられる。 8月 9月 10月 11月 12月

    1月 2月 3月 4月 5月 6月 7月 DLG参加 AWS、Django 終了予定 ✓ 出来事 ✓ 勉強内容 コンペ参加① 講座執筆② データパイプライン、ETLなどの概念 Linuxなど GCP、API、Pandas
  10. 10 コンペ参加① =紅白試合 実際に仕事でデータパイプラインを構築している方にハンズオンでGCPを教えてもらいながら、 APIやPythonのPandasなどを自己学習しデータパイプラインを構築した。 8月 9月 10月 11月 12月

    1月 2月 3月 4月 5月 6月 7月 DLG参加 AWS、Django 終了予定 ✓ 出来事 ✓ 勉強内 容 コンペ参加 講座執筆 データパイプライン、ETLなどの概念 Linuxなど GCP、API、Pandas • 「データパイプライン」というもの が何なのかなんとなく分かった。 • 個々やったことがデータマネジ メント的にどの位置づけで、何 というのかは分からない。 • 紅白試合を通して、「野球」と いうものが何なのかなんとなく 分かった。 • 細かいルールが分からない。
  11. 11 講座執筆② =自己学習、チーム練習 講座執筆により、コンペでやったことを言語化・知識化・体系化する必要が出てきた。 つまり個々の体験の抽象度を高くし、ストーリに埋めむということをやっている。 8月 9月 10月 11月 12月

    1月 2月 3月 4月 5月 6月 7月 DLG参加 AWS、Django 終了予定 ✓ 出来事 ✓ 勉強内 容 コンペ参加 講座執筆 データパイプライン、ETLなどの概念 Linuxなど GCP、API、Pandas • 「データマネジメント」というもの が何なのかなんとなく分かった。 • 次データパイプラインを構築す るとき、何を勉強すれば良い のかわかる。 • チーム練習や自主勉強を通 して、「野球」のルールが分 かってきた。 • 自分に足りない部分からどう いう練習をするべきか分かる。
  12. 12 講座執筆のために 何かを理解し、その理解したもの(知識)を自己の中で体系化するには大量のインプットが必 用である。 インプットの形式は以下の4つが考えられる。 Input ネット記事 本 スクール 師匠

    • 散文的なものが多い • 専門的なものが多い • 体系的なものが多い • 安い • 時間がかかる • 安くはない • 出会いにくい • コンサルだと高い
  13. 13 最初に買った本 一番最初にDMBOKという本を買った。 ※DMBOKはData Management Body Of Knowledgeの略 DMBOKという本があるよ。 じゃあ買ってみます。

    高いし難しいよ。 最初に読むものではないかな。 普段哲学書とか読んでるし いけるやろ。
  14. 14 DMBOK挫折 何を書いているのか分からなくて挫折した。 DMBOKは何も悪くない。僕が読むタイミングではなかったということ。 • データウェアハウスって結局何? • ETLって結局何? • BIって結局何?

    • データパイプラインが出てこない。 • BigQueryとかも出てこない。 • 固有名詞が出てこない。 • 自分が作ったデータパイプラインで言えば、 何について言っているのか分からない • この本を読んだだけでは、概念獲得はできな い。
  15. 15 難しくて読めないとはどういうことか 「難しくて読めない」という状態には3つの原因が考えられる。 DMBOKが読めない原因は、出てくる単語の概念を少しも獲得していなかったことと、 抽象度が高かったことであると考えられる。 難しくて読めない 文の構造が入れ子になっている。 単語の意味が分からない。 抽象度が高い。

  16. 16 本の種類 本にも3つの種類がある。 データマネジメントに関して言えば、当時は入門本にあたるものがなかった。 実践本を数冊購入して、基礎的な知識や勘どころを身に着けるしかなかった。 本 入門本 データマネジメントが 30分でわかる本 実践本

    様々なもの 体系本 DMBOK 理想の読み順
  17. 17 再度買った本と読み方 自分の経験とDMBOKに書いてある知識の架け橋となりそうな本を数冊購入した。 当然全部は読めないので目次と共通で出てくる単語があるページだけ読んだ。 その後、DMBOKと関連付けながら、知識を体系化した。 コンペでの経験 経験を言語化 知識を体系化

  18. 18 最後に 紅白試合は、コミュニティやインターンをうまく使うべし 悩んで自己学習から始めるより効率が良い。 もしかしたらどこかでやっているかも。 最初は本を読むのが良いと思う 基礎知識がついたらネットの情報を拾うのが吉。 入門書がないときは、実践本を何冊か読み重要そうな単語をピックアップする。 その後、体系本と紐づけて理解を深めていく。 データラーニングギルドはいいぞ!

    紅白試合もできる。 輪読会など自主練のモチベーションを保てる。 学習の方向性の質問もできる。最初に読むべき良書など。 他にもたくさん。それらは懇親会で。