Upgrade to Pro — share decks privately, control downloads, hide ads and more …

はじめてのデータパイプライン

Fukushima
April 19, 2020
510

 はじめてのデータパイプライン

はじめてデータパイプラインを構築し、それを講座化するまでの過程と思考をスライドにしています。

Fukushima

April 19, 2020
Tweet

Transcript

  1. 2 この発表について データパイプライン構築の入門ではない。ただの個人の体験記である。 DLGのコンペに参加して講座を書くようになるまでの過程と勉強内容、思考を話す。 8月 9月 10月 11月 12月 1月

    2月 3月 4月 5月 6月 7月 DLG参加 AWS、Django 終了予定 ✓ 出来事 ✓ 勉強内容 コンペ参加 講座執筆 データパイプライン、ETLなどの概念 Linuxなど GCP、API、Pandas
  2. 3 自己紹介 大学院2年生です。 Fukushima ✓ 名前 ✓ 大学所属 ✓ DLG

    ✓ 将来 ✓ 趣味 認知情報科学専攻:統計解析をRでやってました。 Slack分析データパイプライン講座、ポーカー実況 エンジニア ポーカー、パレオダイエット、リフティング、ギター、スヌーカーなど
  3. 5 データマネジメントに関する今のレベル クラウドインフラを用いてWebアプリやデータパイプラインを作成した。 データパイプラインに関する会話にもついていけるようになった。 Linuxコマンドちょっと知ってる。AWSを用いてWebアプリ作成 した。 ✓ エンジニア系 ✓ データマネジメント

    ✓ 統計解析 ✓ BI ✓ その他 データマネジメントやデータパイプラインの概念が分かる。実際に データパイプラインを構築できる(簡単なものなら)。 実験データの統計解析をRで4年。Pythonでデータを扱える。 BIツールを知っている。使いたい。 筋トレ中
  4. 7 • 試合観戦 • チーム戦力 • 紅白戦 • チーム練習 •

    自主練習 • 自主学習 文学少女が野球少女になるまでの一般的な流れ 友達に誘われて野球観戦をして、そこからルールを覚えたり練習したりする。 草野球チームに参加する。紅白試合に出たりして、地区大会でチームに貢献できるようになる。
  5. 8 • チーム戦力 • チーム練習 • 自己学習 • 紅白試合 爆速でチームに貢献できるようになるまでの流れ

    まず紅白試合に参加する。その実績から草野球チームに参加する。 自主練をしたりチーム練習をしながら腕をあげていき、試合に参加してチームに貢献する。
  6. 10 コンペ参加① =紅白試合 実際に仕事でデータパイプラインを構築している方にハンズオンでGCPを教えてもらいながら、 APIやPythonのPandasなどを自己学習しデータパイプラインを構築した。 8月 9月 10月 11月 12月

    1月 2月 3月 4月 5月 6月 7月 DLG参加 AWS、Django 終了予定 ✓ 出来事 ✓ 勉強内 容 コンペ参加 講座執筆 データパイプライン、ETLなどの概念 Linuxなど GCP、API、Pandas • 「データパイプライン」というもの が何なのかなんとなく分かった。 • 個々やったことがデータマネジ メント的にどの位置づけで、何 というのかは分からない。 • 紅白試合を通して、「野球」と いうものが何なのかなんとなく 分かった。 • 細かいルールが分からない。
  7. 11 講座執筆② =自己学習、チーム練習 講座執筆により、コンペでやったことを言語化・知識化・体系化する必要が出てきた。 つまり個々の体験の抽象度を高くし、ストーリに埋めむということをやっている。 8月 9月 10月 11月 12月

    1月 2月 3月 4月 5月 6月 7月 DLG参加 AWS、Django 終了予定 ✓ 出来事 ✓ 勉強内 容 コンペ参加 講座執筆 データパイプライン、ETLなどの概念 Linuxなど GCP、API、Pandas • 「データマネジメント」というもの が何なのかなんとなく分かった。 • 次データパイプラインを構築す るとき、何を勉強すれば良い のかわかる。 • チーム練習や自主勉強を通 して、「野球」のルールが分 かってきた。 • 自分に足りない部分からどう いう練習をするべきか分かる。
  8. 12 講座執筆のために 何かを理解し、その理解したもの(知識)を自己の中で体系化するには大量のインプットが必 用である。 インプットの形式は以下の4つが考えられる。 Input ネット記事 本 スクール 師匠

    • 散文的なものが多い • 専門的なものが多い • 体系的なものが多い • 安い • 時間がかかる • 安くはない • 出会いにくい • コンサルだと高い
  9. 13 最初に買った本 一番最初にDMBOKという本を買った。 ※DMBOKはData Management Body Of Knowledgeの略 DMBOKという本があるよ。 じゃあ買ってみます。

    高いし難しいよ。 最初に読むものではないかな。 普段哲学書とか読んでるし いけるやろ。
  10. 14 DMBOK挫折 何を書いているのか分からなくて挫折した。 DMBOKは何も悪くない。僕が読むタイミングではなかったということ。 • データウェアハウスって結局何? • ETLって結局何? • BIって結局何?

    • データパイプラインが出てこない。 • BigQueryとかも出てこない。 • 固有名詞が出てこない。 • 自分が作ったデータパイプラインで言えば、 何について言っているのか分からない • この本を読んだだけでは、概念獲得はできな い。