Upgrade to Pro — share decks privately, control downloads, hide ads and more …

はじめてのデータパイプライン

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Fukushima Fukushima
April 19, 2020
680

 はじめてのデータパイプライン

はじめてデータパイプラインを構築し、それを講座化するまでの過程と思考をスライドにしています。

Avatar for Fukushima

Fukushima

April 19, 2020
Tweet

Transcript

  1. 2 この発表について データパイプライン構築の入門ではない。ただの個人の体験記である。 DLGのコンペに参加して講座を書くようになるまでの過程と勉強内容、思考を話す。 8月 9月 10月 11月 12月 1月

    2月 3月 4月 5月 6月 7月 DLG参加 AWS、Django 終了予定 ✓ 出来事 ✓ 勉強内容 コンペ参加 講座執筆 データパイプライン、ETLなどの概念 Linuxなど GCP、API、Pandas
  2. 3 自己紹介 大学院2年生です。 Fukushima ✓ 名前 ✓ 大学所属 ✓ DLG

    ✓ 将来 ✓ 趣味 認知情報科学専攻:統計解析をRでやってました。 Slack分析データパイプライン講座、ポーカー実況 エンジニア ポーカー、パレオダイエット、リフティング、ギター、スヌーカーなど
  3. 5 データマネジメントに関する今のレベル クラウドインフラを用いてWebアプリやデータパイプラインを作成した。 データパイプラインに関する会話にもついていけるようになった。 Linuxコマンドちょっと知ってる。AWSを用いてWebアプリ作成 した。 ✓ エンジニア系 ✓ データマネジメント

    ✓ 統計解析 ✓ BI ✓ その他 データマネジメントやデータパイプラインの概念が分かる。実際に データパイプラインを構築できる(簡単なものなら)。 実験データの統計解析をRで4年。Pythonでデータを扱える。 BIツールを知っている。使いたい。 筋トレ中
  4. 7 • 試合観戦 • チーム戦力 • 紅白戦 • チーム練習 •

    自主練習 • 自主学習 文学少女が野球少女になるまでの一般的な流れ 友達に誘われて野球観戦をして、そこからルールを覚えたり練習したりする。 草野球チームに参加する。紅白試合に出たりして、地区大会でチームに貢献できるようになる。
  5. 8 • チーム戦力 • チーム練習 • 自己学習 • 紅白試合 爆速でチームに貢献できるようになるまでの流れ

    まず紅白試合に参加する。その実績から草野球チームに参加する。 自主練をしたりチーム練習をしながら腕をあげていき、試合に参加してチームに貢献する。
  6. 10 コンペ参加① =紅白試合 実際に仕事でデータパイプラインを構築している方にハンズオンでGCPを教えてもらいながら、 APIやPythonのPandasなどを自己学習しデータパイプラインを構築した。 8月 9月 10月 11月 12月

    1月 2月 3月 4月 5月 6月 7月 DLG参加 AWS、Django 終了予定 ✓ 出来事 ✓ 勉強内 容 コンペ参加 講座執筆 データパイプライン、ETLなどの概念 Linuxなど GCP、API、Pandas • 「データパイプライン」というもの が何なのかなんとなく分かった。 • 個々やったことがデータマネジ メント的にどの位置づけで、何 というのかは分からない。 • 紅白試合を通して、「野球」と いうものが何なのかなんとなく 分かった。 • 細かいルールが分からない。
  7. 11 講座執筆② =自己学習、チーム練習 講座執筆により、コンペでやったことを言語化・知識化・体系化する必要が出てきた。 つまり個々の体験の抽象度を高くし、ストーリに埋めむということをやっている。 8月 9月 10月 11月 12月

    1月 2月 3月 4月 5月 6月 7月 DLG参加 AWS、Django 終了予定 ✓ 出来事 ✓ 勉強内 容 コンペ参加 講座執筆 データパイプライン、ETLなどの概念 Linuxなど GCP、API、Pandas • 「データマネジメント」というもの が何なのかなんとなく分かった。 • 次データパイプラインを構築す るとき、何を勉強すれば良い のかわかる。 • チーム練習や自主勉強を通 して、「野球」のルールが分 かってきた。 • 自分に足りない部分からどう いう練習をするべきか分かる。
  8. 12 講座執筆のために 何かを理解し、その理解したもの(知識)を自己の中で体系化するには大量のインプットが必 用である。 インプットの形式は以下の4つが考えられる。 Input ネット記事 本 スクール 師匠

    • 散文的なものが多い • 専門的なものが多い • 体系的なものが多い • 安い • 時間がかかる • 安くはない • 出会いにくい • コンサルだと高い
  9. 13 最初に買った本 一番最初にDMBOKという本を買った。 ※DMBOKはData Management Body Of Knowledgeの略 DMBOKという本があるよ。 じゃあ買ってみます。

    高いし難しいよ。 最初に読むものではないかな。 普段哲学書とか読んでるし いけるやろ。
  10. 14 DMBOK挫折 何を書いているのか分からなくて挫折した。 DMBOKは何も悪くない。僕が読むタイミングではなかったということ。 • データウェアハウスって結局何? • ETLって結局何? • BIって結局何?

    • データパイプラインが出てこない。 • BigQueryとかも出てこない。 • 固有名詞が出てこない。 • 自分が作ったデータパイプラインで言えば、 何について言っているのか分からない • この本を読んだだけでは、概念獲得はできな い。