Upgrade to Pro — share decks privately, control downloads, hide ads and more …

dbt-tokyo_meetup_2_ken_Airbyte_dbt_.pdf

ken
December 16, 2021

 dbt-tokyo_meetup_2_ken_Airbyte_dbt_.pdf

ken

December 16, 2021
Tweet

Other Decks in Technology

Transcript

  1. 自己紹介 - 人事  (≠ データエンジニア、データアナリスト ) - 某マザーズ上場 S/W 企業(従業員数

    200 名未満) - 海外子会社管理、人事制度、人員管理、採用、労務、開示 etc. - 2022/ 1~ People Engineer @ MoneyForward - 2021/ 5 ~ 10 データ基盤構築 (Zero to One) - ブルシットジョブ撲滅 & データサイロ化解消 - 事業、財務、人事の 3 領域 - スペック - スキル : SQL, Python, Git, Docker (ALL 経験年数 1 年未満 ) - 技術スタック : BigQuery, dbt, Airbyte 私は弱いがツールは強い。だから作れる(良い時代) Kenichi Kuwabara @kwknkk
  2. Why dbt ? - 元 Dataform ユーザー - Airbyte ありきで、より楽な方法を模索していた

    - Airbyte と抱き合わせで実行できて、管理対象物が減る - Airbyte(GCE インスタンススケジュール ) と Dataform を別々でスケジュール実行させていた - なんとなく盛り上がってる気がした
  3. スケジュール ワークフローエンジン不使用。 - Airbyte は 30 分おきで設定 (5 分でも別に良 い

    ) - GCE インスタンススケジュール (Airbyte をホ ストしている ) でジョブ制御 - 起動 : 40 8,13,17 * * 1-5 - 停止 : 0 9,14,18 * * 1-5 - インスタンス起動時に 1 回だけジョブが実行さ れる - 詳細はブログにて
  4. カスタム dbt の使用 Git repository URL ~:   https://{username}:{token}@github.com/{user}/{repo} -

    Airbyte ジョブ → git clone → dbt run –full-refresh ( 下のケース ) の順に実行される - dbt の profiles.yml は Airbyte が自動生成するので気にしなくて良い - 任意の profile を指定したい場合は entrypoint に -profiles-dir=<path-to-my-profiles-yml> を 付け足せば良いらしい
  5. 最近知ったこと:  dbt v1.0.0 への対応 Docker image URL~: xemuliam/dbt:1.0.0-bigquery - 今日現在

    (2021/12/16) 、まだ公式イメージがリリースされていない為
  6. 最近知ったこと:  Entrypoint について Entrypoint arguments~ : build - dbt {run,

    test, snapshot,seed} を依存関係を考慮した上で全て実行してくれる
  7. 最近知ったこと:  GitHub Actions 用 profiles.yml GitHub Actions 用にここに profiles.yml を置いても、

    Airbyte や dbt Cloud 、その他環境でも悪さし ないことを確認出来たので、一安 心。 https://github.com/ken6377/dbt_m ulti_env