我が社が考える最強のデータ基盤・開発体制！アナリスト x エンジニアの最強バディ

Slide 1

Slide 1 text

Slide 2

Slide 2 text

自己紹介 58 ● 田中賢太（たなんた） ● @tadaken3(タダケン) ● Chatwork ← LINE ← 任天堂 ● データアナリスト ● データをいい感じに集計・分析して、プロダクトの成長に繋る ● 嫁と子供（３歳👦）と3人らし ● 趣味：レトロゲーム集め https://chado.chatwork.com/entry/2024/03/12/100000 インタビュー

Slide 3

Slide 3 text

前回のハイライト

Slide 4

Slide 4 text

前回の「我社考える最強のデータ基盤'24最新版」 60

Slide 5

Slide 5 text

成果出たと、アナリスト自ら新機能を実現 61 ● アナリスト自ら、reverseETL(hightouch)を使ってエンジニアリソースを使わずに新機能を実現でた ○ 開発工数確保でな長保留になっていた機能だった... ○ 自らdbtでデータモデルを開発＆検証を経て本番デプロイを実現た前回資料

Slide 6

Slide 6 text

成果出たと、アナリスト自ら大幅なコスト削減を実現 62 ● アナリスト自ら利用実態に即て、分析モデルを効率化するように。 ○ BIの応答速度上り、業務効率上った ○ クエリ効率よなって、コスト下った前回資料

Slide 7

Slide 7 text

● 利用部門自分たちで開発すると、アナリストの人開発なしで新機能実現とすい。いい話する ● アナリストだでリバースETL構築。素晴らしい ● 「アナリスト自ら分析機能を実現した」のは大いな、データ民主化はもはや当たり前で「データ分析」の民主化必要 ● データの利用者たち横串でデータを利用でるようになるとって素敵。DataOpsだなあ「我社考える最強のデータ基盤'24最新版」の反響 63 実際のX（旧Twitter）のコメントはこちら https://twitter.com/hashtag/ChatworkTechTalk?src=hashtag_click&f=live

Slide 8

Slide 8 text

それ、ワタシです 64

Slide 9

Slide 9 text

今日話すと 65 データアナリストらみた並列開発体制のオモテガワとウラガワ

Slide 10

Slide 10 text

並列開発体制のオモテガワ

Slide 11

Slide 11 text

並列型の開発体制 67 データエンジニア ● 利活用現場で開発を進められる共通プラットフォームを整備てい ● データエンジニアボトルネックにならない共通プラットフォームは、横串の機能を提供てデータ基盤開発をスケールる機能を持つ。直列型並列型

Slide 12

Slide 12 text

開発の役割分担 68

Slide 13

Slide 13 text

開発の役割分担 69 データエンジニアのプラットフォーム力アナリストのドメイン知識

Slide 14

Slide 14 text

70 もうちょっと詳し開発体制の分担 1.設計 2.実装 3.単体テスト 4.結合テスト 5.リリースエンジニアアナリストエンジニアエンジニアアナリストアナリスト

Slide 15

Slide 15 text

並列開発体制のハジマリ (オモテガワ)

Slide 16

Slide 16 text

72 並列開発体制のハジマリタダケン目線 dbtの開発に入りたい場合、以下のドキュメントを参考に、開発コンテナをbuildするって感じでいですよね？（すみません。ドキュメント見つたので、勝手に）の辺りも確認いただるといいなと思います。操作よわらないとあればMeetとで画面共有しならフォローともでますので、相談だい〜基本的にはそうなります。ただ、キャプチャのgitブランチ切ってないのでbuildは失敗します。ブランチとタスクを紐づるためにちらら〜検証みたいなタスク切った上でそれに紐づブランチを作成して、 buildいただると通ると(新Dev環境整備中なので、でたら環境切り替わる感じにはなりますじまさんみっつさんタダケン

Slide 17

Slide 17 text

全てはここら始まった（アナリストとしてdbt開発の第一号として飛び込む）

Slide 18

Slide 18 text

74 最初は既存モデルの修正ら手をつて、、、やったと 1. 既存のmodelの修正(まずはdbtになれる） 2. 既存のincremental modelの修正(差分更新の場合の作法を学ぶ） 3. seedの開発（CSVデータなどの取り込み） 4. 新規のmodelの開発

Slide 19

Slide 19 text

75 ほぼ単独で設計ら実装まで！組織単位でのプロダクト活用度です、んな感じで行うなと。

Slide 20

Slide 20 text

76 datainfraのリポジトリではAdditionalで２番目に

Slide 21

Slide 21 text

並列開発体制でのReverse ETL (オモテガワ)

Slide 22

Slide 22 text

78 ある日のカスタマーマーケティングとの会話もっとプロダクト内のデータを使ってユーザーコミュケーションでるといいんだどでも、エンジニアはほにやるとでいっぱいですよどもエンジニア不足ですよね、、、カスタマーマーケティング

Slide 23

Slide 23 text

79 Reverse ETLのハジマリタダケン目線事業側で、デジタルマーケティングツールに、snowﬂakeのデータ連携したいのです、なんいい方法ないです？モダンデータスタックのジャンル的には、Reverse ETLというとろですね。いつのReverse ETLを検証したWiki あるので共有しますねみっつさんタダケンサポートしますのでわらないとろは気軽に〜じまさん

Slide 24

Slide 24 text

80 並列型の開発体制：Reverse ETLの実装やったと 1. 要求・要件整理 2. 検証（要件を満たせる） 3. 負荷試験 4. データ連携用dbt modelの開発 5. Reverse ETLの実装

Slide 25

Slide 25 text

Reverse ETL 「hightouch」 81 データソースと連携を選んで、データ連携簡単に！企業秘密

Slide 26

Slide 26 text

82 負荷テストもsnowﬂakeなら容易に 1000万レコードのダミーデータも10分で生成負荷テストは数年先も見越て、 1000万レコードでやりない技術基盤戦略室室長春日さん

Slide 27

Slide 27 text

データの移送速度もすいhightouch 83 1000万レコードの２テーブルを並列でデータ移送して約2時間で完了。*実際は差分更新いな！hightouch 技術基盤戦略室室長春日さん

Slide 28

Slide 28 text

84 Reverse ETLを実装したでカスタマーマーケティングアナリスト（タダケン）データに基づいて、ユーザーコミュニケーションでるぞー分析ら施策へのデータ活用まで一気通貫してでるぞー

Slide 29

Slide 29 text

85 Reverse ETLを実装したで Reverse ETLを実装したで Reverse ETLを実装したで Reverse ETLを実装したで（２回目）エンジニアリソースを使わずに機能追加でてみんなHappy

Slide 30

Slide 30 text

並列開発体制のウラガワ

Slide 31

Slide 31 text

87 dbtの開発に入りたい場合、以下のドキュメントを参考に、開発コンテナをbuildするって感じでいですよね？（すみません。ドキュメント見つたので、勝手に）の辺りも確認いただるといいなと思います。（別のドキュメントのURL）操作よわらないとあればMeetとで画面共有しならフォローともでますので、相談だい〜基本的にはそうなります。ただ、キャプチャのgitブランチ切ってないのでbuildは失敗します。ブランチとタスクを紐づるためにちらら検証みたいなタスク切った上でそれに紐づブランチを作成して、buildいただると通ると新Dev環境整備中なので、でたら環境切り替わる感じにはなりますじまさんみっつさんタダケン並列開発体制の本当のハジマリ

Slide 32

Slide 32 text

88 dbtの開発にスッと入れた理由 ● 部署を超えた協力関係 ● ドキュメントあったら飛び込めた

Slide 33

Slide 33 text

89 Reverse ETLの本当のハジマリ事業側で、デジタルマーケティングツールに、snowﬂakeのデータ連携したいのです、なんいい方法ないです？モダンデータスタックのジャンル的には、Reverse ETLというとろですね。いつのReverse ETLを検証したWiki あるので共有しますねみっつさんタダケンサポートしますのでわらないとろは気軽に〜じまさん

Slide 34

Slide 34 text

Reverse ETL 「hightouch」をスッと実装でた理由は？ 90 ● 部署を超えた協力関係 ● データエンジニアの方で、Reverese ETLの検証をしていたら ● しも、実装容易なモダンデータスタックで

Slide 35

Slide 35 text

● セルフサービスと自動化を通じて、開発業務の生産性を向上させること ● アナリストチーム（not エンジニア）開発に参加で、より迅速に価値を提供でる ● エンジニアは、プラットフォームをより拡充させる業務に取り組むこと可能 ● 将来的には、生成AIを活用し、オペレーションチームやビジネスチームも開発に参加でるもプラットフォームエンジニアリングとは？ 91 ＊ガードナー 2022に提唱た概念 cf. https://www.gartner.co.jp/ja/articles/what-is-platform-engineering

Slide 36

Slide 36 text

92 ひとりでも多の人並列で開発でるようにアナリストだってドキュメント整備に協力れ Chatworkのカルチャーや技術基盤戦略室室長春日さん

Slide 37

Slide 37 text

まとめ

Slide 38

Slide 38 text

まとめ 94 ● 我社考える最強の開発体制は「並列開発体制」 ○ データエンジニアとアナリストのバディ≒協業 ● プラットフォームエンジニアリング ○ ドキュメントの拡充 ○ マネージドされたサービスの利用（モダンデータスタック）エンジニアアナリストえらい人