Slide 1

Slide 1 text

みっつ(三ツ橋和宏) Staff Data Engineer | 株式会社kubell 昨年対比2倍以上の機能追加を実現する データ基盤プロジェクトでのAI活用につ いて TS-S205

Slide 2

Slide 2 text

アジェンダ • kubellのデータ分析基盤について • 開発を加速するAI活用について • データ利活用を加速するAI活用について • まとめ • 資料集

Slide 3

Slide 3 text

3 Staff Data Engineer 株式会社kubell(旧Chatwork) みっつ(三ツ橋和宏) ○Snowflake活動 ❄Data Superhero'25、'24、'23 X:@kaz3284 ←この資料も後で公開予定(できるだけ)!

Slide 4

Slide 4 text

kubellのデータ分析基盤について

Slide 5

Slide 5 text

5 Snowflakeを中心としたデータ分析基盤 Chatwork システム Treasure CDP Salesforce market zendesk …etc DWH Data モデル 取り込み 取り込み 取り込み 利用 実装・制御 SSOT(Single Source of Truth) dbt, Dagster BIツール各種 Streamlit Notebook

Slide 6

Slide 6 text

6 現在は並列型の体制(直列型のボトルネックを解消した後) 我々(DRE)は以下を提供してサポート ● 横串の共通プラットフォーム機能 ● 設計・開発・運用支援 利用現場が主体で開発を進めることができる体制(DIY) 共通プラットフォームは、横串で開発をスケールさせる機能を持つ。 ● メタデータ管理 ● IaC、CI/CD、DevSecOps(情報統制を含むDevOps) 前提として必要なのは、現場部門に開発を進める技術があること ● dbtとdevcontainer(Cursor)により、SQLとgithubが使えるくらいがあればOKのス キルで開発可能となっている cf.直列型 ○詳細について:次世代データ分析基盤のさらなる飛躍を目指して

Slide 7

Slide 7 text

7 2024は、前年比2.5倍の機能追加+αを実現 ● 機能追加数の大幅増加: 2023年の機能追加数が約80件に対し、2024年は約200件と2.5倍を達成。 ● アナリスト主導の新機能開発: Reverse ETLを活用して、アナリストのみで新機能を実現した。 ● 迅速なデータ基盤立ち上げ: グループ会社のデータ基盤を1週・人程度で立ち上げ。(工期は約2週間程度) ● レポート作成の効率化: Streamlitの導入により、顧客向けレポート作成の工数が大幅に削減。

Slide 8

Slide 8 text

8 2025の状況について... AIを本格的に活用し始めて... 8月までに去年を超える280件超の機能追加を実現済み。(2024 年は年間で約200件) 2年連続2倍以上の成長も夢ではない状況できており... 本日は、kubellのデータ基盤開発でのAIの活用について 「開発を加速する」と「データの利活用を加速する」 2つの観点から紹介。

Slide 9

Slide 9 text

開発を加速するAI活用について

Slide 10

Slide 10 text

10 開発を加速するAI活用 AIエディタ(Cursor)とAIエージェント(Devin)を適材適所で使い分け ● AIエディタ(Cursor)は、導入して一番使ってきたツール。 ○ あらゆる開発で使える。 モデル(とモード)選択、ピンポイント指示とコー ド生成ができるため小回りが効いく。 ○ 反面、 やることが決まっている定型開発は手間がかかる ● AIエージェント(Devin)は、自律型エージェントとして型化された定型処 理で活用 ○ 指示を数行書くだけでPRを作ってくれる。 カラム追加、カラム型変更...etc ○ 使用量課金なので、広く使ってもらえる(ライセンス課金のCursorと違い) ○ 反面、しっかり型化されてないと手戻りが大きくなって余計な手間がかかる

Slide 11

Slide 11 text

11 開発全般で活用する。AIエディタ(Cursor)。その1 アナリティクスエンジニア、データエンジニアは全員が活用中。 もはや手放せない開発ツールになっている。 ● データモデルの開発で役割 ○ アナリティクスエンジニアは、分析モデル層(緑)開発で活用 ○ データエンジニアは、取り込み層(黄)開発で活用 ○ dbtのモデル数は400程度 


Slide 12

Slide 12 text

12 開発全般で活用する。AIエディタ(Cursor)。その2 ● Snowflake MCP Server (Cursorと組み合わせて) ○ Cursorから開発環境へ接続して、独自構成を理解したクエリを生成できる ○ クエリ生成時にdocsを調べたり試行錯誤する必要がほとんど無くなる。 -> 特にSnowflake(データベース)を使う指標などを見るのが楽に。 ○ 参考になる投稿:Snowflake MCP Server で Cursor から高度なデータ分析を実現する ● オーケストレーションの開発(Dagster) ○ 初期実装(キャッチアップ)に時間に苦戦していたが、Cursorを使って一気に進展し た。 ○ 高機能なモデルを選択して実装精度が上がった。 ● TerraformのIaC実装 ○ 新機能の追加はCursorで、定型化された機能追加はDevinで実行するように。

Slide 13

Slide 13 text

13 AIエージェント(Devin)定型の機能追加で活用中 開発の生産性をさらに上げるために導入。(有効な活用方法は模索中) ● 良いところ ○ (明確にやることが決まった)定型の機能追加は全自動で完遂できる ○ コーディングが不要になる。数行の指示でPR作成、コメントに対する修正もレンス ポンスよく対応してくれる。 ● 使いどころを選ぶところ ○ やることが決まった定型の機能追加は少ない現実... ○ 曖昧なコンテキストや指示で動くと、間違った方向で実装してしまう... ■ 人手でリカバリしたり、確認が必要となってしまう しばらくは、Jrレベルのお手伝い者として使うイメージ。 上手く機能してもらうには、先ず型化されてないところを整備するところらスタートする必要 がある💦 Snowflake MCP Serverと連動すると、任せられる領域が広がりそうな感じはしている🤔

Slide 14

Slide 14 text

データ利活用を加速するAI活用について

Slide 15

Slide 15 text

15 データ利活用を加速するAI活用 Snowflakeデータ基盤のデータを、誰でも気軽に利活用できるよう支援するAI活用 ユーザはプロダクト開発部門やセールス部門、サポート部門の方々。 ● Copilot(Inline含む): ○ WebUIからすぐに使える。 PdMやプロダクト開発者が、クエリを実行する際によく使われる。 必要なデータをDIYできる(アナリストが用意するダッシュボードからは見えない詳細をドリ ルダウン分析するときなど) ● Streamlit in Snowflakeのデータアプリ: ○ Snowflake上でサッとデータアプリを作れる。 現場にあったら便利かもと思う機能をStreamlit+Cortexでサッと作って使ってもらうみたい な検証ができる。 実際に、セールスの商談状況を要約するアプリは業務で活用するイメージを素早く実現でき た。 ○ StreamlitはLLMコーディングとの相性が良いのもポイント。 ● Snowflake Notebook: ○ ガバナンスが整ったSnowflakeで完結するデータ処理環境を実現できる。 個人情報の扱いに細心の注意が必要な昨今において、安心した環境でスグにMLなどを実行で きる環境を提供できる。


Slide 16

Slide 16 text

16 その他、注目している機能 ● Cortex AISQL: 今年のSummitで発表された注目の機能。(現地参加者でも話題になった) AI_FILTER、AI_CLASSIFY、AI_COMPLETEなど、 クエリの中にプロンプトを埋め込んでSQLとAIを同時に実行することができる。 ○ サポート業務の支援や、利用アンケートの分析などが効率化しそう ○ SQLxAIの掛け算で、足し算以上の新しいことができそう 参考になる投稿:SQLでAI分析!Snowflake Cortex AISQLの使い方とユースケース8選 ● AI_EXTRACT, AI_PARSE_DOCUMENT: 契約書や非定型な文章をAIを通してデータベース化したり、必要な部分のみ抽出できる。 ○ 事務作業をDX化する取り組みなどで活用できそう。 ○ SQL関数として手軽に使える(DocumentAIによりも簡単に使える) ○ 日本語対応もありがたい。 参考になる投稿:Snowflake新AI関数: 日本語対応のAI_EXTRACTとAI_PARSE_DOCUMENTを使ってみた ● Snowflake Intelligence: マーケットプレイスからCKE(CortexSearchの一種)を取り込むと 参考になる投稿:[新機能]Cortex Knowledge Extensionsが一般提供!MarketplaceからSnowflake公式ドキュ メントのExtensionsを取得してSnowflake Intelligenceから問い合わせをしてみた

Slide 17

Slide 17 text

まとめ

Slide 18

Slide 18 text

18 まとめ ● kubellのデータ分析基盤は2021年から、Snowflakeへの移行を決断してモダ ン化を進めてきた。 ● 2024年は、開発体制の移行に成功して、2.5倍の機能成長と全社利用が進ん だ。 ● 今年は、開発やデータ利活用にAIを導入して成長が加速している。 (8月までで既に昨年比1.5倍のペースで成長中) ● 今年の成長はAIエディタやエージェントの導入と、Snowflakeで使えるAI機 能を積極的に活用できたところにある。 ● AIとデータ基盤は密接な関わりがある(と個人的には思っている) これからもAIと共に成長していきたい!

Slide 19

Slide 19 text

19 [お知らせ]みん強第5回 09/24(水)19:30 〜ハイブリッド開催 みんなの考えた最強のデータ基盤アーキテクチャ第5回 〜オールスター大集合スペシャル!!〜 ● これまで4回の合計で、参加者が4,000名を超えたデータエンジニアのイベント最新回を開催! ● 現地参加限定。菱沼さん・吉田さん始めなかなか話せない方と話せます

Slide 20

Slide 20 text

資料集

Slide 21

Slide 21 text

21 資料集 ● 参考になる投稿 ○ Snowflake MCP Server で Cursor から高度なデータ分析を実現する ○ SQLでAI分析!Snowflake Cortex AISQLの使い方とユースケース8選 ○ Snowflake新AI関数: 日本語対応のAI_EXTRACTと AI_PARSE_DOCUMENTを使ってみた ○ [新機能]Cortex Knowledge Extensionsが一般提供!Marketplaceから Snowflake公式ドキュメントのExtensionsを取得してSnowflake Intelligenceから問い合わせをしてみた ● kubellのデータ分析基盤について ○ 次世代データ基盤プロジェクトへのAI導入とSnowflakeブートキャンプについて ○ 次世代データ分析基盤のさらなる飛躍を目指して ○ 『我が社のデータエンジニアリング現場』を開催!イベントレポートをまとめま した ○ 利用拡大へ向けてステップアップを目指す次世代データ分析基盤開発について ○ プロダクトへの貢献を目指す、Chatworkの次世代データ分析基盤

Slide 22

Slide 22 text

THANK YOU