Slide 1

Slide 1 text

© 2024 Finatext Holdings Ltd. マルチデータプロダクトの開発を 支えるデータの民主化の仕組み 2025/09/25 株式会社ナウキャスト 大野巧作 / @Kevinrobot34 NIKKEI Tech Talk #37

Slide 2

Slide 2 text

© 2024 Finatext Holdings Ltd. アジェンダ 1. イントロダクション 2. ナウキャストのデータ基盤 3. ナウキャストにおけるデータの民主化 4. 今後の課題 1

Slide 3

Slide 3 text

© 2024 Finatext Holdings Ltd. 1. イントロダクション 自己紹介 ● 名前:大野巧作 ○ 大体けびんと呼ばれています ○ X / GitHub / Zenn / SpeakerDeck などは @Kevinrobot34 ● 役職:Data Engineer / Data Platform Engineer @ Nowcast ○ 2020年新卒入社 ○ POSデータのパイプライン作成・運用、分析 ○ Snowflake x dbt x Terraform な社内データ基盤構築・運用 2

Slide 4

Slide 4 text

© 2024 Finatext Holdings Ltd. 1. イントロダクション 会社紹介 データの保有側・利用側の双方に価値を提供するオルタナティブデータの Two-Sided Platformを展開します 3

Slide 5

Slide 5 text

© 2024 Finatext Holdings Ltd. 1. イントロダクション NowcastがSnowflakeで扱う多様なデータ 4 決済データ (POS、クレジットカード) マスタデータ (住所、企業、商業施設) 人流データ (位置情報) 労働市場データ (求人情報) 広告データ (TV広告) 財務データ (決算・有価証券報告書) これらの様々なデータを迅速に加工・分析していくために、 セルフサービスなデータ基盤が必須だった

Slide 6

Slide 6 text

© 2024 Finatext Holdings Ltd. 2. ナウキャストのデータ基盤 ナウキャストのデータ基盤 Datahub 一つの Snowflake アカウントの中で様々なデータの ELT パイプライン (dbt) が動いている。 インフラは Terraform で管理されており、Airflow でタスクのオーケストレーションをしている。 5

Slide 7

Slide 7 text

© 2024 Finatext Holdings Ltd. 2. ナウキャストのデータ基盤 ナウキャストのデータ基盤 Datahub このようなデータ基盤に至る経緯や、最近の非構造化データの活用などについては以下の資料もご覧ください。 6 Snowflake x dbt x Terraform マルチデータプロダクト基盤 DataOps Night #4 資料 Snowflake Intelligence × Document AI で “使いにくいデータ”を“使えるデータ”に Snowflake World Tour Tokyo 2025 資料

Slide 8

Slide 8 text

© 2024 Finatext Holdings Ltd. 2. ナウキャストのデータ基盤 データ基盤の利用状況 7 100TB+ データ保存量 30+ データソース数 20TB+ データスキャン量 / 日 100+ 社内ユーザー数 200K+ クエリ数 / 日 70%+ アクティブ率

Slide 9

Slide 9 text

© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 データの民主化の施策 8 組織構造 Platform Team と Stream Aligned Team による 役割分担 CI/CD等の整備 適切なCI/CDの整備、 そして GitHub の環境の整備により 開発体験を向上 横展開を見据えた設計 モジュール化・テンプレート化を 適切に行い、開発を迅速にし 知見も展開しやすく 知見共有の文化づくり 仕組みで横展開しやすくするだけでなく 知見を共有する文化を作り 社内での開発の効率向上を目指す

Slide 10

Slide 10 text

© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 組織構造 Platform Team と Stream Aligned Team ● Platform Team ○ データ基盤の設計・構築・運用やCCoE的な役割 ○ 中央集権型になるとスケールできないので、 セルフサービスなデータ基盤となるように設計 ○ 具体例(後述) ■ Snowflake や dbt の モジュール・テンプレートの開発 ■ CI/CDの整備 ■ 知見の共有の文化づくり ● Stream Aligned Team ○ 各データソース・データプロダクトに 関する開発・保守に注力 9

Slide 11

Slide 11 text

© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 横展開を見据えた設計 ● 各チームがよく使うインフラについては Terraform でモジュールを作り、 それを利用すれば以下のアーキテクチャがサクッと作れるような形に。 ● dbt や Python 環境、Dockerfile などもまとめて作れるテンプレートも。 ● これらのモジュールやテンプレートは社内だけでなく、 ソリューション事業でも同様なものが使えるようになっている ○ SnowCast としてリリース ○ 社内外の活用を踏まえ、日々改善が行われている 10

Slide 12

Slide 12 text

© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 CI/CDの整備 ● GitHub Repo の整備 ○ なるべくブランチ戦略は GitHub flow などシンプルに ■ masterブランチ一本であれば誰でも気軽に作業しやすいように ○ branch rule set を適切に入れて、ミスがないように ■ master branch の保護 ■ CIの強制 ■ CODEOWNERSによる特定ファイル・フォルダの保護 ■ merge 方法の指定(squashのみにするなど) ○ 全社的な仕組み ■ Secrets Scan の仕組みで間違って API キーなどをコミットしても気付けるように 11 Efficient Platform for Security and Compliance https://speakerdeck.com/taiki45/efficient-platf orm-for-security-and-compliance-89d1ad22-14 d6-44df-ab7e-dc4ca7fb470c

Slide 13

Slide 13 text

© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 CI/CDの整備 ● CI/CDの対象 ○ Terraform ○ dbt や Python コード ■ SQLやPython の Linter / Formatter ■ Image を ECR に push ○ Airflow の dag のデプロイ ○ Streamlit 12

Slide 14

Slide 14 text

© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 知見共有の文化づくり ● 各プロダクトで見つけた課題や知見を共有するようにしている ● 課題についてはなるべく早めに現象を解明し、CIやモジュールに反映することで仕組みで解決しそれを展開 ● パフォーマンス改善などの知見については気軽に共有できる勉強会を週次で開催 ○ また内容によってはそれをまとめてテックブログにも 13 ナウキャスト含むFinatextグループのZenn : https://zenn.dev/p/finatext

Slide 15

Slide 15 text

© 2024 Finatext Holdings Ltd. 4. 今後の課題 更なるセルフサービス化 ● 権限管理を適切に行うために、多くのロールが作られている ○ Terraform Module で作成しているので、 一定のルールで作られてはいるものの、 数が多くなってきているため管理が大変 ○ またこの Snowflake アカウントの強めの権限を 渡すわけにはいかない ● より data mesh 的なアプローチも検討し得る ○ プロダクトなどごとに Snowflake アカウントを分け、社内で共有するためには Snowflake の Internal Marketplace を利用して データを共有 ○ また Iceberg を使うことで、 Snowflake 外でもデータ提供しやすい 14 https://medium.com/snowflake/how-snowflake-powers-data-mesh-arc hitecture-with-an-internal-marketplace-6f2368ae0d8d より

Slide 16

Slide 16 text

© 2024 Finatext Holdings Ltd. 4. 今後の課題 更なるデータ基盤の進化 ● メタデータ管理の高度化 ○ OpenMetadata など、メタデータ管理をよりやりやすくしていく ○ エンジニア・ビジネスメンバー・AIそれぞれ皆が使いやすいメタデータ管理方法の模索 ● 非構造化データの更なる活用 ○ データ抽出の自動化と Human-in-the-loop による精度の担保 ○ テキストデータも含めた活用 15 Snowflake Intelligence × Document AI で “使いにくいデータ”を“使えるデータ”に Snowflake World Tour Tokyo 2025 資料

Slide 17

Slide 17 text

© 2024 Finatext Holdings Ltd. 今日のまとめ ● ナウキャストではマルチデータプロダクトの開発を迅速に行うために、 セルフサービスなデータ基盤を構築し、運用している ○ 組織構造 ○ モジュール化・テンプレート化による横展開 ○ CI/CD の整備 ○ 知見共有の文化づくり ● 更なるセルフサービス化やメタデータ管理、 非構造データの活用など、データ基盤の進化の余地はまだまだある ● 一緒にデータの民主化を進め、 データプロダクトを作っていくメンバー募集中! ○ データエンジニア ○ アナリティクスエンジニア ○ サーバーサイドエンジニア ○ など幅広く募集中です! 16 Finatext グループ採用サイト https://finatext.com/recruit

Slide 18

Slide 18 text

No content