Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20240927_bq-sushi-dmm登壇資料
Search
Kei
October 28, 2025
0
2
20240927_bq-sushi-dmm登壇資料
2024/09/27の登壇資料です。
#bq_sushi #20 BigQueryと生成AIと部屋とワイシャツと(ry
Kei
October 28, 2025
Tweet
Share
More Decks by Kei
See All by Kei
5兆レコードを超える DMMデータ基盤の開発と運用のリアル
takaha4k
2
18
知られざるDMMデータエンジニアの生態 〜かつてツチノコと呼ばれし者〜
takaha4k
5
2.1k
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.7k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
Facilitating Awesome Meetings
lara
57
6.6k
Embracing the Ebb and Flow
colly
88
4.9k
The Invisible Side of Design
smashingmag
302
51k
A Modern Web Designer's Workflow
chriscoyier
697
190k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
Java REST API Framework Comparison - PWX 2021
mraible
34
8.9k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
Site-Speed That Sticks
csswizardry
13
940
The Cost Of JavaScript in 2023
addyosmani
55
9.1k
Designing Experiences People Love
moore
142
24k
Transcript
© DMM © DMM CONFIDENTIAL DMMが拓くクエリレスの新時代 2024.09.27 #bq_sushi #20 BigQueryと生成AIと部屋とワイシャツと
(ry 合同会社DMM.com 開発統括本部 データ基盤開発部 高橋 慶 |山崎 瑞基
© DMM 登壇者 何者が話すのか 2
© DMM 登壇者 3 合同会社DMM.com 開発統括本部 データ基盤開発部 高橋 慶 たかはし けい
#双子 #DMMテニスサークル創設 合同会社DMM.com 開発統括本部 データ基盤開発部 山崎 瑞基 やまざき みずき #トロント留学 #ドラクエウォーク
© DMM はじめに なぜ生成AIか、どこを目指しているのか 4
© DMM 生成AIを活用したい背景 5 点在する各事業部門から収集したデータ基盤で、 データを探すのが辛い 非エンジニアの割合が多く、 クエリを書くのにはハードルがある 5,081名 出典:
https://dmm-corp.com/figures/
© DMM 生成AIを活用したい背景 6 点在する各事業部門から収集したデータ基盤で、 データを探すのが辛い 非エンジニアの割合が多く、 クエリを書くのにはハードルがある 5,081名 出典:
https://dmm-corp.com/figures/ Gemini in BigQuery を 全体で使えるようにしました
© DMM 生成AIを利用する上での困りごと 7 自然言語のデータ探索がイマイチ。 関係なさそうなテーブルが複数 でてくる。 クエリ自動生成がイマイチ。 売上でなく数量を集計 している。
© DMM DataplexDataCatalogでメタデータをつける 8 同じプロンプトを投げると きちんと売上(amount)を集計するようになった Dataplex DataCatalogで カラムにメタデータ を付与
抽象的なカラム名が散見 ...
© DMM DataplexDataCatalogでメタデータをつける 9 同じプロンプトを投げると きちんと売上(amount)を集計するようになった Dataplex DataCatalogで カラムにメタデータ を付与
抽象的なカラム名が散見 ... 生成AIの正確性を高めるには、 メタデータが不可欠
© DMM クエリレスの新時代に向けて 10 戦国武将たち 現代の人たち 未来の人たち ビジネスマンたち 過去 vs
現在 現在 vs 未来 火縄銃?鉄砲? 竹槍と騎馬でやっていける なんで兵器を 使わないんだろう。 楽勝で勝てるのに。 Gemini?メタデータ管理? データ組織に任せておけばいい なんでデータ資産管理を 丸投げしてやらないんだろう。 生成AIですぐ洞察が得られるのに。
© DMM クエリレスの新時代に向けて 11 戦国武将たち 現代の人たち 未来の人たち ビジネスマンたち 過去 vs
現在 現在 vs 未来 火縄銃?鉄砲? 竹槍と騎馬でやっていける なんで兵器を 使わないんだろう。 楽勝で勝てるのに。 Gemini?メタデータ管理? データ組織に任せておけばいい なんでデータ資産管理を 丸投げしてやらないんだろう。 生成AIですぐ洞察が得られるのに。 会社全体を巻き込んで、 メタデータの拡充へ
© DMM 取り組み事例 何やっているのか 12
© DMM 現在のDMMデータ基盤概略 13 Cloud Storage TiDB on-premise spreadsheet AWS
RDS s3 Cloud Spanner Analytics Manipulation ELT Cloud Build Sync Data Transfer Orchestration Work ow Cloud Composer Query BigQuery BI Looker Notebook Vertex AI Store DataLake Cloud Storage DWH/Mart BigQuery Queue Pub/Sub Meatadata Dataplex Data Source
© DMM ビジネスメタデータの拡充 14 事業部でのメタデータ登録の手間を軽減できるように対応 Cloud Composer カラムメタデータ取得・更新パイプライン Procedure BigQuery
New Table BigQuery INFORMATION_SCHEMA BigQuery Extract & Load Cloud Build
© DMM テクニカルメタデータの拡充 15 テクニカルメタデータを自動で登録できるパイプライン導入 テクニカルメタデータ自動登録・更新パイプライン Composerバケット Cloud Storage ToBigquery
Pub/Sub 変更検知テーブル BigQuery Cloud Composer 登録用procedure BigQuery 再登録 Cloud Functions Data Catalog Dataplex
© DMM メタデータの保守運用 ユーザーが誤ってメタデータの削除や変更した場合でも簡単に復旧できるように対応 16 Audit Log Cloud Logging Audit
log table BigQuery Data Catalog Dataplex 登録されたメタデータを BigQueryで出力 再登録 Cloud Functions Data Catalog Dataplex Procedure BigQuery
© DMM その他の取り組み 17 取り組み内容 状況 DataplexとDataCanvasの操作説明会 13部門に対して実施済。(残り4部門を予定) タグテンプレート(タグの収納箱) の再設計とリリース
初期リリースしたテンプレは種類が多く、ユーザは選択迷う。 迷わないようテンプレートを再設計済。 DataplexCatalog一般公開(GA)に合わせてリリース計画中。 Spannerなど様々なデータソースからのメタデータ連携 設計完了。近々、実装へ メタデータの一括入力機構 量が多いと画面からの入力が大変。 事業部によってはスプレッドシートでメタ管理している。 これらを画面操作なしで登録できる機構を検討中。 Gemini in BigQuery社内ハンズオン 全社員向けのハンズオン会を年内に開催計画中。 動画をアーカイブ&公開して、社員が誰でも見れるように。
© DMM 取り組みの結果 18 Lookerで利用状況を可視化したところ、利用者も増加中 利用者の声
© DMM ふりかえり 発表をふりかえる 19
© DMM ふりかえり 20 - 背景 - DMMは、データが多い。非エンジニアも多い。データを見つけたり、とってくるのが大変。 - 目的
- 今後、更にデータも人も増えるので、生成 AI活用を最大限活用したい。 - 課題 - Gemini in BigQueryのデータ探索やクエリ自動生成には、改良の余地がある。 - 課題に対する方向性 - 社員全員でデータ資産(特にメタデータ)を拡充することが急務と判断し、 Dataplexを導入。 - 取り組みとその結果 - メタデータ管理・運用で工夫したことを共有。 - その他の取り組みと状況を共有。 - 会社全体でメタデータ・生成 AIの活用が進みつつある。
© DMM 宣伝 せっかくなので一言 21
© DMM 22 https://pitta.me/matches/xXlwBYbLmnNc https://youtrust.jp/recruitment_posts/d5cd24f913406d3f18b7832b652c0730 気軽にお声かけください!