Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
show catalogs; - Trino Japan community meetup 2...
Search
mikiT
July 18, 2024
Technology
0
430
show catalogs; - Trino Japan community meetup 2024 -
2024/7/10 に行われた Trino Japan community meetup 2024 で発表した資料です
https://techplay.jp/event/944074
mikiT
July 18, 2024
Tweet
Share
More Decks by mikiT
See All by mikiT
サブドメインテイクオーバー事例紹介と対策について
mikit
20
10k
APRICOT-APAN 2015とNOCチーム
mikit
0
85
ドメイン名の終活について - JPAAWG 7th -
mikit
39
32k
dnsops.jp - CNDT2023 コミュニティLT
mikit
0
230
20181107-gitlab-women-mikit.pdf
mikit
0
430
Other Decks in Technology
See All in Technology
「駆動」って言葉、なんかカッコイイ_Mitz
comucal
PRO
0
140
AWSと生成AIで学ぶ!実行計画の読み解き方とSQLチューニングの実践
yakumo
2
380
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.3k
AWS re:Invent 2025 を振り返る
kazzpapa3
2
110
I tried making a solo advent calendar!
zzzzico
0
150
_第4回__AIxIoTビジネス共創ラボ紹介資料_20251203.pdf
iotcomjpadmin
0
180
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
1
900
コールドスタンバイ構成でCDは可能か
hiramax
0
130
1万人を変え日本を変える!!多層構造型ふりかえりの大規模組織変革 / 20260108 Kazuki Mori
shift_evolve
PRO
6
1.2k
コミュニティが持つ「学びと成長の場」としての作用 / RSGT2026
ama_ch
0
190
投資戦略を量産せよ 2 - マケデコセミナー(2025/12/26)
gamella
1
640
スクラムマスターが スクラムチームに入って取り組む5つのこと - スクラムガイドには書いてないけど入った当初から取り組んでおきたい大切なこと -
scrummasudar
3
1.9k
Featured
See All Featured
Unsuck your backbone
ammeep
671
58k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
420
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
230
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
52
Making the Leap to Tech Lead
cromwellryan
135
9.7k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
270
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.3k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
46
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.8k
Transcript
© NTT Communications Corporation All Rights Reserved. NTTコミュニケーションズ株式会社 デジタル改⾰推進部 データドリブンマネジメント推進部⾨
髙⽥美紀 (@mikiT_T) 2024年7⽉10⽇ show catalogs; Trino Japan community meetup 2024
© NTT Communications Corporation All Rights Reserved. 2 おしながき •
わたしは誰? • 弊社のデータ分析基盤 DLX の紹介 • 本編 • 少⼈数のオフラインイベントだし、楽しくワイワイやりたいです!!
© NTT Communications Corporation All Rights Reserved. 3 ⾃⼰紹介 •
略歴 • 〜2013/3 NTTPCコミュニケーションズにて WebARENA ホスティング開発・運⽤ • 2013/4〜 NTTコミュニケーションズに復帰、SAMURAI フローコレクタ開発 • 2020/4〜 現職にてデータ分析基盤 DLX の開発に着⼿ • コミュニティ活動 • dnsops.jp 幹事 • JANOG53, 54 NOC サーバチームリーダー • CNDF2023, CNDT2023, CNDS2024 実⾏委員 • InternetWeek プログラム委員 • 好きなもの、趣味 • 🍺 🥟 🍖 • ゲーム (ソシャゲ) • モータースポーツ (F1) 観戦
© NTT Communications Corporation All Rights Reserved. 4 DLXの紹介
© NTT Communications Corporation All Rights Reserved. 5 DLX とは
• NTTコミュニケーションズの社内向けデータ分析基盤 • データ取得〜蓄積〜加⼯〜分析の環境を⼀元的に運⽤・提供している • Data Lake for X (Everything) の略 • 2020年度、デジタル改⾰推進部の発⾜時に開発を開始 • コンセプト • OSS中⼼の構成 • 内製開発 • ⾃動化の推進 • 監視やコード管理、⽣活⽤のさまざまなツールも⾃作 • 分析環境 • 社員誰でも申請なしに使える • 直感的な操作かつ、セキュアに利⽤できる • 分析以外の利⽤禁⽌ → 平⽇⽇勤帯のみ、DRや24/365運⽤はしない • オンプレ (サーバ150台程度) とクラウドサービスを適材適所で利⽤中 • 体制: 基盤チーム11⼈ • trino チームは 3⼈
© NTT Communications Corporation All Rights Reserved. 6 DLX overview
(〜2023)
© NTT Communications Corporation All Rights Reserved. 7 利⽤状況
© NTT Communications Corporation All Rights Reserved. 8 データレイク層 数年後のDLXCデータ分析基盤構想案
各種データ A情報 データレイク層 データウェアハウス層 データマート層 データ レイク DM 中間 DWH 個別⽤途に活⽤される データ DM=ユーザ向け SYSDM=システム向け ⼀次加⼯ ユーザ層 ユーザDB DWH 中間 DM 公開DB ⾼度データ活⽤組織⽤ (払出審査あり) DDM DB 個別案件 DB SYS DM 複数⽤途に活⽤される データ ユーザ参照(取扱注意データ) 通信の秘密 S情報 B情報 C/D情報 個⼈情報 従業員データ 勤務情報 A処理 データ レイクA AWS S3 管理会計 (速報値) 取扱注意情報 営業活動データ 契約情報 コードマスター セキュリティ情報 ⼊室情報 決裁情報 調達情報 その他 B処理 Publish Publish 申請 権限処理 承認処理 Notebook in SnowflakeのPublish コム社員 PowerBI Online
© NTT Communications Corporation All Rights Reserved. 9 show catalogs;
© NTT Communications Corporation All Rights Reserved. 10 今回の趣旨 •
お集まりの皆さんも trino を利⽤して、さまざまな活動をなさってますよね • コミュニティとしての情報交換ができたらいいな〜と思いました • どんなものを、どんな⾵に使っているか • その上で、困っていることなど互助できたら。。
© NTT Communications Corporation All Rights Reserved. 11 アイスブレイク •
trino 使ってますか!? • はい: ほとんど • いいえ: お⼀⼈ • 「はい」の⼈、クラスタの数はどれくらい? • 1: 1 • 2: • 3よりたくさん: ほとんど • 「いいえ」の⼈は、以降の質問については皆さんの様⼦を⾒ててくださいね〜
© NTT Communications Corporation All Rights Reserved. 12 • カタログは何個くらいありますか?
• 1~3個: 1 • 4〜10個:3,4 • 11〜20個: ? • 21個以上: 3 show catalogs; trino> show catalogs; Catalog ------------------------------- boar bsystem_nboss bsystem_pap dev_kafka dlxc_linkage_datamart_db dlxc_test_ingest_user_ddm_db dlxc_test_linkage_datamart_db dlxc_test_user_ddm_db isystem_kd insights_db_catalog_dev insights_db_catalog_secure jmx netezza_isystemdb00_lab osystem_psql prd_kafka ptarmigan_azuresql ptarmigan_dev_azuresql system tpcds tpch xsystem_bs_bplan xsystem_bs_bplan_bst_2g xsystem_bs_datacamp (23 rows)
© NTT Communications Corporation All Rights Reserved. 13 • コネクタの種類は何種類くらいあ
りますか? • 1〜2種類: 4 • 3〜5種類: 3 • 6種類以上: 2 • 差し⽀えない範囲で、どんなコネ クタを使っていますか? • hive: 7,8 • iceberg: 4 • postgres: 7 • mysql: 4 • その他: sqlserver, bq, ⾃作, oracle, mariadb, deltalake • 弊社の状況 • (iceberg は検証中..) コネクタについて trino> SELECT distinct connector_name FROM system.metadata."catalogs" order by connector_name; connector_name -------------------- hive jmx netezza oracle postgresql snowflake_parallel sqlserver system tpcds tpch (10 rows)
© NTT Communications Corporation All Rights Reserved. 14 • コネクタを⾃作してますか?
• はい: 2 • いいえ: • やってみたい: • 「はい」の⽅、差し⽀えない範囲 でどんなコネクタを作りましたか? • storageに対して直接クエリを発⾏ できる table 関数で csv ファイル を読み込む • 弊社の状況 • (iceberg は検証中..) コネクタについて (cont) trino> SELECT count(*) cnt, connector_name FROM system.metadata."catalogs" group by connector_name order by connector_name; cnt | connector_name -----+-------------------- 1 | hive 1 | jmx 2 | netezza ← ⾃作 2 | oracle 4 | postgresql 5 | sqlserver 1 | snowflake_parallel 1 | system 1 | tpcds 1 | tpch (10 rows)
© NTT Communications Corporation All Rights Reserved. 15 • カタログ周りで困ってることとか
• ⾃作コネクタのメンテナンス問題 • パフォーマンス問題 • その他、カタログに限らず、なんでも • コミュニティ版 Trino のビルドが⾟い問題 • worker が落ちる問題 • etc • 次に聞いてみたいこと • クラスタ分割してる? • UDF 作ってます? • 監視メトリクスどんなのをみてる? • We are Hiring! • https://www.bizreach.jp/ job/view/1376977 その他、ディスカッション、Q&A
© NTT Communications Corporation All Rights Reserved. 16 QA •
クラスタサイズ、どうやって決めてますか? • 利⽤者のログを集めて決める • 2,3台のクラスタ、ログを集めて分析する • DELLさんがコンサルしてくれるよ • postgres の場合は trino 側にはあまり負荷はかからない • explain をして、クエリがどちらで動いているか (postgres or trino engine) • クエリの複雑性、同時実⾏の状況 • ほとんどが postgres 側で動いていそう • ⼩さいマシンを並べるくらいなら1台の⽅がおすすめ • cordinator, worker 1台ずつとか • postgres のコネクタはシングルスレッドなので、aggregation をしないと複数台⽤意しても性能の向上は⾒込めない • slack (community) • version up のアナウンスを⽇本語チャンネルにもしてはどうか • ebyhrさんがやってみる • trino に関わることなら書いて良いのでは • trino fes とかの状況を⽇本語で書く
© NTT Communications Corporation All Rights Reserved. 17