Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Cassandraの活用とその事例
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
CassandraCommunityJP
October 16, 2017
Technology
0
540
Cassandraの活用とその事例
Cassandra Summit Tokyo 2017
CassandraCommunityJP
October 16, 2017
Tweet
Share
More Decks by CassandraCommunityJP
See All by CassandraCommunityJP
Azure Managed Instance for Apache Cassandra
cassandracommunityjp
0
230
Cassandra on Kubernets- K8ssandra
cassandracommunityjp
0
620
Transaction Management on Cassandra
cassandracommunityjp
0
350
運用中システムにおける6億レコードのデータ移行に関する課題と解決
cassandracommunityjp
0
360
Microsoft Azureを基盤としたライフサイエンス業界事例でのCassandra / DataStax Enterpriseの活用
cassandracommunityjp
0
230
Microsoft Azure で実現する Cassandra とその活用事例
cassandracommunityjp
0
380
Troubleshooting Apache Cassandra
cassandracommunityjp
0
360
Cassandra Summit Tokyo 2017 Keynote
cassandracommunityjp
0
450
Aaron Morton
cassandracommunityjp
0
70
Other Decks in Technology
See All in Technology
コスト削減から「セキュリティと利便性」を担うプラットフォームへ
sansantech
PRO
3
1.2k
10Xにおける品質保証活動の全体像と改善 #no_more_wait_for_test
nihonbuson
PRO
1
170
予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善
muziyoshiz
1
1.5k
Kiro IDEのドキュメントを全部読んだので地味だけどちょっと嬉しい機能を紹介する
khmoryz
0
150
学生・新卒・ジュニアから目指すSRE
hiroyaonoe
2
530
Meshy Proプラン課金した
henjin0
0
240
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
1
240
Context Engineeringが企業で不可欠になる理由
hirosatogamo
PRO
2
310
小さく始めるBCP ― 多プロダクト環境で始める最初の一歩
kekke_n
1
330
ClickHouseはどのように大規模データを活用したAIエージェントを全社展開しているのか
mikimatsumoto
0
190
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
10k
GSIが複数キー対応したことで、俺達はいったい何が嬉しいのか?
smt7174
3
140
Featured
See All Featured
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
97
WCS-LA-2024
lcolladotor
0
440
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
80
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
Raft: Consensus for Rubyists
vanstee
141
7.3k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
52
Claude Code のすすめ
schroneko
67
210k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
910
Exploring anti-patterns in Rails
aemeredith
2
250
Amusing Abliteration
ianozsvald
0
95
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.3k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
130
Transcript
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved Cassandraの活用と事例 2017.10.5 クリエーションライン株式会社
Data Engineering Team, Director 木内 2017/10/5 Cassandra Summit Tokyo 講演資料
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved 自己紹介 • 木内 満歳(きうち みつとし)
• クリエーションライン株式会社 シニアコンサルタント • Slideshare: http://www.slideshare.net/mkiuchi4 • 各種寄稿 a. gihyo.jp: “Mesosphere DCOSでつくるクラウドアプリケーション” b. 日経クラウドファースト2016年6月 “Azure IoT Suiteの評価” c. Codezine: “機械学習をクラウドで手軽に体験! BluemixのApache Sparkで 異常なセンサーデータを洗い出す” • 各種講演 a. 政策研究大学院大学 科学技術イノベーション政策研究センター 「科学技術イノベーション政策のための科学オープンフォーラム」 b. Developer Summit 2016 Summer c. 日経BP社 “パブリッククラウド導入の企画提案力養成講座” • 専門分野:Apache Mesos, Apache Spark, 分散コンピューティング, クラウドコン ピューティング, NoSQL DB, グラフDB • O’reilley Certified Developer on Apache Spark • Docker Certified Technical Trainer • Stanford Machine Learning Certified
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved 会社紹介 2006年1月設立 拠点:
東京都神田佐久間町(秋葉原) 社員数: 35(業務委託・BP含め 60人) 主な業務: クラウド基盤コンサルティング・アプリケーション開発・運用 IoT/ビッグデータ基盤構築、データ分析サービス アジャイル開発/DevOps開発/CI/CDに関するコンサルティング クリエーションライン株式会社
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved 取扱製品 クラウド基盤・アジャイル開発支援 データ分析基盤
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved アジェンダ • 日本における「データ分析」関係者の立ち位置と悩み
• Hadoop(Hive)は必ずしも”銀の弾丸”ではない • 事例: Cassandra+SparkによるスケーラブルSQL環境
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved 日本における「データ分析」関係者 現場のエンジニア マネージャー/
ディレクター メーカーのセールス 研究者 RDB系 NoSQL系 機械学習系
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved 日本における「データ分析」関係者 現場のエンジニア マネージャー/
ディレクター メーカーのセールス 研究者 RDB系 NoSQL系 機械学習系 ビッグ デ ー タ! 目の前の課題がか たずけられれば(と りあえず)文句はな い 新しい論文とか、実 装とか・・・
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved 日本における「データ分析」関係者 現場のエンジニア マネージャー/
ディレクター メーカーのセールス 研究者 RDB系 NoSQL系 機械学習系 ビッグ デ ー タ! 目の前の課題がか たずけられれば(と りあえず)文句はな い 新しい論文とか、実 装とか・・・ 「でかいデータベース」としての Hadoop “ついでに” 機械学習もできる!
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved 日本における「データ分析」関係者の悩み 現場のエンジニア マネージャー/
ディレクター メーカーのセールス 研究者 RDB系 NoSQL系 機械学習系 ビッグ デ ー タ! 目の前の課題がか たずけられれば(と りあえず)文句はな い 新しい論文とか、実 装とか・・・ なんで動かないの? なんで動かないの?
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved なぜ思った通りに動かないの? (本当に)よくある「まともに動かない」構成 HDFS
Hive JDBC Application(BIツール) Parquet ORC Tez LLAP
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved なぜ思った通りに動かないの? HDFS Hive
JDBC Application(BIツール) Parquet ORC Tez LLAP 課題はここ
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved そもそもHiveはバッチ処理用のインターフェイス • HiveはSQLを内部クエリ言語にコンパイルしてから実
行するためどうしてもレイテンシが出てきてしまう • この特性はバッチ処理にはほぼ問題にならないが、イ ンタラクティブなレスポンスを期待するアプリケーション には大きな問題になる。代表的なものが BIツール • ダッシュボードやBIなどのフロントエンドから直接 HDFS からデータを取得して(インタラクティブに)可視化する のが難しい • Hive側でも改善は続いている・・・が、完全に BIツール の使用感を満足させるような低レイテンシの達成には 至っていない Hive HiveQL JDBC/ODBC コンパイル MapReduce HDFS Tez LLAP
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved Hadoopディストリビュータによる改善の試み ベストプラクティスが揃い、 ユーザが気軽に利用できるまでにはまだ少し時間がかかる
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved 試作例:Cassandra+Sparkによる「いいとこ取り」 バッチ処理+インタラクティブ処理 バッチ処理
(将来的には)機械学習 インタラクティブ処 理 単純に”速いRDB”として使用
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved 試作結果 SparkSQLによる互換性の高い分散SQL SQL:2003準拠。Spark
2.0で実装 オンメモリ処理、TEMPORALY TABLEの排除で高速なETL処理 153分 5分 SQL書換ほぼ不要で 約30倍の高速化を達成 MySQL+SQL Cassandra+SparkSQL
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved Microsoft Azureで実現する最適ストレージ戦略 Cassandra
+ HDInsight Sparkを軸にした分析環境 transaction analytics 兼 mart process mart archive 自社 オンプレミス Azure ExpressRoute Azure HDInsight Azure Storage Azure CosmosDB Azure DataWarehouse Microsoft PowerBI Microsoft Azure SparkSQL Azure DataLake Azure SQL Database 16 Cassandraクラスタ
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved データのライフサイクルに合わせたストレージ選択 Hot Warm
Cold Azure HDInsight Azure DataWarehouse Azure Storage Azure SQL Database Azure CosmosDB Azure Data Lake Azure ExpressRoute + 自社NAS 17 クラウド環境でもビッグデータの保管・活用をリーズナブルに
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved まとめ • Hadoopを「単なる大きなデータベース」と理解することには大きなリスクがありま
す • 現時点では1つのプラットフォームで全てのワークロードに対応するような完璧な ソリューションはありません • Cassandra+SparkSQLは一つの可能性として考えることができます • Azureの活用によってCassandraを含めた統合分析環境をリーズナブルに構 築、運用することができます
Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved