Cloud-Nativeなデータ分析基盤におけるPrestoの活用 / Cloud-Native Data Infrastructure with Presto

2019-03-14 Data Engineer, SmartNews Inc 廣瀬智史 Cloud-Nativeなデータ分析基盤におけるPrestoの活用 Hadoop
/ Spark Conference Japan 2019

データの活用（データ分析、機械学習）例: ニュース(記事+動画)配信 • 記事+動画のカテゴライズ • フィードにおけるレコメンド例: 広告配信 •
様々な配信最適化例: データサイエンス • 経営指標の計算や予測

• 当時の構成 ◦ MapReduce(mrjob) + MongoDB • 課題 ◦ 集計処理が必要になるたびに
MapReduce処理を追加する必要があった ◦ 見たいデータを追加するたびに可視化のためのウェブアプリを修正する必要があった ◦ データを気軽に分析できる環境ではなかった 2014年当時のSmartNewsデータ基盤の構成と課題 in-house visualization web application

Hadoop Conference in Japan 2014 • Facebookが公開したSQL Query Engine •
大規模データセットに対してもインタラクティブなレスポンスを返す • Presto自身はデータストレージを持っていない • 複数のデータソース（Hive, Cassandra, MySQL, etc…）に対して一度に集計を実行することができる https://tug.red/entry/2014/07/10/150250/

Presto/Hiveの導入 • 変更後の構成 ◦ S3 + Presto + Hive •
コンセプト ◦ ETLバッチ処理はHive, リアルタイムデータ集計はPresto ◦ ストレージとコンピューテーションリソースを分離 ◦ SQLを書ければ誰でもデータ分析ができるようにする BI Tools, CLI, Data Application

EMR+S3によるCloud-Nativeなデータ分析基盤 [メリット] • Less Maintenance: マネージドサービスを活用することで運用を少なく • Elasticity: long
runningなHadoopクラスタの他にも、必要に応じてtransientなHadoop クラスタを活用できる。ワークロードに応じてクラスターの規模を増減できる • DevOps: 用途やチームに応じてクラスターを使い分けることで、依存性が局所化され、チームがownershipを持てる広告配信チーム Hive MetaStore multi EMR clusters S3 Buckets ニュース配信チーム multi EMR clusters S3 Buckets Hive MetaStore

EMR+S3によるCloud-Nativeなデータ分析基盤 [デメリット] • マルチクラスター化によって複数のHive MetaStore Databaseにデータが分散してしまい、それらを跨いだ集計処理が難しくなる広告配信チーム Hive
MetaStore multi EMR clusters S3 Buckets ニュース配信チーム multi EMR clusters S3 Buckets Hive MetaStore

• データが分散して存在しまう状況への対応 ◦ Prestoをインターフェイスにすることで複数のデータソースにまたがった集計が可能に other Applications CLI
Hive(Ads) Hive(News) other databases PrestoによるData Aggregation BI Tool

• EMRを使うのではなく、EC2上にクラスターを構築している • 負荷状況によりworkerをオートスケールさせ、利用状況の増減に対応している • 利用用途により、複数のクラスターが存在する ◦
一部では今年2月にリリースされた version 302を使い始めている Prestoの活用(1)

• defaultのPrestoには存在しないコネクターの追加や、独自のファンクションの追加を行なっている ◦ 例: Kinesis connector ◦ 例: fast
JSON extraction function ◦ 例: AWS function ▪ ddb_get() Prestoの活用(2) Table Name

• PrestoやHiveのバージョンアップに追従する仕組みの整備 ◦ 検証環境の整備など • 監視の強化 ◦ 問題のあるクエリの実行検知 ◦ ETL処理結果のvalidation
◦ SLI/SLOの設定 • データフォーマットや設定の最適化 ◦ RCFile から ORC への移行など • Streaming Processingの拡充 SmartNewsデータ分析基盤の課題と今後

Presto Software Foundationの設立 • 2019年1月にPrestoの開発コミュニティをサポートするためStarburst Data, Arm Treasure Data,
Qubole などのengineerにより設立 • 今後はこれまでのprestodb/presto （2019/3時点最新バージョンが 0.217）がprestosql/presto（2019/3時点最新バージョンが305）に分岐し、開発が進んでいく

まとめ • SmartNewsでは、EMRとS3を使用したCloud-Nativeなデータ処理基盤を、 Hive/Prestoを活用することで実現している • Hiveを中心としたETL処理により、エンジニア以外もロジックの実装に参加できるようになった • Prestoを活用することで、社内の様々なデータをSQLによって集計し、分析できるようになった
• transientなクラスターを活用するなど、メンテナンスコストを下げることを意識し、それぞれのチームごとのOwnershipを持って開発を進めることができる

Thank you!

Cloud-Nativeなデータ分析基盤におけるPrestoの活用 / Cloud-Nati...

Cloud-Nativeなデータ分析基盤におけるPrestoの活用 / Cloud-Native Data Infrastructure with Presto

satoshihirose

More Decks by satoshihirose

Other Decks in Programming

Featured

Transcript

2019-03-14 Data Engineer, SmartNews Inc 廣瀬智史 Cloud-Nativeなデータ分析基盤におけるPrestoの活用 Hadoop

データの活用（データ分析、機械学習）例: ニュース(記事+動画)配信 • 記事+動画のカテゴライズ • フィードにおけるレコメンド例: 広告配信 •

• 当時の構成 ◦ MapReduce(mrjob) + MongoDB • 課題 ◦ 集計処理が必要になるたびに

Hadoop Conference in Japan 2014 • Facebookが公開したSQL Query Engine •

Presto/Hiveの導入 • 変更後の構成 ◦ S3 + Presto + Hive •

EMR+S3によるCloud-Nativeなデータ分析基盤 [メリット] • Less Maintenance: マネージドサービスを活用することで運用を少なく • Elasticity: long

EMR+S3によるCloud-Nativeなデータ分析基盤 [デメリット] • マルチクラスター化によって複数のHive MetaStore Databaseにデータが分散してしまい、それらを跨いだ集計処理が難しくなる広告配信チーム Hive

• データが分散して存在しまう状況への対応 ◦ Prestoをインターフェイスにすることで複数のデータソースにまたがった集計が可能に other Applications CLI

• EMRを使うのではなく、EC2上にクラスターを構築している • 負荷状況によりworkerをオートスケールさせ、利用状況の増減に対応している • 利用用途により、複数のクラスターが存在する ◦

• defaultのPrestoには存在しないコネクターの追加や、独自のファンクションの追加を行なっている ◦ 例: Kinesis connector ◦ 例: fast

• PrestoやHiveのバージョンアップに追従する仕組みの整備 ◦ 検証環境の整備など • 監視の強化 ◦ 問題のあるクエリの実行検知 ◦ ETL処理結果のvalidation

Presto Software Foundationの設立 • 2019年1月にPrestoの開発コミュニティをサポートするためStarburst Data, Arm Treasure Data,

Thank you!