Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
re:Inventに行ってきました - 気になった新サービス / AWS re:Invent2016 Participants LT
Search
koid
December 14, 2016
0
2k
re:Inventに行ってきました - 気になった新サービス / AWS re:Invent2016 Participants LT
https://abeja-innovation-meetup.connpass.com/event/45987/
koid
December 14, 2016
Tweet
Share
More Decks by koid
See All by koid
新しい技術の導入時に大切にしていること / IVS CTO Night 2018 LT
koid
2
6.9k
GunosyでのKinesis Analytics利用について / AWS Solution Days 2017 -AWS DB Day-
koid
0
210
GunosyでのKinesis Analytics利用について / BigData JAWS 6 Kinesis Analytics
koid
1
860
AWS Lambda - ピーキーなアクセスに備える / Gunosy Beer Bash #8
koid
0
1.9k
AWS Lambdaで複数アカウント間でアレコレする / Gunosy Beer Bash #7
koid
1
1.9k
サーバにログインしない・させないサービス運用 / AWS Summit 2015 Devcon
koid
6
8.9k
GunosyのMicroServicesとOpsWorks / よくわかる AWS OpsWorks
koid
18
5.7k
Featured
See All Featured
In The Pink: A Labor of Love
frogandcode
138
21k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
19
6.9k
The Language of Interfaces
destraynor
151
23k
Faster Mobile Websites
deanohume
300
30k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
501
140k
Designing for Performance
lara
602
67k
Product Roadmaps are Hard
iamctodd
45
9.7k
Why You Should Never Use an ORM
jnunemaker
PRO
51
8.6k
Documentation Writing (for coders)
carmenintech
61
4k
A Philosophy of Restraint
colly
197
16k
Embracing the Ebb and Flow
colly
80
4.2k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
228
16k
Transcript
re:Inventに⾏ってきました - 気になった新サービス - 株式会社Gunosy ⼩出 幸典
⾃⼰紹介 • 名前 – ⼩出 幸典 (こいで ゆきのり) • 所属
– 株式会社Gunosy • プロビジョニング・デプロイフローの共通化とか • 過剰リソース警察、コスト削減おじさん • 好きなAWSサービス – OpsWorks, Lambda, Trusted Advisor, 最近はKinesisファミリー
株式会社Gunosy – 「情報を世界中の⼈に最適に届ける」 • Gunosyは 情報キュレーションサービス「グノシー」と • 2016年6⽉1⽇にKDDI株式会社と共同でリリースした 無料ニュース配信アプリ「ニュースパス」を提供する •
会社です。「情報を世界中の⼈に最適に届ける」を ビジョンに活動しています。 ネット上に存在するさまざまな情報を、 独⾃のアルゴリズムで収集、評価付けを⾏い ユーザーに届けます。 情報キュレーションサービス 「グノシー」 200媒体以上のニュースソースをベースに、 新たに開発した情報解析・配信技術を⽤いて⾃動的に 選定したニュースや情報をユーザーに届けます。 無料ニュース配信アプリ 「ニュースパス」
本⽇お話させていただく内容 今回のre:Inventで個⼈的に気になった新サービス (を、⾃社の状況と絡めながら)
Amazon Athena • S3上のデータにクエリ投げられるサービス – CSV, JSON, カラムナフォーマット – 通常のS3データ課⾦+読み込んだデータ量で課⾦
• GZIPやカラムナフォーマットで読み込みデータ量を抑えられる • 既に解説スライド・記事がたくさん上がっている – Gunosyでも使ってみたブログ書いています – もういいよね
社内のとあるデータフロー • ⼀部ではありますが Raw log bucket Hive Metastore Airflow ETL
Cluster Parquet bucket Analysis Cluster Redash etc… Job
Amazon Athenaが⼊ると • こんな感じでしょうか Raw log bucket Hive Metastore Airflow
ETL Cluster Parquet bucket Athena Redash etc… Job
でも、、 • Metastoreが別のため、別途DDL操作が必要 Raw log bucket Hive Metastore Airflow ETL
Cluster Parquet bucket Athena Redash etc… Job 何か Add Partition etc… Metastore (Hive Compatible) 既存資産を 活⽤したい!
外部Metastoreの参照 ͝ݕ౼͓ئ͍͠·͢ʂ ʢػೳཁʣ
そういえば もうひとつ気になるものがありました
AWS Glue • Fully Managed ETL Service – Data Catalog
• RDS/S3/Redshiftを統合 • JSON、CSV、Parquetなど、各種フォーマットに対応 – Job Authoring – Job Execution • 近⽇公開
ん…?これは…? ここから先は妄想です (だったらいいなシリーズ)
妄想)こんな感じでできたりしないかな…? • ETLジョブの実⾏・管理を全てGlueで – ジョブ管理をフルマネージドで • AthenaのMetastoreをGlueのData Catalogで – 資料にはAthena書いてませんが…サポートしてください!
Raw log bucket Glue Parquet bucket Athena Redash etc… Glue Data Catalog
AWS GlueのAthena Support ͝ݕ౼͓ئ͍͠·͢ʂ ʢػೳཁʣ
AWS Glue ͓͖ͯ͞ɺ(MVFʹظ͍ͯ͠·͢ʂ ૣ͘ެ։͍ͯͩ͘͠͞ʂ
終わりに • ご清聴ありがとうございました