https://abeja-innovation-meetup.connpass.com/event/45987/
re:Inventに⾏ってきました- 気になった新サービス -株式会社Gunosy⼩出 幸典
View Slide
⾃⼰紹介• 名前– ⼩出 幸典 (こいで ゆきのり)• 所属– 株式会社Gunosy• プロビジョニング・デプロイフローの共通化とか• 過剰リソース警察、コスト削減おじさん• 好きなAWSサービス– OpsWorks, Lambda, Trusted Advisor, 最近はKinesisファミリー
株式会社Gunosy – 「情報を世界中の⼈に最適に届ける」• Gunosyは 情報キュレーションサービス「グノシー」と• 2016年6⽉1⽇にKDDI株式会社と共同でリリースした無料ニュース配信アプリ「ニュースパス」を提供する• 会社です。「情報を世界中の⼈に最適に届ける」をビジョンに活動しています。ネット上に存在するさまざまな情報を、独⾃のアルゴリズムで収集、評価付けを⾏いユーザーに届けます。情報キュレーションサービス「グノシー」200媒体以上のニュースソースをベースに、新たに開発した情報解析・配信技術を⽤いて⾃動的に選定したニュースや情報をユーザーに届けます。無料ニュース配信アプリ「ニュースパス」
本⽇お話させていただく内容今回のre:Inventで個⼈的に気になった新サービス(を、⾃社の状況と絡めながら)
Amazon Athena• S3上のデータにクエリ投げられるサービス– CSV, JSON, カラムナフォーマット– 通常のS3データ課⾦+読み込んだデータ量で課⾦• GZIPやカラムナフォーマットで読み込みデータ量を抑えられる• 既に解説スライド・記事がたくさん上がっている– Gunosyでも使ってみたブログ書いています– もういいよね
社内のとあるデータフロー• ⼀部ではありますがRaw logbucketHiveMetastoreAirflowETLClusterParquetbucketAnalysisClusterRedashetc…Job
Amazon Athenaが⼊ると• こんな感じでしょうかRaw logbucketHiveMetastoreAirflowETLClusterParquetbucketAthenaRedashetc…Job
でも、、• Metastoreが別のため、別途DDL操作が必要Raw logbucketHiveMetastoreAirflowETLClusterParquetbucketAthenaRedashetc…Job何かAddPartitionetc…Metastore(Hive Compatible)既存資産を活⽤したい!
外部Metastoreの参照͝ݕ౼͓ئ͍͠·͢ʂʢػೳཁʣ
そういえばもうひとつ気になるものがありました
AWS Glue• Fully Managed ETL Service– Data Catalog• RDS/S3/Redshiftを統合• JSON、CSV、Parquetなど、各種フォーマットに対応– Job Authoring– Job Execution• 近⽇公開
ん…?これは…?ここから先は妄想です(だったらいいなシリーズ)
妄想)こんな感じでできたりしないかな…?• ETLジョブの実⾏・管理を全てGlueで– ジョブ管理をフルマネージドで• AthenaのMetastoreをGlueのData Catalogで– 資料にはAthena書いてませんが…サポートしてください!Raw logbucketGlue ParquetbucketAthenaRedashetc…GlueData Catalog
AWS GlueのAthena Support͝ݕ౼͓ئ͍͠·͢ʂʢػೳཁʣ
AWS Glue͓͖ͯ͞ɺ(MVFʹظ͍ͯ͠·͢ʂૣ͘ެ։͍ͯͩ͘͠͞ʂ
終わりに• ご清聴ありがとうございました