$30 off During Our Annual Pro Sale. View Details »

re:Inventに行ってきました - 気になった新サービス / AWS re:Invent2016 Participants LT

koid
December 14, 2016
1.9k

re:Inventに行ってきました - 気になった新サービス / AWS re:Invent2016 Participants LT

koid

December 14, 2016
Tweet

Transcript

  1. re:Inventに⾏ってきました
    - 気になった新サービス -
    株式会社Gunosy
    ⼩出 幸典

    View Slide

  2. ⾃⼰紹介
    • 名前
    – ⼩出 幸典 (こいで ゆきのり)
    • 所属
    – 株式会社Gunosy
    • プロビジョニング・デプロイフローの共通化とか
    • 過剰リソース警察、コスト削減おじさん
    • 好きなAWSサービス
    – OpsWorks, Lambda, Trusted Advisor, 最近はKinesisファミリー

    View Slide

  3. 株式会社Gunosy – 「情報を世界中の⼈に最適に届ける」
    • Gunosyは 情報キュレーションサービス「グノシー」と
    • 2016年6⽉1⽇にKDDI株式会社と共同でリリースした
    無料ニュース配信アプリ「ニュースパス」を提供する
    • 会社です。「情報を世界中の⼈に最適に届ける」を
    ビジョンに活動しています。
    ネット上に存在するさまざまな情報を、
    独⾃のアルゴリズムで収集、評価付けを⾏い
    ユーザーに届けます。
    情報キュレーションサービス
    「グノシー」
    200媒体以上のニュースソースをベースに、
    新たに開発した情報解析・配信技術を⽤いて⾃動的に
    選定したニュースや情報をユーザーに届けます。
    無料ニュース配信アプリ
    「ニュースパス」

    View Slide

  4. 本⽇お話させていただく内容
    今回のre:Inventで個⼈的に気になった新サービス
    (を、⾃社の状況と絡めながら)

    View Slide

  5. Amazon Athena
    • S3上のデータにクエリ投げられるサービス
    – CSV, JSON, カラムナフォーマット
    – 通常のS3データ課⾦+読み込んだデータ量で課⾦
    • GZIPやカラムナフォーマットで読み込みデータ量を抑えられる
    • 既に解説スライド・記事がたくさん上がっている
    – Gunosyでも使ってみたブログ書いています
    – もういいよね

    View Slide

  6. 社内のとあるデータフロー
    • ⼀部ではありますが
    Raw log
    bucket
    Hive
    Metastore
    Airflow
    ETL
    Cluster
    Parquet
    bucket
    Analysis
    Cluster
    Redash
    etc…
    Job

    View Slide

  7. Amazon Athenaが⼊ると
    • こんな感じでしょうか
    Raw log
    bucket
    Hive
    Metastore
    Airflow
    ETL
    Cluster
    Parquet
    bucket
    Athena
    Redash
    etc…
    Job

    View Slide

  8. でも、、
    • Metastoreが別のため、別途DDL操作が必要
    Raw log
    bucket
    Hive
    Metastore
    Airflow
    ETL
    Cluster
    Parquet
    bucket
    Athena
    Redash
    etc…
    Job
    何か
    Add
    Partition
    etc…
    Metastore
    (Hive Compatible)
    既存資産を
    活⽤したい!

    View Slide

  9. 外部Metastoreの参照
    ͝ݕ౼͓ئ͍͠·͢ʂ
    ʢػೳཁ๬ʣ

    View Slide

  10. そういえば
    もうひとつ気になるものがありました

    View Slide

  11. AWS Glue
    • Fully Managed ETL Service
    – Data Catalog
    • RDS/S3/Redshiftを統合
    • JSON、CSV、Parquetなど、各種フォーマットに対応
    – Job Authoring
    – Job Execution
    • 近⽇公開

    View Slide

  12. ん…?これは…?
    ここから先は妄想です
    (だったらいいなシリーズ)

    View Slide

  13. 妄想)こんな感じでできたりしないかな…?
    • ETLジョブの実⾏・管理を全てGlueで
    – ジョブ管理をフルマネージドで
    • AthenaのMetastoreをGlueのData Catalogで
    – 資料にはAthena書いてませんが…サポートしてください!
    Raw log
    bucket
    Glue Parquet
    bucket
    Athena
    Redash
    etc…
    Glue
    Data Catalog

    View Slide

  14. AWS GlueのAthena Support
    ͝ݕ౼͓ئ͍͠·͢ʂ
    ʢػೳཁ๬ʣ

    View Slide

  15. AWS Glue
    ͓͖ͯ͞ɺ(MVFʹظ଴͍ͯ͠·͢ʂ
    ૣ͘ެ։͍ͯͩ͘͠͞ʂ

    View Slide

  16. 終わりに
    • ご清聴ありがとうございました

    View Slide