Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「AWS 上で始めるモダンデータアアーキテクチャと データ活用に向けたアプローチ」

「AWS 上で始めるモダンデータアアーキテクチャと データ活用に向けたアプローチ」

2023年3月15日に行われた BigData-JAWS 勉強会 #23 の登壇資料です。

Takaya Nakanishi

March 15, 2023
Tweet

More Decks by Takaya Nakanishi

Other Decks in Technology

Transcript

  1. © 2023/3/16
    Knowledge Communication Co., Ltd.
    AWS 上で始める
    モダンデータアアーキテクチャと
    データ活用に向けたアプローチ
    2023.3.15. BigData-JAWS 勉強会 #23
    ナレッジコミュニケーション 中西
    データ分析を加速させる!

    View Slide

  2. © 2023/3/16
    Knowledge Communication Co., Ltd.
    AWS上でデータ活用を
    どのように始めるか?

    View Slide

  3. © 2023/3/16
    Knowledge Communication Co., Ltd. 3
    わたしのこと
    自己紹介
    氏名 : 中西 貴哉 (なかにし たかや)
    所属 : ナレッジコミュニケーション ビジネスデベロップメント部
    担当 : データプロジェクトのリード、アジャイルコーチ

    View Slide

  4. © 2023/3/16
    Knowledge Communication Co., Ltd.
    会社紹介
    商号 株式会社ナレッジコミュニケーション
    代表 代表取締役CEO 奥沢 明
    事業内容 クラウド事業、AI/ロボット事業、ラーニング事業
    資本金 900万円
    設立 2008年11月13日
    拠点
    本社 (DIGITAL INNOVATION CENTER)
    千葉県市川市相之川4-6-5 フォーリーフ南行徳2F
    千葉オフィス
    千葉県市川市相之川3-13-23 丸伝小川ビル3F
    熊本オフィス(熊本Lab.)
    熊本県熊本市中央区桜町2−17 第2甲斐田ビル7階
    Webサイト https://www.knowledgecommunication.jp
    業務風景
    オフィス風景

    View Slide

  5. © 2023/3/16
    Knowledge Communication Co., Ltd.
    会社紹介
    Data & AI に特化した APN パートナーです。

    View Slide

  6. © 2023/3/16
    Knowledge Communication Co., Ltd.
    会社紹介
    電通デジタル様のデータ分析基盤を AWS でご支援

    View Slide

  7. © 2023/3/16
    Knowledge Communication Co., Ltd.
    本日のアジェンダ

    View Slide

  8. © 2023/3/16
    Knowledge Communication Co., Ltd.
    システム
    データ基盤を
    取り巻く課題
    考えるべきテーマ
    ビジネス
    システム 人

    View Slide

  9. © 2023/3/16
    Knowledge Communication Co., Ltd. 9
    アジェンダ
    1. どうしてデータ活用が難しいか?
    2. アーキテクチャで考えるデータ活用
    3. どうアプローチをしていけばいいか

    View Slide

  10. © 2023/3/16
    Knowledge Communication Co., Ltd.
    どうしてデータ活用が難しいか?

    View Slide

  11. © 2023/3/16
    Knowledge Communication Co., Ltd.
    20%
    日本国内の企業における
    データを利用したサービス・製品開発
    (出典)総務省(2020)「データの流通環境等に関する消費者の意識に関する調査研究」より

    View Slide

  12. © 2023/3/16
    Knowledge Communication Co., Ltd. 12
    どうしてデータ活用が難しいか?
    データ収集・蓄積・処理の導入も 30% 以下

    View Slide

  13. © 2023/3/16
    Knowledge Communication Co., Ltd. 13
    アクセンチュア調査 : 77%の日本企業が、人工知能をビジネス全体で活用しなければ著しい業績低下の可能性があると認識
    URL : https://www.accenture.com/jp-ja/company-news-releases-20191219-2
    AIの利用規模を拡大しないと
    成長目標が達成できないと感じる
    AIの規模を拡大しないと
    5年以内に倒産するリスクがある
    PoC(実証実験)を行ったが
    ビジネス領域での導入に苦労している
    80% 75% 76%
    どうしてデータ活用が難しいか?
    日本企業の経営幹部におけるAI・データ分析への関心

    View Slide

  14. © 2023/3/16
    Knowledge Communication Co., Ltd. 14
    どうしてデータ活用が難しいか?
    ビジネス 人
    データ
    アプリ
    テクノロジー
    データはビジネスと既存システム両面の視点が必要
    エンタープライズアーキテクチャモデル
    Technology
    Architecture
    Application
    Architecture
    Data
    Architecture
    Business
    Architecture
    人・物・価値・情報
    データ
    機能・情報システム
    技術

    View Slide

  15. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用

    View Slide

  16. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    データに関わる人の関心事項は「 データウェアハウス 」
    (出典)fetaro さん資料 : BigQuery と Snowflake を徹底比較 - Speaker Deck より
    26.6%
    Amazon Redshift
    16.9%
    44.2%
    G 社のやつ
    9.7%

    View Slide

  17. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    ML
    code
    データ収集
    データ検証
    環境構築
    自動化 特徴量エンジニアリング
    テストと
    デバッグ
    モデル評価
    プロセス設計
    モデル提供
    インフラ構築
    メタデータ管理
    リソース
    マネジメント
    Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成
    データを活用するために必要なエンジニアリング

    View Slide

  18. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    ML
    code
    データ収集
    データ検証
    環境構築
    自動化 特徴量エンジニアリング
    テストと
    デバッグ
    モデル評価
    プロセス設計
    モデル提供
    インフラ構築
    メタデータ管理
    リソース
    マネジメント
    Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成
    クラウド DWH はいろいろと解決してくれるけど全てではない

    View Slide

  19. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    ML
    code
    データ収集
    データ検証
    環境構築
    自動化 特徴量エンジニアリング
    テストと
    デバッグ
    モデル評価
    プロセス設計
    モデル提供
    インフラ構築
    メタデータ管理
    リソース
    マネジメント
    Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成
    「分析」そのものは全体の 5% 程度しかない

    View Slide

  20. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    導入前の課題 導入後の効果
    ⚫ データ分析系サービスの導入知見がない。
    ⚫ AWS のマネージドサービスをフル活用したい。
    ⚫ 分析チームの立ち上げを行いたい。
    ⚫ マネージドサービスを活用し運用コストを最適化。
    ⚫ Amazon Redshift , SageMaker を活用した環境構築。
    ⚫ PaaS サービスを活用した内製での分析組織立ち上げ。
    AWS事例ページ : https://aws.amazon.com/jp/solutions/case-studies/booklista-knowledgecommunication/
    この課題にチャレンジしているお客様 : ブックリスタ様

    View Slide

  21. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    データパイプライン
    バッチ取込
    分析用
    データ
    マート
    データカタログ
    リアルタイム
    取込
    静的
    レポート
    機械学習
    動的
    レポート
    データ
    加工処理
    レイク
    ハウス
    ストリーム
    処理
    RDB
    ファイル
    ストリーム
    モダンデータアーキテクチャに求められる技術要素

    View Slide

  22. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    Amazon
    QuickSight
    Amazon
    SageMaker
    RDB
    ファイル
    ストリーム
    Amazon EMR
    AWS Data Pipeline
    Amazon
    QuickSight
    Amazon
    Redshift
    Amazon S3
    AWS Glue
    Kinesis
    AWS Glue Data catalog
    AWS
    IoT Core
    Amazon
    Athena
    AWS Batch
    Amazon
    Redshift
    AWS の各種サービスを配置する (ざっくり)

    View Slide

  23. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    サービスと提供機能の組み合わせで乗り越える

    View Slide

  24. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    AWS は監視機能が便利です

    View Slide

  25. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    ML Ops のためのデータアーキテクチャ

    View Slide

  26. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    •AWS のピタゴラスイッチは大変そう
    •これが出来るヒトはウチにはいない
    •自分たちにはまだ早いと感じる・・・
    おそらく多くの方が思うこと

    View Slide

  27. © 2023/3/16
    Knowledge Communication Co., Ltd.
    どうアプローチをしていけばいいか
    27

    View Slide

  28. © 2023/3/16
    Knowledge Communication Co., Ltd.
    どうアプローチをしていけばいいか
    データ分析業務の内製開発支援
    導入前の課題 導入後の効果
    ⚫ データ分析人材が自社におらず分析活動ができない。
    ⚫ 複雑なアーキテクチャの実装は自社リソースで難しい。
    ⚫ 現状あるリソースのみで成果を出す必要がある。
    ⚫ トレーニングによる2ヶ月でセンサーデータの分析を実現。
    ⚫ クラウドネイティブなシンプルな構成で自社運用。
    ⚫ 新人メンバーが DX チームの取組を推進。
    IMG
    AWS を中心とした分析業務を
    自社リソースで内製化

    View Slide

  29. © 2023/3/16
    Knowledge Communication Co., Ltd.
    どうアプローチをしていけばいいか
    Amazon
    QuickSight
    Amazon
    SageMaker
    RDB
    ファイル
    ストリーム
    Amazon EMR
    AWS Data Pipeline
    Amazon
    QuickSight
    Amazon
    Redshift
    Amazon S3
    AWS Glue
    Kinesis
    AWS Glue Data catalog
    AWS
    IoT Core
    Amazon
    Athena
    AWS Batch
    Amazon
    Redshift
    この環境を内製で開発し運用するのは難しい場合も・・・

    View Slide

  30. © 2023/3/16
    Knowledge Communication Co., Ltd.
    AWSコンポーネント上で稼働するデータ分析プラットフォーム
    (EC2, VPC, S3 etc.)

    View Slide

  31. © 2023/3/16
    Knowledge Communication Co., Ltd.
    どうアプローチをしていけばいいか
    モダンなデータアーキテクチャ
    データパイプライン
    バッチ取込
    分析用
    データ
    マート
    データカタログ
    リアルタイム
    取込
    静的
    レポート
    機械学習
    動的
    レポート
    データ
    加工処理
    レイク
    ハウス
    ストリーム
    処理
    RDB
    ファイル
    ストリーム

    View Slide

  32. © 2023/3/16
    Knowledge Communication Co., Ltd.
    どうアプローチをしていけばいいか
    Delta Live Tables
    Event
    Streaming
    Unity Catalog
    Ingest tool
    notebook
    RDB
    ファイル
    ストリーム
    Databricks SQL
    Serverless SQL
    Photon
    Auto Loader
    Databricks が網羅する機能

    View Slide

  33. © 2023/3/16
    Knowledge Communication Co., Ltd.
    どうアプローチをしていけばいいか
    Delta Live Tables
    Event
    Streaming
    Unity Catalog
    Ingest tool
    静的
    レポート
    機械学習
    動的
    レポート
    RDB
    ファイル
    ストリーム
    Databricks SQL
    Serverless SQL
    Photon
    Auto Loader
    つまり・・・
    Amazon S3 Amazon EC2

    View Slide

  34. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    ML
    code
    データ収集
    データ検証
    環境構築
    自動化 特徴量エンジニアリング
    テストと
    デバッグ
    モデル評価
    プロセス設計
    モデル提供
    インフラ構築
    メタデータ管理
    リソース
    マネジメント
    Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成
    Databricks のカバーする範囲

    View Slide

  35. 35
    データレイクハウスカンパニー
    AI, ビッグデータに特化
    クラウド上で提供
    (AWS, Microsoft Azure, GCP)
    積極的な
    オープンソース化
    (月間3000万ダウンロード)
    米国本社: Databricks Inc.
    設立: 2013年設立 (日本法人は2019年設立)
    所在地: アメリカ カリフォルニア州 サンフランシスコ市
    社員数: 5,000 以上
    拠点数: 11ヶ国 16拠点
    沿革: カリフォルニア大学バークレー校から発祥
    代表者: アリ・ゴディシ (共同設立者 & CEO)
    主要な指標 事業戦略
    ビジョナリー
    リーダー
    チャレンジャー
    ニッチプレイヤー
    市場における評価
    9,000
    以上の顧客
    1,000
    以上のパートナー
    ARR(年間定額収益)は
    約1300億円+
    (2022年8月)
    シリーズHの資金調達(総計
    約4,000億円)にて
    約5兆円 市場価値
    (2022年8月)
    トヨタ自動車
    武田薬品工業
    コマツ
    ソフトバンク
    国立がんセンター
    沖縄銀行
    Supership
    GeoDesic
    Japan Digital Design(MUFG)
    日経新聞
    MTI
    リテールAI研究会
    FWD富士生命保険
    SEGA
    田辺三菱製薬
    日立造船
    日系公表ユーザー(イベント登壇含む、敬称略)
    Cloud 100 2021 2位
    ガートナー社 MQレポート
    ・2021年 データサイエンス & 機械学習
    ・2021年 クラウドデータベース管理システム
    両部門でリーダーを獲得した唯一のクラウドベンダー

    View Slide

  36. © 2023/3/16
    Knowledge Communication Co., Ltd.
    どうアプローチをしていけばいいか
    Databricks がなぜここまで伸びているか
    今まで
    基盤の組み合わせが前提
    これから
    基盤検討ではなく価値想像へ

    View Slide

  37. © 2023/3/16
    Knowledge Communication Co., Ltd.
    提供される分析のための機能
    37

    View Slide

  38. 38
    Databricks SQL :
    SQL検索やダッシュボード利用を簡易に
    Databricks Notebook & AutoML :
    SQL/PythonベースのプログラミングからAutoMLまで
    Databricks Delta Live Table :
    データパイプライン、データ品質管理
    Databricks Unity Catalog :
    データ辞書、データリネージ
    Data + AI
    民主化を加速
    させる新機能

    View Slide

  39. © 2023/3/16
    Knowledge Communication Co., Ltd.
    どうアプローチをしていけばいいか
    分析アプローチ手法が公開されているツール群の提供

    View Slide

  40. © 2023/3/16
    Knowledge Communication Co., Ltd.
    どうアプローチをしていけばいいか
    は、
    (出典)fetaro さん資料 : BigQuery と Snowflake を徹底比較 - Speaker Deck より
    2.6%

    View Slide

  41. © 2023/3/16
    Knowledge Communication Co., Ltd.
    アーキテクチャで考えるデータ活用
    Databricks の利用開始までのプロセス
    購入の意思決定 Order Form
    Private Offer
    の作成
    お客様による購入 ご請求
    Private Offer
    契約までの流れ
    お客様とDatabricksで
    価格、支払い条件、
    契約期間を合意
    お客様とDatabricksで
    Order Formを締結
    Databricksがお客
    様にPrivate Offer
    のリンクを送付
    します
    お客様はAWS
    Marketplaceにログイ
    ンし、“Create
    Contract”をクリック

    この後すぐに
    Databricksにアクセス
    可能です
    AWSよりお客様に請
    求。AWSの支払い条
    件が適用されます
    Private Offerの内
    容はお客様のア
    カウントからの
    みご確認いただ
    けます

    View Slide

  42. © 2023/3/16
    Knowledge Communication Co., Ltd.
    まとめ
    42

    View Slide

  43. © 2023/3/16
    Knowledge Communication Co., Ltd.
    AWS上でデータ活用を
    どのように始めるか?

    View Slide

  44. © 2023/3/16
    Knowledge Communication Co., Ltd.
    システム
    データ基盤を
    取り巻く課題
    考えるべきテーマ
    ビジネス
    システム 人

    View Slide

  45. © 2023/3/16
    Knowledge Communication Co., Ltd. 45
    今日お話したこと
    1. ビジネスとシステムの間には「データ」
    2. 溜めるだけでは活用へ進まない
    3. 始めるためのサービスがあります!

    View Slide

  46. © 2023/3/16
    Knowledge Communication Co., Ltd.
    まとめ
    ぜひチャレンジしてみましょう / 的なことを書く
    データの領域はまだまだ未開拓
    一緒にチャレンジしていきましょう!

    View Slide

  47. © 2023/3/16
    Knowledge Communication Co., Ltd.
    終わり
    ■ナレコムAWSレシピ
    https://recipe.kc-cloud.jp/
    ■Databricks導入支援 特設ページ
    https://www.knowledgecommunication.jp/product/databricks.html
    ■AWS での分析:モダンデータアーキテクチャ
    https://aws.amazon.com/jp/big-data/datalakes-and-analytics/modern-data-architecture/
    ■Databricks:ソリューションアクセラレータ
    https://www.databricks.com/jp/solutions/accelerators/survivorship-and-churn
    関連情報

    View Slide