Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「AWS 上で始めるモダンデータアアーキテクチャと データ活用に向けたアプローチ」

「AWS 上で始めるモダンデータアアーキテクチャと データ活用に向けたアプローチ」

2023年3月15日に行われた BigData-JAWS 勉強会 #23 の登壇資料です。

Takaya Nakanishi

March 15, 2023
Tweet

More Decks by Takaya Nakanishi

Other Decks in Technology

Transcript

  1. © 2023/3/16 Knowledge Communication Co., Ltd. AWS 上で始める モダンデータアアーキテクチャと データ活用に向けたアプローチ

    2023.3.15. BigData-JAWS 勉強会 #23 ナレッジコミュニケーション 中西 データ分析を加速させる!
  2. © 2023/3/16 Knowledge Communication Co., Ltd. 3 わたしのこと 自己紹介 氏名

    : 中西 貴哉 (なかにし たかや) 所属 : ナレッジコミュニケーション ビジネスデベロップメント部 担当 : データプロジェクトのリード、アジャイルコーチ
  3. © 2023/3/16 Knowledge Communication Co., Ltd. 会社紹介 商号 株式会社ナレッジコミュニケーション 代表

    代表取締役CEO 奥沢 明 事業内容 クラウド事業、AI/ロボット事業、ラーニング事業 資本金 900万円 設立 2008年11月13日 拠点 本社 (DIGITAL INNOVATION CENTER) 千葉県市川市相之川4-6-5 フォーリーフ南行徳2F 千葉オフィス 千葉県市川市相之川3-13-23 丸伝小川ビル3F 熊本オフィス(熊本Lab.) 熊本県熊本市中央区桜町2−17 第2甲斐田ビル7階 Webサイト https://www.knowledgecommunication.jp 業務風景 オフィス風景
  4. © 2023/3/16 Knowledge Communication Co., Ltd. 会社紹介 Data & AI

    に特化した APN パートナーです。
  5. © 2023/3/16 Knowledge Communication Co., Ltd. 9 アジェンダ 1. どうしてデータ活用が難しいか?

    2. アーキテクチャで考えるデータ活用 3. どうアプローチをしていけばいいか
  6. © 2023/3/16 Knowledge Communication Co., Ltd. 13 アクセンチュア調査 : 77%の日本企業が、人工知能をビジネス全体で活用しなければ著しい業績低下の可能性があると認識

    URL : https://www.accenture.com/jp-ja/company-news-releases-20191219-2 AIの利用規模を拡大しないと 成長目標が達成できないと感じる AIの規模を拡大しないと 5年以内に倒産するリスクがある PoC(実証実験)を行ったが ビジネス領域での導入に苦労している 80% 75% 76% どうしてデータ活用が難しいか? 日本企業の経営幹部におけるAI・データ分析への関心
  7. © 2023/3/16 Knowledge Communication Co., Ltd. 14 どうしてデータ活用が難しいか? ビジネス 人

    データ アプリ テクノロジー データはビジネスと既存システム両面の視点が必要 エンタープライズアーキテクチャモデル Technology Architecture Application Architecture Data Architecture Business Architecture 人・物・価値・情報 データ 機能・情報システム 技術
  8. © 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 データに関わる人の関心事項は「 データウェアハウス 」

    (出典)fetaro さん資料 : BigQuery と Snowflake を徹底比較 - Speaker Deck より 26.6% Amazon Redshift 16.9% 44.2% G 社のやつ 9.7%
  9. © 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 ML code データ収集

    データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 メタデータ管理 リソース マネジメント Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 データを活用するために必要なエンジニアリング
  10. © 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 ML code データ収集

    データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 メタデータ管理 リソース マネジメント Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 クラウド DWH はいろいろと解決してくれるけど全てではない
  11. © 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 ML code データ収集

    データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 メタデータ管理 リソース マネジメント Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 「分析」そのものは全体の 5% 程度しかない
  12. © 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 導入前の課題 導入後の効果 ⚫

    データ分析系サービスの導入知見がない。 ⚫ AWS のマネージドサービスをフル活用したい。 ⚫ 分析チームの立ち上げを行いたい。 ⚫ マネージドサービスを活用し運用コストを最適化。 ⚫ Amazon Redshift , SageMaker を活用した環境構築。 ⚫ PaaS サービスを活用した内製での分析組織立ち上げ。 AWS事例ページ : https://aws.amazon.com/jp/solutions/case-studies/booklista-knowledgecommunication/ この課題にチャレンジしているお客様 : ブックリスタ様
  13. © 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 データパイプライン バッチ取込 分析用

    データ マート データカタログ リアルタイム 取込 静的 レポート 機械学習 動的 レポート データ 加工処理 レイク ハウス ストリーム 処理 RDB ファイル ストリーム モダンデータアーキテクチャに求められる技術要素
  14. © 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 Amazon QuickSight Amazon

    SageMaker RDB ファイル ストリーム Amazon EMR AWS Data Pipeline Amazon QuickSight Amazon Redshift Amazon S3 AWS Glue Kinesis AWS Glue Data catalog AWS IoT Core Amazon Athena AWS Batch Amazon Redshift AWS の各種サービスを配置する (ざっくり)
  15. © 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか データ分析業務の内製開発支援 導入前の課題 導入後の効果

    ⚫ データ分析人材が自社におらず分析活動ができない。 ⚫ 複雑なアーキテクチャの実装は自社リソースで難しい。 ⚫ 現状あるリソースのみで成果を出す必要がある。 ⚫ トレーニングによる2ヶ月でセンサーデータの分析を実現。 ⚫ クラウドネイティブなシンプルな構成で自社運用。 ⚫ 新人メンバーが DX チームの取組を推進。 IMG AWS を中心とした分析業務を 自社リソースで内製化
  16. © 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか Amazon QuickSight Amazon

    SageMaker RDB ファイル ストリーム Amazon EMR AWS Data Pipeline Amazon QuickSight Amazon Redshift Amazon S3 AWS Glue Kinesis AWS Glue Data catalog AWS IoT Core Amazon Athena AWS Batch Amazon Redshift この環境を内製で開発し運用するのは難しい場合も・・・
  17. © 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか モダンなデータアーキテクチャ データパイプライン バッチ取込

    分析用 データ マート データカタログ リアルタイム 取込 静的 レポート 機械学習 動的 レポート データ 加工処理 レイク ハウス ストリーム 処理 RDB ファイル ストリーム
  18. © 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか Delta Live Tables

    Event Streaming Unity Catalog Ingest tool notebook RDB ファイル ストリーム Databricks SQL Serverless SQL Photon Auto Loader Databricks が網羅する機能
  19. © 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか Delta Live Tables

    Event Streaming Unity Catalog Ingest tool 静的 レポート 機械学習 動的 レポート RDB ファイル ストリーム Databricks SQL Serverless SQL Photon Auto Loader つまり・・・ Amazon S3 Amazon EC2
  20. © 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 ML code データ収集

    データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 メタデータ管理 リソース マネジメント Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 Databricks のカバーする範囲
  21. 35 データレイクハウスカンパニー AI, ビッグデータに特化 クラウド上で提供 (AWS, Microsoft Azure, GCP) 積極的な

    オープンソース化 (月間3000万ダウンロード) 米国本社: Databricks Inc. 設立: 2013年設立 (日本法人は2019年設立) 所在地: アメリカ カリフォルニア州 サンフランシスコ市 社員数: 5,000 以上 拠点数: 11ヶ国 16拠点 沿革: カリフォルニア大学バークレー校から発祥 代表者: アリ・ゴディシ (共同設立者 & CEO) 主要な指標 事業戦略 ビジョナリー リーダー チャレンジャー ニッチプレイヤー 市場における評価 9,000 以上の顧客 1,000 以上のパートナー ARR(年間定額収益)は 約1300億円+ (2022年8月) シリーズHの資金調達(総計 約4,000億円)にて 約5兆円 市場価値 (2022年8月) トヨタ自動車 武田薬品工業 コマツ ソフトバンク 国立がんセンター 沖縄銀行 Supership GeoDesic Japan Digital Design(MUFG) 日経新聞 MTI リテールAI研究会 FWD富士生命保険 SEGA 田辺三菱製薬 日立造船 日系公表ユーザー(イベント登壇含む、敬称略) Cloud 100 2021 2位 ガートナー社 MQレポート ・2021年 データサイエンス & 機械学習 ・2021年 クラウドデータベース管理システム 両部門でリーダーを獲得した唯一のクラウドベンダー
  22. 38 Databricks SQL : SQL検索やダッシュボード利用を簡易に Databricks Notebook & AutoML :

    SQL/PythonベースのプログラミングからAutoMLまで Databricks Delta Live Table : データパイプライン、データ品質管理 Databricks Unity Catalog : データ辞書、データリネージ Data + AI 民主化を加速 させる新機能
  23. © 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 Databricks の利用開始までのプロセス 購入の意思決定

    Order Form Private Offer の作成 お客様による購入 ご請求 Private Offer 契約までの流れ お客様とDatabricksで 価格、支払い条件、 契約期間を合意 お客様とDatabricksで Order Formを締結 Databricksがお客 様にPrivate Offer のリンクを送付 します お客様はAWS Marketplaceにログイ ンし、“Create Contract”をクリック 。 この後すぐに Databricksにアクセス 可能です AWSよりお客様に請 求。AWSの支払い条 件が適用されます Private Offerの内 容はお客様のア カウントからの みご確認いただ けます
  24. © 2023/3/16 Knowledge Communication Co., Ltd. 45 今日お話したこと 1. ビジネスとシステムの間には「データ」

    2. 溜めるだけでは活用へ進まない 3. 始めるためのサービスがあります!
  25. © 2023/3/16 Knowledge Communication Co., Ltd. まとめ ぜひチャレンジしてみましょう / 的なことを書く

    データの領域はまだまだ未開拓 一緒にチャレンジしていきましょう!
  26. © 2023/3/16 Knowledge Communication Co., Ltd. 終わり ▪ナレコムAWSレシピ https://recipe.kc-cloud.jp/ ▪Databricks導入支援

    特設ページ https://www.knowledgecommunication.jp/product/databricks.html ▪AWS での分析:モダンデータアーキテクチャ https://aws.amazon.com/jp/big-data/datalakes-and-analytics/modern-data-architecture/ ▪Databricks:ソリューションアクセラレータ https://www.databricks.com/jp/solutions/accelerators/survivorship-and-churn 関連情報