2023年3月15日に行われた BigData-JAWS 勉強会 #23 の登壇資料です。
© 2023/3/16Knowledge Communication Co., Ltd.AWS 上で始めるモダンデータアアーキテクチャとデータ活用に向けたアプローチ2023.3.15. BigData-JAWS 勉強会 #23ナレッジコミュニケーション 中西データ分析を加速させる!
View Slide
© 2023/3/16Knowledge Communication Co., Ltd.AWS上でデータ活用をどのように始めるか?
© 2023/3/16Knowledge Communication Co., Ltd. 3わたしのこと自己紹介氏名 : 中西 貴哉 (なかにし たかや)所属 : ナレッジコミュニケーション ビジネスデベロップメント部担当 : データプロジェクトのリード、アジャイルコーチ
© 2023/3/16Knowledge Communication Co., Ltd.会社紹介商号 株式会社ナレッジコミュニケーション代表 代表取締役CEO 奥沢 明事業内容 クラウド事業、AI/ロボット事業、ラーニング事業資本金 900万円設立 2008年11月13日拠点本社 (DIGITAL INNOVATION CENTER)千葉県市川市相之川4-6-5 フォーリーフ南行徳2F千葉オフィス千葉県市川市相之川3-13-23 丸伝小川ビル3F熊本オフィス(熊本Lab.)熊本県熊本市中央区桜町2−17 第2甲斐田ビル7階Webサイト https://www.knowledgecommunication.jp業務風景オフィス風景
© 2023/3/16Knowledge Communication Co., Ltd.会社紹介Data & AI に特化した APN パートナーです。
© 2023/3/16Knowledge Communication Co., Ltd.会社紹介電通デジタル様のデータ分析基盤を AWS でご支援
© 2023/3/16Knowledge Communication Co., Ltd.本日のアジェンダ
© 2023/3/16Knowledge Communication Co., Ltd.システムデータ基盤を取り巻く課題考えるべきテーマビジネスシステム 人
© 2023/3/16Knowledge Communication Co., Ltd. 9アジェンダ1. どうしてデータ活用が難しいか?2. アーキテクチャで考えるデータ活用3. どうアプローチをしていけばいいか
© 2023/3/16Knowledge Communication Co., Ltd.どうしてデータ活用が難しいか?
© 2023/3/16Knowledge Communication Co., Ltd.20%日本国内の企業におけるデータを利用したサービス・製品開発(出典)総務省(2020)「データの流通環境等に関する消費者の意識に関する調査研究」より
© 2023/3/16Knowledge Communication Co., Ltd. 12どうしてデータ活用が難しいか?データ収集・蓄積・処理の導入も 30% 以下
© 2023/3/16Knowledge Communication Co., Ltd. 13アクセンチュア調査 : 77%の日本企業が、人工知能をビジネス全体で活用しなければ著しい業績低下の可能性があると認識URL : https://www.accenture.com/jp-ja/company-news-releases-20191219-2AIの利用規模を拡大しないと成長目標が達成できないと感じるAIの規模を拡大しないと5年以内に倒産するリスクがあるPoC(実証実験)を行ったがビジネス領域での導入に苦労している80% 75% 76%どうしてデータ活用が難しいか?日本企業の経営幹部におけるAI・データ分析への関心
© 2023/3/16Knowledge Communication Co., Ltd. 14どうしてデータ活用が難しいか?ビジネス 人データアプリテクノロジーデータはビジネスと既存システム両面の視点が必要エンタープライズアーキテクチャモデルTechnologyArchitectureApplicationArchitectureDataArchitectureBusinessArchitecture人・物・価値・情報データ機能・情報システム技術
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用データに関わる人の関心事項は「 データウェアハウス 」(出典)fetaro さん資料 : BigQuery と Snowflake を徹底比較 - Speaker Deck より26.6%Amazon Redshift16.9%44.2%G 社のやつ9.7%
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用MLcodeデータ収集データ検証環境構築自動化 特徴量エンジニアリングテストとデバッグモデル評価プロセス設計モデル提供インフラ構築メタデータ管理リソースマネジメントHidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成データを活用するために必要なエンジニアリング
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用MLcodeデータ収集データ検証環境構築自動化 特徴量エンジニアリングテストとデバッグモデル評価プロセス設計モデル提供インフラ構築メタデータ管理リソースマネジメントHidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成クラウド DWH はいろいろと解決してくれるけど全てではない
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用MLcodeデータ収集データ検証環境構築自動化 特徴量エンジニアリングテストとデバッグモデル評価プロセス設計モデル提供インフラ構築メタデータ管理リソースマネジメントHidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成「分析」そのものは全体の 5% 程度しかない
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用導入前の課題 導入後の効果⚫ データ分析系サービスの導入知見がない。⚫ AWS のマネージドサービスをフル活用したい。⚫ 分析チームの立ち上げを行いたい。⚫ マネージドサービスを活用し運用コストを最適化。⚫ Amazon Redshift , SageMaker を活用した環境構築。⚫ PaaS サービスを活用した内製での分析組織立ち上げ。AWS事例ページ : https://aws.amazon.com/jp/solutions/case-studies/booklista-knowledgecommunication/この課題にチャレンジしているお客様 : ブックリスタ様
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用データパイプラインバッチ取込分析用データマートデータカタログリアルタイム取込静的レポート機械学習動的レポートデータ加工処理レイクハウスストリーム処理RDBファイルストリームモダンデータアーキテクチャに求められる技術要素
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用AmazonQuickSightAmazonSageMakerRDBファイルストリームAmazon EMRAWS Data PipelineAmazonQuickSightAmazonRedshiftAmazon S3AWS GlueKinesisAWS Glue Data catalogAWSIoT CoreAmazonAthenaAWS BatchAmazonRedshiftAWS の各種サービスを配置する (ざっくり)
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用サービスと提供機能の組み合わせで乗り越える
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用AWS は監視機能が便利です
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用ML Ops のためのデータアーキテクチャ
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用•AWS のピタゴラスイッチは大変そう•これが出来るヒトはウチにはいない•自分たちにはまだ早いと感じる・・・おそらく多くの方が思うこと
© 2023/3/16Knowledge Communication Co., Ltd.どうアプローチをしていけばいいか27
© 2023/3/16Knowledge Communication Co., Ltd.どうアプローチをしていけばいいかデータ分析業務の内製開発支援導入前の課題 導入後の効果⚫ データ分析人材が自社におらず分析活動ができない。⚫ 複雑なアーキテクチャの実装は自社リソースで難しい。⚫ 現状あるリソースのみで成果を出す必要がある。⚫ トレーニングによる2ヶ月でセンサーデータの分析を実現。⚫ クラウドネイティブなシンプルな構成で自社運用。⚫ 新人メンバーが DX チームの取組を推進。IMGAWS を中心とした分析業務を自社リソースで内製化
© 2023/3/16Knowledge Communication Co., Ltd.どうアプローチをしていけばいいかAmazonQuickSightAmazonSageMakerRDBファイルストリームAmazon EMRAWS Data PipelineAmazonQuickSightAmazonRedshiftAmazon S3AWS GlueKinesisAWS Glue Data catalogAWSIoT CoreAmazonAthenaAWS BatchAmazonRedshiftこの環境を内製で開発し運用するのは難しい場合も・・・
© 2023/3/16Knowledge Communication Co., Ltd.AWSコンポーネント上で稼働するデータ分析プラットフォーム(EC2, VPC, S3 etc.)
© 2023/3/16Knowledge Communication Co., Ltd.どうアプローチをしていけばいいかモダンなデータアーキテクチャデータパイプラインバッチ取込分析用データマートデータカタログリアルタイム取込静的レポート機械学習動的レポートデータ加工処理レイクハウスストリーム処理RDBファイルストリーム
© 2023/3/16Knowledge Communication Co., Ltd.どうアプローチをしていけばいいかDelta Live TablesEventStreamingUnity CatalogIngest toolnotebookRDBファイルストリームDatabricks SQLServerless SQLPhotonAuto LoaderDatabricks が網羅する機能
© 2023/3/16Knowledge Communication Co., Ltd.どうアプローチをしていけばいいかDelta Live TablesEventStreamingUnity CatalogIngest tool静的レポート機械学習動的レポートRDBファイルストリームDatabricks SQLServerless SQLPhotonAuto Loaderつまり・・・Amazon S3 Amazon EC2
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用MLcodeデータ収集データ検証環境構築自動化 特徴量エンジニアリングテストとデバッグモデル評価プロセス設計モデル提供インフラ構築メタデータ管理リソースマネジメントHidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成Databricks のカバーする範囲
35データレイクハウスカンパニーAI, ビッグデータに特化クラウド上で提供(AWS, Microsoft Azure, GCP)積極的なオープンソース化(月間3000万ダウンロード)米国本社: Databricks Inc.設立: 2013年設立 (日本法人は2019年設立)所在地: アメリカ カリフォルニア州 サンフランシスコ市社員数: 5,000 以上拠点数: 11ヶ国 16拠点沿革: カリフォルニア大学バークレー校から発祥代表者: アリ・ゴディシ (共同設立者 & CEO)主要な指標 事業戦略ビジョナリーリーダーチャレンジャーニッチプレイヤー市場における評価9,000以上の顧客1,000以上のパートナーARR(年間定額収益)は約1300億円+(2022年8月)シリーズHの資金調達(総計約4,000億円)にて約5兆円 市場価値(2022年8月)トヨタ自動車武田薬品工業コマツソフトバンク国立がんセンター沖縄銀行SupershipGeoDesicJapan Digital Design(MUFG)日経新聞MTIリテールAI研究会FWD富士生命保険SEGA田辺三菱製薬日立造船日系公表ユーザー(イベント登壇含む、敬称略)Cloud 100 2021 2位ガートナー社 MQレポート・2021年 データサイエンス & 機械学習・2021年 クラウドデータベース管理システム両部門でリーダーを獲得した唯一のクラウドベンダー
© 2023/3/16Knowledge Communication Co., Ltd.どうアプローチをしていけばいいかDatabricks がなぜここまで伸びているか今まで基盤の組み合わせが前提これから基盤検討ではなく価値想像へ
© 2023/3/16Knowledge Communication Co., Ltd.提供される分析のための機能37
38Databricks SQL :SQL検索やダッシュボード利用を簡易にDatabricks Notebook & AutoML :SQL/PythonベースのプログラミングからAutoMLまでDatabricks Delta Live Table :データパイプライン、データ品質管理Databricks Unity Catalog :データ辞書、データリネージData + AI民主化を加速させる新機能
© 2023/3/16Knowledge Communication Co., Ltd.どうアプローチをしていけばいいか分析アプローチ手法が公開されているツール群の提供
© 2023/3/16Knowledge Communication Co., Ltd.どうアプローチをしていけばいいかは、(出典)fetaro さん資料 : BigQuery と Snowflake を徹底比較 - Speaker Deck より2.6%
© 2023/3/16Knowledge Communication Co., Ltd.アーキテクチャで考えるデータ活用Databricks の利用開始までのプロセス購入の意思決定 Order FormPrivate Offerの作成お客様による購入 ご請求Private Offer契約までの流れお客様とDatabricksで価格、支払い条件、契約期間を合意お客様とDatabricksでOrder Formを締結Databricksがお客様にPrivate Offerのリンクを送付しますお客様はAWSMarketplaceにログインし、“CreateContract”をクリック。この後すぐにDatabricksにアクセス可能ですAWSよりお客様に請求。AWSの支払い条件が適用されますPrivate Offerの内容はお客様のアカウントからのみご確認いただけます
© 2023/3/16Knowledge Communication Co., Ltd.まとめ42
© 2023/3/16Knowledge Communication Co., Ltd. 45今日お話したこと1. ビジネスとシステムの間には「データ」2. 溜めるだけでは活用へ進まない3. 始めるためのサービスがあります!
© 2023/3/16Knowledge Communication Co., Ltd.まとめぜひチャレンジしてみましょう / 的なことを書くデータの領域はまだまだ未開拓一緒にチャレンジしていきましょう!
© 2023/3/16Knowledge Communication Co., Ltd.終わり■ナレコムAWSレシピhttps://recipe.kc-cloud.jp/■Databricks導入支援 特設ページhttps://www.knowledgecommunication.jp/product/databricks.html■AWS での分析:モダンデータアーキテクチャhttps://aws.amazon.com/jp/big-data/datalakes-and-analytics/modern-data-architecture/■Databricks:ソリューションアクセラレータhttps://www.databricks.com/jp/solutions/accelerators/survivorship-and-churn関連情報