Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CData Sync + BigQuery の”ELT” で ゴミの山状態のデータを分析利用可能に

CData Sync + BigQuery の”ELT” で ゴミの山状態のデータを分析利用可能に

クラウドエースセミナー
データ活用サイクルを学ぶ データ分析のはじめ方

CData Software Japan

November 12, 2019
Tweet

More Decks by CData Software Japan

Other Decks in Technology

Transcript

  1. © 2019 CData Software Japan, LLC | www.cdata.com/jp CData Sync

    + BigQuery の”ELT” で ゴミの山状態のデータを分析利用可能に 2019/11/12 CData Software Japan 宮本
  2. © 2019 CData Software Japan, LLC | www.cdata.com/jp 6 リソース不足

    様々なデータソースが あり、管理できない ウォーターフォール型になり、 PDCAを回せない データを活用できる 人材不足 やったけど 効果がわからない
  3. © 2019 CData Software Japan, LLC | www.cdata.com/jp 8 宝は掘らないと出てこない

    データは使えるようにしないとインサイトは出てこない 出てくる宝の価値<掘るコスト
  4. © 2019 CData Software Japan, LLC | www.cdata.com/jp 9 今日の話のポイント:

    いかに低コストで膨大なデータを活用するか? →Google BigQuery + CData Sync
  5. © 2019 CData Software Japan, LLC | www.cdata.com/jp About CData

    Software Bi-directional Access to Live App, Database, & Web API Data Through Standard Drivers ・CData Software, Inc. / Started: 1994 (/nsoftware) ・Location: Chapel Hill, NC a spin-off of /n software ・CData Japan: 2016/6 (JV with Infoteria) ・20年以上にわたりデータ関連コンポーネントを提供 ・150+ 対応データソース ・「標準化によりAPI を使いやすく」をミッションに連携ツールを提供
  6. © 2019 CData Software Japan, LLC | www.cdata.com/jp 1 Chome-6-27

    Chuo, Aoba Ward, Sendai, Miyagi Prefecture 980-0021, Japan Tel: 050-5578-7390 CData Japan 101 Europa Dr. #110 Chapel Hill, NC 27517 USA Tel: (919) 928-5214 Fax: (919) 928-5455 US Headquarters - Central & Eastern Europe - Central China Additional Development Offices Global and Japan Local Operations Worldwide Offices for Global Sales and Support
  7. © 2019 CData Software Japan, LLC | www.cdata.com/jp 業界最多級のデータソース Drivers

    for NoSQL, Big Data, & SaaS Connectivity CRMおよびマーケティング自動化 会計システム コラボレーションおよびERP オンプレミスおよびクラウドDB ドキュメントおよびファイル形式 ソーシャルネットワーキング ネットワーキングおよび認証 電子商取引 その他
  8. © 2019 CData Software Japan, LLC | www.cdata.com/jp データ連携 &

    データ仮想化ソリューション A straightforward approach to data access based on established standards 標準インターフェースの提供でAPI をRDB に仮想化。アプリケーション、BI、 ETL ツールからシームレスなクラウド連携を実現。 DRIVERS & ADAPTERS データベース接続、公開リソース選択、アクセス設定の3ステップだけで データベースから本格的なREST API とドキュメントを公開できます。 REMOTE ACCESS (API SERVER) 幅広いクラウドデータをノンコーディングでお好みのDB に同期。 DATA REPLICATION (SYNC) ✓ ODBC ✓ JDBC ✓ ADO.NET ✓ ODATA インストール不要の仮想RDB のクラウドインスタンス CDATA CLOUD HUB
  9. © 2019 CData Software Japan, LLC | www.cdata.com/jp CData Drivers

    はOEM で活躍 Embedded in the leading BI, ETL, Data Integration, Data Virtualization, and Data Warehousing tools
  10. © 2019 CData Software Japan, LLC | www.cdata.com/jp CData Drivers

    が提供する標準化とは Give schema like RDB, enable standard SQL, give enterprise level security features • JSON/XMLなどのデータを テーブル構造にマッピング • 非構造化データからスキー マを自動検出 • 標準SQLでのデータアクセ スを可能に • フルCRUDを実現 • JOIN / フィルタリングや集 計関数にも対応 • アプリ/ツールの標準対応 インターフェースとして接続 • 各種プラットフォームが提供 する高度なフレームワーク活 用が可能 • ファイアウォールやプロキシな どのネットワーク機能に標準 対応 • 各種認証・ログ管理等のエ ンタープライズレベルの要求 をすべて統一UIで提供 テーブル化 (スキーマ付与) 標準SQL クエリエンジン 標準インターフェース セキュリティ 管理機能 ODBC
  11. © 2019 CData Software Japan, LLC | www.cdata.com/jp 19 データを分析・活用するまでが長い

    データ 収集 データ 加工 データ 分析 データ 活用 「データ準備80%、データ分析20%」と言われており、データ分析前段階作業に 時間を取られている。 この部分の割合を逆転させ、分析や活用に割り当てられるようにするべき
  12. © 2019 CData Software Japan, LLC | www.cdata.com/jp 20 データ分析の問題点

    ②構造化データ<非構造化データ • 社内データ、SaaSデータ、テキストファイル、メール、画像ファイル、音声ファイル、センサー情報など ③データ分析方法の多様化 • リコメンデーション、マシンラーニング、リアルタイムデータ分析など ①データ量の増加 • 生成されるデジタルデータの年間生成量が2013年は4.4ZBであったのに対し、2020年には10 倍の44ZB(1ゼタバイト=10億テラバイト)
  13. © 2019 CData Software Japan, LLC | www.cdata.com/jp 21 ①データ量の増加

    単純に必要なマシンパワー・コストが増える
  14. © 2019 CData Software Japan, LLC | www.cdata.com/jp 22 企業データが増加

    • 世界のデータ量は2018年の33ゼタバイトから2025年に175ゼタバイトに (IDC)
  15. © 2019 CData Software Japan, LLC | www.cdata.com/jp 24 明確に定義されたデータ型で構成されている

    構造化データとは • RDBやスプレッドシート内の表などのデータ • 簡単に入力、保存、クエリ、分析できる
  16. © 2019 CData Software Japan, LLC | www.cdata.com/jp 25 •

    テキストファイル、メール、SNSデータや、 画像、音声、センサーデータなど 非(半)構造化データとは {JSON} <XML> 非構造化データ 半構造化データ データ形式がバラバラなので、データ分析を 始めるまでに多くの時間を割くことになる
  17. © 2019 CData Software Japan, LLC | www.cdata.com/jp 26 「非(半)構造化データは企業データの80%以上を占めており、

    年間55%および65%の割合で成長している」 デジタル時代のデータの大半は非構造化データ 総務省
  18. © 2019 CData Software Japan, LLC | www.cdata.com/jp そもそも 業務系のSaaS

    / API だけでも膨大 https://www.programmableweb.com/api-research
  19. © 2019 CData Software Japan, LLC | www.cdata.com/jp 29 分析・活用前に処理が必要なデータ

    • ストリーミング • 画像解析 • 言語解析 • etc. 集めたデータに定義・意味付けをして 情報にする
  20. © 2019 CData Software Japan, LLC | www.cdata.com/jp 31 ETL

    (Extract Transform Load) データ抽出:データベースからデータを収集 データ変換:抽出したデータをTargetにロードできるよう変換 データロード:変換したデータをTargetへ書き込み
  21. © 2019 CData Software Japan, LLC | www.cdata.com/jp 32 ELT

    (Extract Load Transform) データ抽出:データベースからデータを収集 データロード:抽出したデータをそのままTargetにロード データ変換:Target内でデータを変換
  22. © 2019 CData Software Japan, LLC | www.cdata.com/jp 36 データ分析における課題を解決するには

    ②構造化データ<非構造化データ →ELT はシンプルにCData Sync + データ処理はクラウドDWH で ③データ分析方法の多様化 →クラウドDWH なら使えるデータ処理ツールがたくさん ①データ量の増加 →大容量データでも低コスト、スケーラビリティのあるクラウドDWH を選択すべき
  23. © 2019 CData Software Japan, LLC | www.cdata.com/jp BigQueryを使いたい3つの理由 ①DWH

    としての価値 • スケーラブル • セルフマネージド • 大容量データで低コスト • ハイパフォーマンス ③MLの利用 • BigQueryに溜めたデータで機械学習 ②エコシステムが充実 • CData Sync などのデータローディング • 複数データソースのデータハンドリングが優秀 • 主要なBI ツールでのBigQuery 接続 BigQuery
  24. © 2019 CData Software Japan, LLC | www.cdata.com/jp 38 Big

    Query へのELT に最適なCData Sync • 100種類以上のデータソースに対応 • インストール型 • 同期先データベースも豊富 • クエリで連携データを選択することも可能 • 直感的なUIかつ日本語版あり
  25. © 2019 CData Software Japan, LLC | www.cdata.com/jp 39 BigQuery

    とCData Sync で 出てくる宝の価値>掘るコスト
  26. © 2019 CData Software Japan, LLC | www.cdata.com/jp About CData

    SyncTM Replicate Any Data Source To Any Database With A Few Clicks ✓クラウド/SaaS のデータをノンコーディングで 直観的にDB にレプリケーション(複製)できるツール
  27. © 2019 CData Software Japan, LLC | www.cdata.com/jp あらゆるデータソースからDBへデータ連携 Salesforce

    kintone Marketo Google Analytics Office 365 BigQuery SharePoint Twitter SQL Server CData Sync が各種データソースとデータベースの間をつなぎ、ノンコーディングでデータ連携を可能とします。 データ連携
  28. © 2019 CData Software Japan, LLC | www.cdata.com/jp 3ステップでデータの同期設定が完了 ①データソースを選択して、コネ

    クション設定 ②同期先DB、データストアを選 択してコネクション設定 ③同期先ジョブ(テーブル、条 件、バッチ感覚など)を設定
  29. © 2019 CData Software Japan, LLC | www.cdata.com/jp Salesforce →

    BigQuery BigQuery Salesforce にある Account オブジェクトを BigQuery に連携します データ連携 Account Account
  30. © 2019 CData Software Japan, LLC | www.cdata.com/jp CData Sync

    の多様な活用シーン And more…
  31. © 2019 CData Software Japan, LLC | www.cdata.com/jp BigQueryに集約し可視化 BigQuery

    データ連携 Data Portal Google Analytics データ参照 ダウンロード状況&問合せ Google Adsence 契約状況 広告クリック サイトアクセス
  32. © 2019 CData Software Japan, LLC | www.cdata.com/jp ダッシュボード(抜粋) 常にメンバー全員がアクセスして、

    “今“の状況を把握するようにしています サポートメンバーの残タスクも共有し、 個々人の負荷状況も可視化
  33. © 2019 CData Software Japan, LLC | www.cdata.com/jp 1 Chome-6-27

    Chuo, Aoba Ward, Sendai, Miyagi Prefecture 980-0021, Japan Tel: 050-5578-7390 CData Japan 600 Market St. #300 Chapel Hill, NC 27516 USA Tel: (919) 885-0202 Fax: (919) 928-5455 US Headquarters - United Kingdom - Central & Eastern Europe - Central China Additional Offices Contact Us Worldwide Offices for Global Sales and Support www.cdata.com