Save 37% off PRO during our Black Friday Sale! »

BIツールとETL

 BIツールとETL

talend
Alteryx
Fivetran
Xplenty
Cdata sync
BQ DataTransferService
Denodo
BigQuery
trocco
dataspider
DMX

1896b034326abb4bc429d6718dc6a42e?s=128

ShoMaekawa/ウィル

February 26, 2021
Tweet

Transcript

  1. BIツール研究所 BIツールと ETL

  2. はじめに この内容はYouTubeにアーカイブがあります。 お仕事中のBGMとしてお楽しみください。 検索ワード「BIツール研究所」

  3. 株式会社truestar - コンサルタント 社内ブログでBIのTipsや海外コミュニティの事とか書いてます。 Name : 大滝 幸(Ko Otaki) @KohOhtaki

    https://www.facebook.com/koh.ootaki/
  4. オープンエイト-データアナリスト ex.ヤフー株式会社 BIツール研究所というコミュニティをやっています。 ETLツールはtrocco初心者ユーザー。 Name : 前側 将(Maekawa Sho) @willanalysts

    https://www.facebook.com/sho.maekawa1
  5. 株式会社エウレカ - データアナリスト BIツール研究所というコミュニティをお手伝いしています。 某BIツール、ETLツールのPdMやっていました。 8th Tableau Data Saber Name

    : 荒木 和也(Kazuya Araki) @kazuya_araki_jp https://www.facebook.com/kazuya.araki.tokyo https://note.com/jedi_trickstar
  6. Yusuke Nishizawa 2009 2016 2020 インフラエンジニア PjM データアナリスト 事業企画・マーケ モビリティデータ

    コンサルタント 日報自動化 交通事故削減 車両削減 デューデリジェンス @zwt1n https://www.facebook.com/yusuke.nishizawa.73 〜Master of Data Saber〜
  7. BIツール研究所 Mission  BIツールの情報をオープンにし、誰もが意思決定 に繋げられるように支援する 「なんとくBIツールが導入されているけど活用できない。グラフのレポートをたくさん作ったけ ど何も意思決定に反映されていない」。主宰者のウィルは数多くの企業のBIツール導入支援やBI エンジニアの友人と関わる中でこの問題を解決したいと思いコミュニティを立ち上げました。各 ツールの情報をオープンにすることで誰もが適切なツールを導入できるようにする。単純に機能 を比較するだけではなくて、どんな組織に合うのか、実務で通用するスキルは何なのか、さらに 踏み込んだ議論をコミュニティ内で実施していきたいと考えてます。

  8. BIツール研究所 Value  BIツールの一歩先の活用方法を提案します。 みなさんの会社の文化や人的リソースを意識した上でおすすめのツールを提案します。さらに、 各ツールがどのように進化して行くか、また長期的に運用していく上で必要なことは何かなど一 歩先を見据えた提案を心がけます。

  9. BIツール研究所 #bilabo 発表したい人、雑談したい人、情報集めたい人 ぜひご参加ください! Twiiter YouTube LINE オープンチャット

  10. 今日のゴール ・ETLツールの特徴とBIにおける必要性を理解しよう #Bilabo Twitterで検索してみてね!

  11. 目次 1.ETLとBI 登壇者がBIを起点としたETLの必要性を語ります。各社のデータ基盤の構成図からどのような ETLツールを 利用しているかをご紹介します。 2.ETLツールの整理 おすすめのETLツールをご紹介します。 3.それETLツールでできます! 参加者のみなさまから質問を頂き、その悩み解決できるか登壇者の方が回答します!

  12. ETLとBI

  13. ETLとは ETLは、「Extract (抽出)」「Transform (変換、加工)」「Load (ロード)」の略語

  14. BIツール利用時のデータ全体像

  15. ETLとBI テーブルも一つだけ。 ただTableauに引っ張ってくるだけだから何も意識する必要がない? 顧客ごと商品別購買回数をTableauでみたい DB(ECの購買履歴テーブル) BI

  16. ETLとBI SELECT "USERID","PUR-CODE",COUNT(*) 
 FROM "SALESLIST" 
 GROUP BY "USERID","PUR-CODE"

    
 DB側でもBI側でもデータ加工できてしまう。 DB(ECの購買履歴テーブルのみ) BI SELECT "USERID","PUR-CODE",COUNT(*) 
 FROM "SALESLIST" 
 GROUP BY "USERID","PUR-CODE" 
 アドホックに自分の中で調査するくらいだったら気にしなくて良い。
  17. ETLとBI 経営層や他部署に報告する時などはデータが正しいかチェックが必要。 DB(ECの購買履歴テーブルのみ) BI 商品別購買回数の定義が DBとBIでたくさん書かれていると確認に時間がか かる Tableau Prep 手元加工

  18. ETLとBI ある程度役割を決めるのが全社利用では必要。 DB(ECの購買履歴テーブルのみ) BI 商品別購買回数のような汎用的なデータ加工は「データマート化」したい。だ からBQ側で処理して、Tableauで渡す。 SaaSの時代ビジネスで扱うデータソースが倍々で増えていくので、きちんと 向き合わないとすぐにカオス化する。 個人調査用

  19. ETLの現実 アドホック属人的と全社標準のETLの二系統走る データ設計 加工 アドホック 整ったらそれ使うし整ってなかったら アドホック:Tableau Prep, Talend 加工: データ設計:Apache Airflowとか

  20. ETLツールのメリット 1.開発工数の削減 2.開発品質の向上 3.メンテナンス性の向上

  21. レポーティング windows仮想環境 プロダクト基盤 ビジネスツール ETL1 データ転送 ETL3 SQLアドホック DWH マート

    ETL2 SQLデータ加工 SQLでアドホック変換処理 ETL4 SQLアドホック
  22. レポーティング データ基盤 フィルターを絞り込むだけ ビジネスツール ETL1 データ転送 ETL3 SQLアドホック DWH マート

    接続先数の関係で第 2フェーズ ETL2 SQLデータ加工 プロダクト基盤
  23. Data Lake Data Source Data Mart Persistant Derived TBL Explores

    PDT Build Views ETL1 ETL2 Dashboards Dashboards Looks Tableau Prep
  24. 「簡単にできるが、秩序も担保できる」こと Data Lake, Data Warehouse, Data Mart: Google BigQuery ETL:

    Apache Airflowでワークフローの管理(実体はPythonとSQL) Analystのスループットを継続的に最大化させるデータ基盤の運用思想
  25. ETLツールの客観的な整理

  26. ガートナーの評価 ガートナー2020年の調査より

  27. ETLツール選定軸 選定軸 コメント データコネクターの種類 ・マストで使うツールが対応しているか ・将来の拡張性(追加スピード・日本対応) 操作感(UI・機能) シンプルでわかりやすいか コピペやページ推移のしやすさ アドホック向き・データ移行向き

    コーディングできるか バグの多さ・対応 ・コネクターはあるけど設定が難しい ・バグや制約が多くて使えない ・バグへの対応の速さ サポート・トレーニング ・質問を日本語でできるか ・オンボーディングやリモートハンズオンがあるか(無償・有償) 値段 価格体型(コネクター数・データ量 ユーザー数 etc)どれが自社に合うか エンジニアで対応するときの比較するのが一つの目安
  28. アドホック系 2006年フランスで創業の老舗メーカー。 複数のソリューションを展開しているが、代表的なものはTalend for Data Integration。 Talend Open Studioは無料で利用可能であり、特に海外ユーザーの利活用が活発。 データコネクター

    操作感 バグの多さ 対応 サポート トレーニング 値段 主要なデータベース、Data Warehouseは網 羅。 API連携可能。 GUIベース (Open Studioは クライアントアプリ ケーション) EclipseライクなUI なので、非エンジ ニア層のUXは悪 い。 月次リリースで安定している。 メジャーアップデートのサイクル は不明。 Customer Supportあり。 日本国内は代理店販売業者がト レーニングを担っていることが多 い。 Communityはあるが、日本語は 少なめ。 公式サイト ソリューションにもよるが、 Open Studio: 無料 他: SaaS($100 USD - ASK)
  29. アドホック系 2018年リリース。 当初はTableau Desktopと同じくクライアントアプリケーション型のみだったが、のちにTableau Prep Builder(クライアントアプリケーション)、Tableau Prep Conductor(Webアドオン)に展開。 データコネクター 操作感

    バグの多さ 対応 サポート トレーニング 値段 公式サイト 主要なデータベース、Data Warehouseは網 羅。 API連携不可(Salesforceなど、一部のソリュー ションには対応)。 GUIベース (Prep Builderは クライアントアプリ ケーション、Prep Conductorは Webアプリケー ション) UIは直感的で理 解しやすく、途中 経過も可視化して くれる。 基本は四半期に1回のメジャー アップデート。 Hotfixも迅速で、メジャーアップ デート直後のバグは即対応して いる印象。 Customer Supportあり。 トレーニングはTableau Desktop ほど充実してはいないが一通り 揃っている。 認定資格あり。 公式サイト Prep Builderのみであれば、 Creatorライセンス内で利用可能 (102000円/user, annual)。 Prep Conductorは別途Tableau Data Management Add-onが必 要(8000円*/user, annual)。 * ライセンス関係なく全ユーザー に対して必要
  30. アドホック系 1997年設立の米国企業。コンサル会社や金融製薬業界、IT代理店の方などがよく使っている印象。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 空間データなど分析のためのデータコネクター

    がある GUIのフロー形式 データの出力や 機械学習(アドオ ン)など多様なア クションがある あまり聞かない。 公式のトレーニングやコミュニ ティが充実。 ユーザー数に応じて課金する 65万/人
  31. primenumberという日本企業のSaaS統合ソリューション。 メルカリ、サイバーエージェント、YappliなどのITベンチャーでも導入している。 Embulkで自前でデータ統合していた部分の開発品質をあげるために導入するケースも多い。 データ基盤におけるtrocco+BigQueryは王道の組み合わせ。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング

    値段 よく使うコネクターは揃っている。 LINE広告やKintoneなどの日本製品のコネク ターも豊富 海外コネクターはfivetranと比べると少ない GUIベース Slackサポート ハンズオンを柔軟に対応頂ける 予算はあるけど忙しい大企業に もおすすめ ざっくりと言うと「データ接続の種 類とデータ転送量」でプランが分 かれる。 接続するデータが少なくデータ量 も少ないなら、かなりクイックに 実装できる データ転送系
  32. データ転送系 2012年設立の企業。データパイプライン自動化ツール。ELTを得意とする。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 海外アプリに強い。Shopify

    etc シンプルで設定が 簡単。 ロード中心で細か い加工はしない人 むけ。 不明 不明 ざっくりと月次のデータ容量で金 額が決まる。 担当曰く、 $12K〜$30K程度
  33. データ転送系 2011年設立のアメリカの企業。hadoopベース(パラレル処理)。Salesforce データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 よく使うコネクターは揃っている。

    kintoneなどの日本製品のコネクターも一応は ある。 GUIベースでUI素 敵 フローをコピペし たり柔軟性も高い 書き込み前と書き 込み後の両方で SQLを書ける。 不明 無料でリアルタイムサポートがあ る。日本語 年間ライセンス(処理回数/時間)
  34. データ転送系 オンプレミス型のETLツールで、コストが非常に安い 0円から始められる コネクターが豊富 データコネクター 操作感 バグの多さ 対応 サポート トレーニング

    値段 よく使うコネクターは揃っている。 GUIベース 大量データの連携処理に関して は落ちることがあるので、サー バーマネジメント含めチューニン グが必要 メールベースのサポート 一般的なサポートレベル Starter ¥ 0 Standard ¥ 35万/年 Professional ¥ 70万/年 Enterprise 個別見積もり
  35. BQ DataTransferService
 データ転送系 S3⇢BQの単純連携ならこれ一択。 Googleサービスとのコネクターがメイン。 データコネクター 操作感 バグの多さ 対応 サポート

    トレーニング 値段 Google系 - Google Ads - Analytics 360 - youtube channel - GCS その他 - Amazon S3 - Amazon Redshift(migration) GUIベース ??? Slackサポート ハンズオンを柔軟に対応頂ける 予算はあるけど忙しい大企業に もおすすめ 無料! 最大ファイルサイズ: ファイル形式 圧縮 非圧縮 CSV 4 GB 5 TB JSON 4 GB 5 TB 読み込みジョブ 1 件あたりの最大サイズ - CSV、 JSON、Avro、Parquet、ORC のすべての入力 ファイル全体で 15 TB
  36. 番外編:Denodo(気になる) ガートナー2021ピアインサイトをインフォマティカと並び受賞 引用:Denodo公式HPより データ仮想化は、データを連携するための最新の手法です。データ仮想化は、データをレプリケーションする ETLソリューションとは異なり、データをソース・システムから取り出すことなく、すべてのデータを連携しユー ザーへ提示します。ビジネス・ユーザーがレポートにある項目をドリル・ダウンすると、データ仮想化がリアル タイムで基盤のソース・システムからデータを取得し表示します。データ仮想化は、データを収集・保存する のではなく、その都度アクセスできるようにする方がより優れている方法であることを示しています。

  37. それETLツールでできます!

  38. 告知1 次回イベント

  39. 告知2 Youtube ラジオ アンケートで頂いたお悩みやベストプラクティスについて収録して配信します。

  40. おわり みなさんのデータ可視化力で事業の意思決定を加速させていきましょう! BIツール研究所のフォローよろしくお願いします! ・研究所のメンバーが壁打ちしたり副業で参加できるメンバーもいます。 #BIlabo 感想やご要望お待ちしております。