Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BIツールとETL

 BIツールとETL

talend
Alteryx
Fivetran
Xplenty
Cdata sync
BQ DataTransferService
Denodo
BigQuery
trocco
dataspider
DMX

ShoMaekawa/ウィル

February 26, 2021
Tweet

More Decks by ShoMaekawa/ウィル

Other Decks in Business

Transcript

  1. BIツール研究所
    BIツールと
    ETL

    View Slide

  2. はじめに
    この内容はYouTubeにアーカイブがあります。
    お仕事中のBGMとしてお楽しみください。
    検索ワード「BIツール研究所」

    View Slide

  3. 株式会社truestar - コンサルタント
    社内ブログでBIのTipsや海外コミュニティの事とか書いてます。
    Name :
    大滝 幸(Ko Otaki)
    @KohOhtaki
    https://www.facebook.com/koh.ootaki/

    View Slide

  4. オープンエイト-データアナリスト ex.ヤフー株式会社
    BIツール研究所というコミュニティをやっています。
    ETLツールはtrocco初心者ユーザー。
    Name :
    前側 将(Maekawa Sho)
    @willanalysts
    https://www.facebook.com/sho.maekawa1

    View Slide

  5. 株式会社エウレカ - データアナリスト
    BIツール研究所というコミュニティをお手伝いしています。
    某BIツール、ETLツールのPdMやっていました。
    8th Tableau Data Saber
    Name :
    荒木 和也(Kazuya Araki)
    @kazuya_araki_jp
    https://www.facebook.com/kazuya.araki.tokyo
    https://note.com/jedi_trickstar

    View Slide

  6. Yusuke Nishizawa
    2009
    2016
    2020
    インフラエンジニア
    PjM
    データアナリスト
    事業企画・マーケ
    モビリティデータ
    コンサルタント
    日報自動化 交通事故削減
    車両削減 デューデリジェンス
    @zwt1n
    https://www.facebook.com/yusuke.nishizawa.73
    〜Master of Data Saber〜

    View Slide

  7. BIツール研究所
    Mission
     BIツールの情報をオープンにし、誰もが意思決定
    に繋げられるように支援する
    「なんとくBIツールが導入されているけど活用できない。グラフのレポートをたくさん作ったけ
    ど何も意思決定に反映されていない」。主宰者のウィルは数多くの企業のBIツール導入支援やBI
    エンジニアの友人と関わる中でこの問題を解決したいと思いコミュニティを立ち上げました。各
    ツールの情報をオープンにすることで誰もが適切なツールを導入できるようにする。単純に機能
    を比較するだけではなくて、どんな組織に合うのか、実務で通用するスキルは何なのか、さらに
    踏み込んだ議論をコミュニティ内で実施していきたいと考えてます。

    View Slide

  8. BIツール研究所
    Value
     BIツールの一歩先の活用方法を提案します。
    みなさんの会社の文化や人的リソースを意識した上でおすすめのツールを提案します。さらに、
    各ツールがどのように進化して行くか、また長期的に運用していく上で必要なことは何かなど一
    歩先を見据えた提案を心がけます。

    View Slide

  9. BIツール研究所 #bilabo
    発表したい人、雑談したい人、情報集めたい人
    ぜひご参加ください!
    Twiiter YouTube LINE オープンチャット

    View Slide

  10. 今日のゴール
    ・ETLツールの特徴とBIにおける必要性を理解しよう
    #Bilabo Twitterで検索してみてね!

    View Slide

  11. 目次
    1.ETLとBI
    登壇者がBIを起点としたETLの必要性を語ります。各社のデータ基盤の構成図からどのような ETLツールを
    利用しているかをご紹介します。
    2.ETLツールの整理
    おすすめのETLツールをご紹介します。
    3.それETLツールでできます!
    参加者のみなさまから質問を頂き、その悩み解決できるか登壇者の方が回答します!

    View Slide

  12. ETLとBI

    View Slide

  13. ETLとは
    ETLは、「Extract (抽出)」「Transform (変換、加工)」「Load
    (ロード)」の略語

    View Slide

  14. BIツール利用時のデータ全体像

    View Slide

  15. ETLとBI
    テーブルも一つだけ。
    ただTableauに引っ張ってくるだけだから何も意識する必要がない?
    顧客ごと商品別購買回数をTableauでみたい
    DB(ECの購買履歴テーブル)
    BI

    View Slide

  16. ETLとBI
    SELECT "USERID","PUR-CODE",COUNT(*)

    FROM "SALESLIST"

    GROUP BY "USERID","PUR-CODE"

    DB側でもBI側でもデータ加工できてしまう。
    DB(ECの購買履歴テーブルのみ)
    BI
    SELECT "USERID","PUR-CODE",COUNT(*)

    FROM "SALESLIST"

    GROUP BY "USERID","PUR-CODE"

    アドホックに自分の中で調査するくらいだったら気にしなくて良い。

    View Slide

  17. ETLとBI
    経営層や他部署に報告する時などはデータが正しいかチェックが必要。
    DB(ECの購買履歴テーブルのみ)
    BI
    商品別購買回数の定義が
    DBとBIでたくさん書かれていると確認に時間がか
    かる
    Tableau Prep
    手元加工

    View Slide

  18. ETLとBI
    ある程度役割を決めるのが全社利用では必要。
    DB(ECの購買履歴テーブルのみ)
    BI
    商品別購買回数のような汎用的なデータ加工は「データマート化」したい。だ
    からBQ側で処理して、Tableauで渡す。
    SaaSの時代ビジネスで扱うデータソースが倍々で増えていくので、きちんと
    向き合わないとすぐにカオス化する。
    個人調査用

    View Slide

  19. ETLの現実
    アドホック属人的と全社標準のETLの二系統走る
    データ設計 加工 アドホック
    整ったらそれ使うし整ってなかったら
    アドホック:Tableau Prep, Talend
    加工:
    データ設計:Apache Airflowとか

    View Slide

  20. ETLツールのメリット
    1.開発工数の削減
    2.開発品質の向上
    3.メンテナンス性の向上

    View Slide

  21. レポーティング
    windows仮想環境
    プロダクト基盤
    ビジネスツール
    ETL1
    データ転送
    ETL3
    SQLアドホック
    DWH マート
    ETL2
    SQLデータ加工
    SQLでアドホック変換処理
    ETL4
    SQLアドホック

    View Slide

  22. レポーティング
    データ基盤
    フィルターを絞り込むだけ
    ビジネスツール
    ETL1
    データ転送
    ETL3
    SQLアドホック
    DWH マート
    接続先数の関係で第
    2フェーズ
    ETL2
    SQLデータ加工
    プロダクト基盤

    View Slide

  23. Data Lake
    Data Source Data Mart
    Persistant
    Derived
    TBL
    Explores
    PDT Build
    Views
    ETL1 ETL2 Dashboards
    Dashboards
    Looks
    Tableau Prep

    View Slide

  24. 「簡単にできるが、秩序も担保できる」こと
    Data Lake, Data Warehouse, Data Mart: Google BigQuery
    ETL: Apache Airflowでワークフローの管理(実体はPythonとSQL)
    Analystのスループットを継続的に最大化させるデータ基盤の運用思想

    View Slide

  25. ETLツールの客観的な整理

    View Slide

  26. ガートナーの評価
    ガートナー2020年の調査より

    View Slide

  27. ETLツール選定軸
    選定軸 コメント
    データコネクターの種類 ・マストで使うツールが対応しているか
    ・将来の拡張性(追加スピード・日本対応)
    操作感(UI・機能) シンプルでわかりやすいか
    コピペやページ推移のしやすさ
    アドホック向き・データ移行向き
    コーディングできるか
    バグの多さ・対応 ・コネクターはあるけど設定が難しい
    ・バグや制約が多くて使えない
    ・バグへの対応の速さ
    サポート・トレーニング ・質問を日本語でできるか
    ・オンボーディングやリモートハンズオンがあるか(無償・有償)
    値段 価格体型(コネクター数・データ量 ユーザー数 etc)どれが自社に合うか
    エンジニアで対応するときの比較するのが一つの目安

    View Slide

  28. アドホック系
    2006年フランスで創業の老舗メーカー。
    複数のソリューションを展開しているが、代表的なものはTalend for Data Integration。
    Talend Open Studioは無料で利用可能であり、特に海外ユーザーの利活用が活発。
    データコネクター 操作感 バグの多さ
    対応
    サポート
    トレーニング
    値段
    主要なデータベース、Data Warehouseは網
    羅。
    API連携可能。
    GUIベース
    (Open Studioは
    クライアントアプリ
    ケーション)
    EclipseライクなUI
    なので、非エンジ
    ニア層のUXは悪
    い。
    月次リリースで安定している。
    メジャーアップデートのサイクル
    は不明。
    Customer Supportあり。
    日本国内は代理店販売業者がト
    レーニングを担っていることが多
    い。
    Communityはあるが、日本語は
    少なめ。
    公式サイト
    ソリューションにもよるが、
    Open Studio: 無料
    他: SaaS($100 USD - ASK)

    View Slide

  29. アドホック系
    2018年リリース。
    当初はTableau Desktopと同じくクライアントアプリケーション型のみだったが、のちにTableau Prep
    Builder(クライアントアプリケーション)、Tableau Prep Conductor(Webアドオン)に展開。
    データコネクター 操作感 バグの多さ
    対応
    サポート
    トレーニング
    値段
    公式サイト
    主要なデータベース、Data Warehouseは網
    羅。
    API連携不可(Salesforceなど、一部のソリュー
    ションには対応)。
    GUIベース
    (Prep Builderは
    クライアントアプリ
    ケーション、Prep
    Conductorは
    Webアプリケー
    ション)
    UIは直感的で理
    解しやすく、途中
    経過も可視化して
    くれる。
    基本は四半期に1回のメジャー
    アップデート。
    Hotfixも迅速で、メジャーアップ
    デート直後のバグは即対応して
    いる印象。
    Customer Supportあり。
    トレーニングはTableau Desktop
    ほど充実してはいないが一通り
    揃っている。
    認定資格あり。
    公式サイト
    Prep Builderのみであれば、
    Creatorライセンス内で利用可能
    (102000円/user, annual)。
    Prep Conductorは別途Tableau
    Data Management Add-onが必
    要(8000円*/user, annual)。
    * ライセンス関係なく全ユーザー
    に対して必要

    View Slide

  30. アドホック系
    1997年設立の米国企業。コンサル会社や金融製薬業界、IT代理店の方などがよく使っている印象。
    データコネクター 操作感 バグの多さ
    対応
    サポート
    トレーニング
    値段
    空間データなど分析のためのデータコネクター
    がある
    GUIのフロー形式
    データの出力や
    機械学習(アドオ
    ン)など多様なア
    クションがある
    あまり聞かない。 公式のトレーニングやコミュニ
    ティが充実。
    ユーザー数に応じて課金する
    65万/人

    View Slide

  31. primenumberという日本企業のSaaS統合ソリューション。
    メルカリ、サイバーエージェント、YappliなどのITベンチャーでも導入している。
    Embulkで自前でデータ統合していた部分の開発品質をあげるために導入するケースも多い。
    データ基盤におけるtrocco+BigQueryは王道の組み合わせ。
    データコネクター 操作感 バグの多さ
    対応
    サポート
    トレーニング
    値段
    よく使うコネクターは揃っている。
    LINE広告やKintoneなどの日本製品のコネク
    ターも豊富
    海外コネクターはfivetranと比べると少ない
    GUIベース Slackサポート
    ハンズオンを柔軟に対応頂ける
    予算はあるけど忙しい大企業に
    もおすすめ
    ざっくりと言うと「データ接続の種
    類とデータ転送量」でプランが分
    かれる。
    接続するデータが少なくデータ量
    も少ないなら、かなりクイックに
    実装できる
    データ転送系

    View Slide

  32. データ転送系
    2012年設立の企業。データパイプライン自動化ツール。ELTを得意とする。
    データコネクター 操作感 バグの多さ
    対応
    サポート
    トレーニング
    値段
    海外アプリに強い。Shopify etc シンプルで設定が
    簡単。
    ロード中心で細か
    い加工はしない人
    むけ。
    不明 不明 ざっくりと月次のデータ容量で金
    額が決まる。
    担当曰く、
    $12K〜$30K程度

    View Slide

  33. データ転送系
    2011年設立のアメリカの企業。hadoopベース(パラレル処理)。Salesforce
    データコネクター 操作感 バグの多さ
    対応
    サポート
    トレーニング
    値段
    よく使うコネクターは揃っている。
    kintoneなどの日本製品のコネクターも一応は
    ある。
    GUIベースでUI素

    フローをコピペし
    たり柔軟性も高い
    書き込み前と書き
    込み後の両方で
    SQLを書ける。
    不明 無料でリアルタイムサポートがあ
    る。日本語
    年間ライセンス(処理回数/時間)

    View Slide

  34. データ転送系
    オンプレミス型のETLツールで、コストが非常に安い
    0円から始められる
    コネクターが豊富
    データコネクター 操作感 バグの多さ
    対応
    サポート
    トレーニング
    値段
    よく使うコネクターは揃っている。
    GUIベース 大量データの連携処理に関して
    は落ちることがあるので、サー
    バーマネジメント含めチューニン
    グが必要
    メールベースのサポート
    一般的なサポートレベル
    Starter ¥ 0
    Standard ¥ 35万/年
    Professional ¥ 70万/年
    Enterprise 個別見積もり

    View Slide

  35. BQ DataTransferService
 データ転送系
    S3⇢BQの単純連携ならこれ一択。
    Googleサービスとのコネクターがメイン。
    データコネクター 操作感 バグの多さ
    対応
    サポート
    トレーニング
    値段
    Google系
    - Google Ads
    - Analytics 360
    - youtube channel
    - GCS
    その他
    - Amazon S3
    - Amazon Redshift(migration)
    GUIベース ??? Slackサポート
    ハンズオンを柔軟に対応頂ける
    予算はあるけど忙しい大企業に
    もおすすめ
    無料!
    最大ファイルサイズ:
    ファイル形式 圧縮 非圧縮
    CSV 4 GB 5 TB
    JSON 4 GB 5 TB
    読み込みジョブ 1 件あたりの最大サイズ - CSV、
    JSON、Avro、Parquet、ORC のすべての入力
    ファイル全体で 15 TB

    View Slide

  36. 番外編:Denodo(気になる)
    ガートナー2021ピアインサイトをインフォマティカと並び受賞
    引用:Denodo公式HPより
    データ仮想化は、データを連携するための最新の手法です。データ仮想化は、データをレプリケーションする
    ETLソリューションとは異なり、データをソース・システムから取り出すことなく、すべてのデータを連携しユー
    ザーへ提示します。ビジネス・ユーザーがレポートにある項目をドリル・ダウンすると、データ仮想化がリアル
    タイムで基盤のソース・システムからデータを取得し表示します。データ仮想化は、データを収集・保存する
    のではなく、その都度アクセスできるようにする方がより優れている方法であることを示しています。

    View Slide

  37. それETLツールでできます!

    View Slide

  38. 告知1 次回イベント

    View Slide

  39. 告知2 Youtube ラジオ
    アンケートで頂いたお悩みやベストプラクティスについて収録して配信します。

    View Slide

  40. おわり
    みなさんのデータ可視化力で事業の意思決定を加速させていきましょう!
    BIツール研究所のフォローよろしくお願いします!
    ・研究所のメンバーが壁打ちしたり副業で参加できるメンバーもいます。
    #BIlabo
    感想やご要望お待ちしております。

    View Slide