talend Alteryx Fivetran Xplenty Cdata sync BQ DataTransferService Denodo BigQuery trocco dataspider DMX
BIツール研究所BIツールとETL
View Slide
はじめにこの内容はYouTubeにアーカイブがあります。お仕事中のBGMとしてお楽しみください。検索ワード「BIツール研究所」
株式会社truestar - コンサルタント社内ブログでBIのTipsや海外コミュニティの事とか書いてます。Name :大滝 幸(Ko Otaki)@KohOhtakihttps://www.facebook.com/koh.ootaki/
オープンエイト-データアナリスト ex.ヤフー株式会社BIツール研究所というコミュニティをやっています。ETLツールはtrocco初心者ユーザー。Name :前側 将(Maekawa Sho)@willanalystshttps://www.facebook.com/sho.maekawa1
株式会社エウレカ - データアナリストBIツール研究所というコミュニティをお手伝いしています。某BIツール、ETLツールのPdMやっていました。8th Tableau Data SaberName :荒木 和也(Kazuya Araki)@kazuya_araki_jphttps://www.facebook.com/kazuya.araki.tokyohttps://note.com/jedi_trickstar
Yusuke Nishizawa200920162020インフラエンジニアPjMデータアナリスト事業企画・マーケモビリティデータコンサルタント日報自動化 交通事故削減車両削減 デューデリジェンス@zwt1nhttps://www.facebook.com/yusuke.nishizawa.73〜Master of Data Saber〜
BIツール研究所Mission BIツールの情報をオープンにし、誰もが意思決定に繋げられるように支援する「なんとくBIツールが導入されているけど活用できない。グラフのレポートをたくさん作ったけど何も意思決定に反映されていない」。主宰者のウィルは数多くの企業のBIツール導入支援やBIエンジニアの友人と関わる中でこの問題を解決したいと思いコミュニティを立ち上げました。各ツールの情報をオープンにすることで誰もが適切なツールを導入できるようにする。単純に機能を比較するだけではなくて、どんな組織に合うのか、実務で通用するスキルは何なのか、さらに踏み込んだ議論をコミュニティ内で実施していきたいと考えてます。
BIツール研究所Value BIツールの一歩先の活用方法を提案します。みなさんの会社の文化や人的リソースを意識した上でおすすめのツールを提案します。さらに、各ツールがどのように進化して行くか、また長期的に運用していく上で必要なことは何かなど一歩先を見据えた提案を心がけます。
BIツール研究所 #bilabo発表したい人、雑談したい人、情報集めたい人ぜひご参加ください!Twiiter YouTube LINE オープンチャット
今日のゴール・ETLツールの特徴とBIにおける必要性を理解しよう#Bilabo Twitterで検索してみてね!
目次1.ETLとBI登壇者がBIを起点としたETLの必要性を語ります。各社のデータ基盤の構成図からどのような ETLツールを利用しているかをご紹介します。2.ETLツールの整理おすすめのETLツールをご紹介します。3.それETLツールでできます!参加者のみなさまから質問を頂き、その悩み解決できるか登壇者の方が回答します!
ETLとBI
ETLとはETLは、「Extract (抽出)」「Transform (変換、加工)」「Load(ロード)」の略語
BIツール利用時のデータ全体像
ETLとBIテーブルも一つだけ。ただTableauに引っ張ってくるだけだから何も意識する必要がない?顧客ごと商品別購買回数をTableauでみたいDB(ECの購買履歴テーブル)BI
ETLとBISELECT "USERID","PUR-CODE",COUNT(*) FROM "SALESLIST" GROUP BY "USERID","PUR-CODE" DB側でもBI側でもデータ加工できてしまう。DB(ECの購買履歴テーブルのみ)BISELECT "USERID","PUR-CODE",COUNT(*) FROM "SALESLIST" GROUP BY "USERID","PUR-CODE" アドホックに自分の中で調査するくらいだったら気にしなくて良い。
ETLとBI経営層や他部署に報告する時などはデータが正しいかチェックが必要。DB(ECの購買履歴テーブルのみ)BI商品別購買回数の定義がDBとBIでたくさん書かれていると確認に時間がかかるTableau Prep手元加工
ETLとBIある程度役割を決めるのが全社利用では必要。DB(ECの購買履歴テーブルのみ)BI商品別購買回数のような汎用的なデータ加工は「データマート化」したい。だからBQ側で処理して、Tableauで渡す。SaaSの時代ビジネスで扱うデータソースが倍々で増えていくので、きちんと向き合わないとすぐにカオス化する。個人調査用
ETLの現実アドホック属人的と全社標準のETLの二系統走るデータ設計 加工 アドホック整ったらそれ使うし整ってなかったらアドホック:Tableau Prep, Talend加工:データ設計:Apache Airflowとか
ETLツールのメリット1.開発工数の削減2.開発品質の向上3.メンテナンス性の向上
レポーティングwindows仮想環境プロダクト基盤ビジネスツールETL1データ転送ETL3SQLアドホックDWH マートETL2SQLデータ加工SQLでアドホック変換処理ETL4SQLアドホック
レポーティングデータ基盤フィルターを絞り込むだけビジネスツールETL1データ転送ETL3SQLアドホックDWH マート接続先数の関係で第2フェーズETL2SQLデータ加工プロダクト基盤
Data LakeData Source Data MartPersistantDerivedTBLExploresPDT BuildViewsETL1 ETL2 DashboardsDashboardsLooksTableau Prep
「簡単にできるが、秩序も担保できる」ことData Lake, Data Warehouse, Data Mart: Google BigQueryETL: Apache Airflowでワークフローの管理(実体はPythonとSQL)Analystのスループットを継続的に最大化させるデータ基盤の運用思想
ETLツールの客観的な整理
ガートナーの評価ガートナー2020年の調査より
ETLツール選定軸選定軸 コメントデータコネクターの種類 ・マストで使うツールが対応しているか・将来の拡張性(追加スピード・日本対応)操作感(UI・機能) シンプルでわかりやすいかコピペやページ推移のしやすさアドホック向き・データ移行向きコーディングできるかバグの多さ・対応 ・コネクターはあるけど設定が難しい・バグや制約が多くて使えない・バグへの対応の速さサポート・トレーニング ・質問を日本語でできるか・オンボーディングやリモートハンズオンがあるか(無償・有償)値段 価格体型(コネクター数・データ量 ユーザー数 etc)どれが自社に合うかエンジニアで対応するときの比較するのが一つの目安
アドホック系2006年フランスで創業の老舗メーカー。複数のソリューションを展開しているが、代表的なものはTalend for Data Integration。Talend Open Studioは無料で利用可能であり、特に海外ユーザーの利活用が活発。データコネクター 操作感 バグの多さ対応サポートトレーニング値段主要なデータベース、Data Warehouseは網羅。API連携可能。GUIベース(Open Studioはクライアントアプリケーション)EclipseライクなUIなので、非エンジニア層のUXは悪い。月次リリースで安定している。メジャーアップデートのサイクルは不明。Customer Supportあり。日本国内は代理店販売業者がトレーニングを担っていることが多い。Communityはあるが、日本語は少なめ。公式サイトソリューションにもよるが、Open Studio: 無料他: SaaS($100 USD - ASK)
アドホック系2018年リリース。当初はTableau Desktopと同じくクライアントアプリケーション型のみだったが、のちにTableau PrepBuilder(クライアントアプリケーション)、Tableau Prep Conductor(Webアドオン)に展開。データコネクター 操作感 バグの多さ対応サポートトレーニング値段公式サイト主要なデータベース、Data Warehouseは網羅。API連携不可(Salesforceなど、一部のソリューションには対応)。GUIベース(Prep Builderはクライアントアプリケーション、PrepConductorはWebアプリケーション)UIは直感的で理解しやすく、途中経過も可視化してくれる。基本は四半期に1回のメジャーアップデート。Hotfixも迅速で、メジャーアップデート直後のバグは即対応している印象。Customer Supportあり。トレーニングはTableau Desktopほど充実してはいないが一通り揃っている。認定資格あり。公式サイトPrep Builderのみであれば、Creatorライセンス内で利用可能(102000円/user, annual)。Prep Conductorは別途TableauData Management Add-onが必要(8000円*/user, annual)。* ライセンス関係なく全ユーザーに対して必要
アドホック系1997年設立の米国企業。コンサル会社や金融製薬業界、IT代理店の方などがよく使っている印象。データコネクター 操作感 バグの多さ対応サポートトレーニング値段空間データなど分析のためのデータコネクターがあるGUIのフロー形式データの出力や機械学習(アドオン)など多様なアクションがあるあまり聞かない。 公式のトレーニングやコミュニティが充実。ユーザー数に応じて課金する65万/人
primenumberという日本企業のSaaS統合ソリューション。メルカリ、サイバーエージェント、YappliなどのITベンチャーでも導入している。Embulkで自前でデータ統合していた部分の開発品質をあげるために導入するケースも多い。データ基盤におけるtrocco+BigQueryは王道の組み合わせ。データコネクター 操作感 バグの多さ対応サポートトレーニング値段よく使うコネクターは揃っている。LINE広告やKintoneなどの日本製品のコネクターも豊富海外コネクターはfivetranと比べると少ないGUIベース Slackサポートハンズオンを柔軟に対応頂ける予算はあるけど忙しい大企業にもおすすめざっくりと言うと「データ接続の種類とデータ転送量」でプランが分かれる。接続するデータが少なくデータ量も少ないなら、かなりクイックに実装できるデータ転送系
データ転送系2012年設立の企業。データパイプライン自動化ツール。ELTを得意とする。データコネクター 操作感 バグの多さ対応サポートトレーニング値段海外アプリに強い。Shopify etc シンプルで設定が簡単。ロード中心で細かい加工はしない人むけ。不明 不明 ざっくりと月次のデータ容量で金額が決まる。担当曰く、$12K〜$30K程度
データ転送系2011年設立のアメリカの企業。hadoopベース(パラレル処理)。Salesforceデータコネクター 操作感 バグの多さ対応サポートトレーニング値段よく使うコネクターは揃っている。kintoneなどの日本製品のコネクターも一応はある。GUIベースでUI素敵フローをコピペしたり柔軟性も高い書き込み前と書き込み後の両方でSQLを書ける。不明 無料でリアルタイムサポートがある。日本語年間ライセンス(処理回数/時間)
データ転送系オンプレミス型のETLツールで、コストが非常に安い0円から始められるコネクターが豊富データコネクター 操作感 バグの多さ対応サポートトレーニング値段よく使うコネクターは揃っている。GUIベース 大量データの連携処理に関しては落ちることがあるので、サーバーマネジメント含めチューニングが必要メールベースのサポート一般的なサポートレベルStarter ¥ 0Standard ¥ 35万/年Professional ¥ 70万/年Enterprise 個別見積もり
BQ DataTransferService データ転送系S3⇢BQの単純連携ならこれ一択。Googleサービスとのコネクターがメイン。データコネクター 操作感 バグの多さ対応サポートトレーニング値段Google系- Google Ads- Analytics 360- youtube channel- GCSその他- Amazon S3- Amazon Redshift(migration)GUIベース ??? Slackサポートハンズオンを柔軟に対応頂ける予算はあるけど忙しい大企業にもおすすめ無料!最大ファイルサイズ:ファイル形式 圧縮 非圧縮CSV 4 GB 5 TBJSON 4 GB 5 TB読み込みジョブ 1 件あたりの最大サイズ - CSV、JSON、Avro、Parquet、ORC のすべての入力ファイル全体で 15 TB
番外編:Denodo(気になる)ガートナー2021ピアインサイトをインフォマティカと並び受賞引用:Denodo公式HPよりデータ仮想化は、データを連携するための最新の手法です。データ仮想化は、データをレプリケーションするETLソリューションとは異なり、データをソース・システムから取り出すことなく、すべてのデータを連携しユーザーへ提示します。ビジネス・ユーザーがレポートにある項目をドリル・ダウンすると、データ仮想化がリアルタイムで基盤のソース・システムからデータを取得し表示します。データ仮想化は、データを収集・保存するのではなく、その都度アクセスできるようにする方がより優れている方法であることを示しています。
それETLツールでできます!
告知1 次回イベント
告知2 Youtube ラジオアンケートで頂いたお悩みやベストプラクティスについて収録して配信します。
おわりみなさんのデータ可視化力で事業の意思決定を加速させていきましょう!BIツール研究所のフォローよろしくお願いします!・研究所のメンバーが壁打ちしたり副業で参加できるメンバーもいます。#BIlabo感想やご要望お待ちしております。