Slide 1

Slide 1 text

BIツール研究所 BIツールと ETL

Slide 2

Slide 2 text

はじめに この内容はYouTubeにアーカイブがあります。 お仕事中のBGMとしてお楽しみください。 検索ワード「BIツール研究所」

Slide 3

Slide 3 text

株式会社truestar - コンサルタント 社内ブログでBIのTipsや海外コミュニティの事とか書いてます。 Name : 大滝 幸(Ko Otaki) @KohOhtaki https://www.facebook.com/koh.ootaki/

Slide 4

Slide 4 text

オープンエイト-データアナリスト ex.ヤフー株式会社 BIツール研究所というコミュニティをやっています。 ETLツールはtrocco初心者ユーザー。 Name : 前側 将(Maekawa Sho) @willanalysts https://www.facebook.com/sho.maekawa1

Slide 5

Slide 5 text

株式会社エウレカ - データアナリスト BIツール研究所というコミュニティをお手伝いしています。 某BIツール、ETLツールのPdMやっていました。 8th Tableau Data Saber Name : 荒木 和也(Kazuya Araki) @kazuya_araki_jp https://www.facebook.com/kazuya.araki.tokyo https://note.com/jedi_trickstar

Slide 6

Slide 6 text

Yusuke Nishizawa 2009 2016 2020 インフラエンジニア PjM データアナリスト 事業企画・マーケ モビリティデータ コンサルタント 日報自動化 交通事故削減 車両削減 デューデリジェンス @zwt1n https://www.facebook.com/yusuke.nishizawa.73 〜Master of Data Saber〜

Slide 7

Slide 7 text

BIツール研究所 Mission  BIツールの情報をオープンにし、誰もが意思決定 に繋げられるように支援する 「なんとくBIツールが導入されているけど活用できない。グラフのレポートをたくさん作ったけ ど何も意思決定に反映されていない」。主宰者のウィルは数多くの企業のBIツール導入支援やBI エンジニアの友人と関わる中でこの問題を解決したいと思いコミュニティを立ち上げました。各 ツールの情報をオープンにすることで誰もが適切なツールを導入できるようにする。単純に機能 を比較するだけではなくて、どんな組織に合うのか、実務で通用するスキルは何なのか、さらに 踏み込んだ議論をコミュニティ内で実施していきたいと考えてます。

Slide 8

Slide 8 text

BIツール研究所 Value  BIツールの一歩先の活用方法を提案します。 みなさんの会社の文化や人的リソースを意識した上でおすすめのツールを提案します。さらに、 各ツールがどのように進化して行くか、また長期的に運用していく上で必要なことは何かなど一 歩先を見据えた提案を心がけます。

Slide 9

Slide 9 text

BIツール研究所 #bilabo 発表したい人、雑談したい人、情報集めたい人 ぜひご参加ください! Twiiter YouTube LINE オープンチャット

Slide 10

Slide 10 text

今日のゴール ・ETLツールの特徴とBIにおける必要性を理解しよう #Bilabo Twitterで検索してみてね!

Slide 11

Slide 11 text

目次 1.ETLとBI 登壇者がBIを起点としたETLの必要性を語ります。各社のデータ基盤の構成図からどのような ETLツールを 利用しているかをご紹介します。 2.ETLツールの整理 おすすめのETLツールをご紹介します。 3.それETLツールでできます! 参加者のみなさまから質問を頂き、その悩み解決できるか登壇者の方が回答します!

Slide 12

Slide 12 text

ETLとBI

Slide 13

Slide 13 text

ETLとは ETLは、「Extract (抽出)」「Transform (変換、加工)」「Load (ロード)」の略語

Slide 14

Slide 14 text

BIツール利用時のデータ全体像

Slide 15

Slide 15 text

ETLとBI テーブルも一つだけ。 ただTableauに引っ張ってくるだけだから何も意識する必要がない? 顧客ごと商品別購買回数をTableauでみたい DB(ECの購買履歴テーブル) BI

Slide 16

Slide 16 text

ETLとBI SELECT "USERID","PUR-CODE",COUNT(*) 
 FROM "SALESLIST" 
 GROUP BY "USERID","PUR-CODE" 
 DB側でもBI側でもデータ加工できてしまう。 DB(ECの購買履歴テーブルのみ) BI SELECT "USERID","PUR-CODE",COUNT(*) 
 FROM "SALESLIST" 
 GROUP BY "USERID","PUR-CODE" 
 アドホックに自分の中で調査するくらいだったら気にしなくて良い。

Slide 17

Slide 17 text

ETLとBI 経営層や他部署に報告する時などはデータが正しいかチェックが必要。 DB(ECの購買履歴テーブルのみ) BI 商品別購買回数の定義が DBとBIでたくさん書かれていると確認に時間がか かる Tableau Prep 手元加工

Slide 18

Slide 18 text

ETLとBI ある程度役割を決めるのが全社利用では必要。 DB(ECの購買履歴テーブルのみ) BI 商品別購買回数のような汎用的なデータ加工は「データマート化」したい。だ からBQ側で処理して、Tableauで渡す。 SaaSの時代ビジネスで扱うデータソースが倍々で増えていくので、きちんと 向き合わないとすぐにカオス化する。 個人調査用

Slide 19

Slide 19 text

ETLの現実 アドホック属人的と全社標準のETLの二系統走る データ設計 加工 アドホック 整ったらそれ使うし整ってなかったら アドホック:Tableau Prep, Talend 加工: データ設計:Apache Airflowとか

Slide 20

Slide 20 text

ETLツールのメリット 1.開発工数の削減 2.開発品質の向上 3.メンテナンス性の向上

Slide 21

Slide 21 text

レポーティング windows仮想環境 プロダクト基盤 ビジネスツール ETL1 データ転送 ETL3 SQLアドホック DWH マート ETL2 SQLデータ加工 SQLでアドホック変換処理 ETL4 SQLアドホック

Slide 22

Slide 22 text

レポーティング データ基盤 フィルターを絞り込むだけ ビジネスツール ETL1 データ転送 ETL3 SQLアドホック DWH マート 接続先数の関係で第 2フェーズ ETL2 SQLデータ加工 プロダクト基盤

Slide 23

Slide 23 text

Data Lake Data Source Data Mart Persistant Derived TBL Explores PDT Build Views ETL1 ETL2 Dashboards Dashboards Looks Tableau Prep

Slide 24

Slide 24 text

「簡単にできるが、秩序も担保できる」こと Data Lake, Data Warehouse, Data Mart: Google BigQuery ETL: Apache Airflowでワークフローの管理(実体はPythonとSQL) Analystのスループットを継続的に最大化させるデータ基盤の運用思想

Slide 25

Slide 25 text

ETLツールの客観的な整理

Slide 26

Slide 26 text

ガートナーの評価 ガートナー2020年の調査より

Slide 27

Slide 27 text

ETLツール選定軸 選定軸 コメント データコネクターの種類 ・マストで使うツールが対応しているか ・将来の拡張性(追加スピード・日本対応) 操作感(UI・機能) シンプルでわかりやすいか コピペやページ推移のしやすさ アドホック向き・データ移行向き コーディングできるか バグの多さ・対応 ・コネクターはあるけど設定が難しい ・バグや制約が多くて使えない ・バグへの対応の速さ サポート・トレーニング ・質問を日本語でできるか ・オンボーディングやリモートハンズオンがあるか(無償・有償) 値段 価格体型(コネクター数・データ量 ユーザー数 etc)どれが自社に合うか エンジニアで対応するときの比較するのが一つの目安

Slide 28

Slide 28 text

アドホック系 2006年フランスで創業の老舗メーカー。 複数のソリューションを展開しているが、代表的なものはTalend for Data Integration。 Talend Open Studioは無料で利用可能であり、特に海外ユーザーの利活用が活発。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 主要なデータベース、Data Warehouseは網 羅。 API連携可能。 GUIベース (Open Studioは クライアントアプリ ケーション) EclipseライクなUI なので、非エンジ ニア層のUXは悪 い。 月次リリースで安定している。 メジャーアップデートのサイクル は不明。 Customer Supportあり。 日本国内は代理店販売業者がト レーニングを担っていることが多 い。 Communityはあるが、日本語は 少なめ。 公式サイト ソリューションにもよるが、 Open Studio: 無料 他: SaaS($100 USD - ASK)

Slide 29

Slide 29 text

アドホック系 2018年リリース。 当初はTableau Desktopと同じくクライアントアプリケーション型のみだったが、のちにTableau Prep Builder(クライアントアプリケーション)、Tableau Prep Conductor(Webアドオン)に展開。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 公式サイト 主要なデータベース、Data Warehouseは網 羅。 API連携不可(Salesforceなど、一部のソリュー ションには対応)。 GUIベース (Prep Builderは クライアントアプリ ケーション、Prep Conductorは Webアプリケー ション) UIは直感的で理 解しやすく、途中 経過も可視化して くれる。 基本は四半期に1回のメジャー アップデート。 Hotfixも迅速で、メジャーアップ デート直後のバグは即対応して いる印象。 Customer Supportあり。 トレーニングはTableau Desktop ほど充実してはいないが一通り 揃っている。 認定資格あり。 公式サイト Prep Builderのみであれば、 Creatorライセンス内で利用可能 (102000円/user, annual)。 Prep Conductorは別途Tableau Data Management Add-onが必 要(8000円*/user, annual)。 * ライセンス関係なく全ユーザー に対して必要

Slide 30

Slide 30 text

アドホック系 1997年設立の米国企業。コンサル会社や金融製薬業界、IT代理店の方などがよく使っている印象。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 空間データなど分析のためのデータコネクター がある GUIのフロー形式 データの出力や 機械学習(アドオ ン)など多様なア クションがある あまり聞かない。 公式のトレーニングやコミュニ ティが充実。 ユーザー数に応じて課金する 65万/人

Slide 31

Slide 31 text

primenumberという日本企業のSaaS統合ソリューション。 メルカリ、サイバーエージェント、YappliなどのITベンチャーでも導入している。 Embulkで自前でデータ統合していた部分の開発品質をあげるために導入するケースも多い。 データ基盤におけるtrocco+BigQueryは王道の組み合わせ。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 よく使うコネクターは揃っている。 LINE広告やKintoneなどの日本製品のコネク ターも豊富 海外コネクターはfivetranと比べると少ない GUIベース Slackサポート ハンズオンを柔軟に対応頂ける 予算はあるけど忙しい大企業に もおすすめ ざっくりと言うと「データ接続の種 類とデータ転送量」でプランが分 かれる。 接続するデータが少なくデータ量 も少ないなら、かなりクイックに 実装できる データ転送系

Slide 32

Slide 32 text

データ転送系 2012年設立の企業。データパイプライン自動化ツール。ELTを得意とする。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 海外アプリに強い。Shopify etc シンプルで設定が 簡単。 ロード中心で細か い加工はしない人 むけ。 不明 不明 ざっくりと月次のデータ容量で金 額が決まる。 担当曰く、 $12K〜$30K程度

Slide 33

Slide 33 text

データ転送系 2011年設立のアメリカの企業。hadoopベース(パラレル処理)。Salesforce データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 よく使うコネクターは揃っている。 kintoneなどの日本製品のコネクターも一応は ある。 GUIベースでUI素 敵 フローをコピペし たり柔軟性も高い 書き込み前と書き 込み後の両方で SQLを書ける。 不明 無料でリアルタイムサポートがあ る。日本語 年間ライセンス(処理回数/時間)

Slide 34

Slide 34 text

データ転送系 オンプレミス型のETLツールで、コストが非常に安い 0円から始められる コネクターが豊富 データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 よく使うコネクターは揃っている。 GUIベース 大量データの連携処理に関して は落ちることがあるので、サー バーマネジメント含めチューニン グが必要 メールベースのサポート 一般的なサポートレベル Starter ¥ 0 Standard ¥ 35万/年 Professional ¥ 70万/年 Enterprise 個別見積もり

Slide 35

Slide 35 text

BQ DataTransferService
 データ転送系 S3⇢BQの単純連携ならこれ一択。 Googleサービスとのコネクターがメイン。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 Google系 - Google Ads - Analytics 360 - youtube channel - GCS その他 - Amazon S3 - Amazon Redshift(migration) GUIベース ??? Slackサポート ハンズオンを柔軟に対応頂ける 予算はあるけど忙しい大企業に もおすすめ 無料! 最大ファイルサイズ: ファイル形式 圧縮 非圧縮 CSV 4 GB 5 TB JSON 4 GB 5 TB 読み込みジョブ 1 件あたりの最大サイズ - CSV、 JSON、Avro、Parquet、ORC のすべての入力 ファイル全体で 15 TB

Slide 36

Slide 36 text

番外編:Denodo(気になる) ガートナー2021ピアインサイトをインフォマティカと並び受賞 引用:Denodo公式HPより データ仮想化は、データを連携するための最新の手法です。データ仮想化は、データをレプリケーションする ETLソリューションとは異なり、データをソース・システムから取り出すことなく、すべてのデータを連携しユー ザーへ提示します。ビジネス・ユーザーがレポートにある項目をドリル・ダウンすると、データ仮想化がリアル タイムで基盤のソース・システムからデータを取得し表示します。データ仮想化は、データを収集・保存する のではなく、その都度アクセスできるようにする方がより優れている方法であることを示しています。

Slide 37

Slide 37 text

それETLツールでできます!

Slide 38

Slide 38 text

告知1 次回イベント

Slide 39

Slide 39 text

告知2 Youtube ラジオ アンケートで頂いたお悩みやベストプラクティスについて収録して配信します。

Slide 40

Slide 40 text

おわり みなさんのデータ可視化力で事業の意思決定を加速させていきましょう! BIツール研究所のフォローよろしくお願いします! ・研究所のメンバーが壁打ちしたり副業で参加できるメンバーもいます。 #BIlabo 感想やご要望お待ちしております。