$30 off During Our Annual Pro Sale. View Details »

風音屋TechTalk#4 ChatGPTを業務利用しているデータエンジニア3名の座談会 #kazaneya / 20230426

風音屋TechTalk#4 ChatGPTを業務利用しているデータエンジニア3名の座談会 #kazaneya / 20230426

風音屋TechTalk #4「ChatGPTを業務利用しているデータエンジニア3名の座談会」の登壇資料です。
https://kazaneya.connpass.com/event/281108/

風音屋TechTalkは、風音屋(@kazaneya_PR)のクライアントや社員が気になっているテーマについて有識者から話を聞いたり、最近の取り組みやテクノロジーについてカジュアルに話す勉強会です。
第4弾となる今回は、風音屋のクライアントであるNE株式会社の熱田様、風音屋アドバイザーとして翻訳プロジェクトをリードしている打出さん、風音屋代表の横山(ゆずたそ)の3名でChatGPTの業務利用について話します。

風音屋 (Kazaneya)
PRO

April 26, 2023
Tweet

More Decks by 風音屋 (Kazaneya)

Other Decks in Technology

Transcript

  1. ChatGPTを業務利用している
    データエンジニア3名の座談会
    2023-04-18
    ゆずたそ(風音屋)
    熱田 亮(NE株式会社)
    打出 紘基(ピクシブ株式会社)
    風音屋TechTalk #4

    View Slide

  2. 本資料の利用により発生したいかなる損害に対しても資料作成者はその責任を負いかねます。
    社名が提示されていないケーススタディやシステム構成については、
    原則的に複数企業の事例を踏まえたダミー情報となります。
    特定企業の情報公開や称賛・批判を意図するものではありません。
    用語やツールの紹介は厳密ではありません。ご自身や所属チームでの理解・解釈が
    紹介内容と異なる場合は、適宜読み替えていただけると幸いです。
    本資料に記載されている会社名・製品名などは、一般に各社の登録商標または商標、
    商品名です。資料内では ©, ®, ™ マーク等は省略させていただいております。
    免責事項
    2
    (要するに)ケチつけないでね&
    お互いにルールを守ろうね

    View Slide

  3. 風音屋TechTalkは、風音屋(@kazaneya_PR)のクライアントや社員が気になっているテー
    マについて有識者から話を聞いたり、最近の取り組みやテクノロジーについてカジュアルに
    話す勉強会です。
    第4弾となる今回は、風音屋のクライアントであるNE株式会社の熱田様、風音屋アドバイ
    ザーとして翻訳プロジェクトをリードしている打出さん、風音屋代表の横山(ゆずたそ)の
    3名でChatGPTの業務利用について話します。
    イベントの趣旨
    3

    View Slide

  4. 書籍『実践的データ基盤への処方箋』『データマネジメントが30分でわかる本』の著者、
    ゆずたそ(@yuzutas0)が設立した会社。
    ● 当面の目標は100社のデータ経営を実現し、各産業の活性化に貢献すること。
    ● データエンジニア、データアナリスト、コンサルタントを採用中。著書・訳書を1冊出
    版し、名実共に1人前のプロフェッショナルに成長できる環境を提供。
    ● 業界の第一線で活躍する20名以上のアドバイザーたち(書籍著者、コミュニティ運営
    者、OSSコントリビューター、元GAFAMなど)と一緒にベストプラクティスを開拓。
    ● 転職希望のジュニア人材にはMENTAで講座を提供
    ● 第二新卒が3ヶ月でデータアナリストへの転職を目指す講座
    ● 第二新卒が3ヶ月でデータエンジニアへの転職を目指す講座
    ● 第二新卒が3ヶ月でデータコンサルタントへの転職を目指す講座
    株式会社 風音屋(かざねや)について
    4

    View Slide

  5. ● 現在は社内規定&監査ログで縛っていますが、パナソニックさんやベネッセさんの方
    式(Azure Open AI ServiceをラップしてChatGPTライクなUIを再現)のほうが明らか
    に良いので置き換えたいところです。
    ● 自社トライアルの延長で、技術顧問先のうち5社で、ChatGPTの業務利用についてコン
    サルティングすることに……。
    株式会社 風音屋(かざねや)とChatGPT
    5

    View Slide

  6. ChatGPTで教師データを作ってVertexAIでスケールさせようとした話
    熱田さんパート
    6

    View Slide

  7. NE株式会社 熱田 亮 (@ryo_atsuta)
    Data Engineer / SRE
    経歴
    ● カリフォルニア州立大学CS卒業
    ● 米スタートアップにて独自プロトコル等を担当
    ● 電力システムやゲーム開発に携わる
    ● Hamee株式会社へSREとして入社
    ● 年間流通額1兆円規模のデータ基盤を構築
    ● 分社化後、NE株式会社にマーケティング統括部のデータエンジニアとして勤務
    Zenn (https://zenn.dev/ryoatsuta)
    ● 機械学習という人工知能の技術
    ● 「ドメイン駆動設計入門」を読んだ後
    ● Docker Engineとは何か
    熱田さんパート:自己紹介
    7

    View Slide

  8. NE株式会社
    ● NE株式会社(エヌイー株式会社)はEC Attractions「NEXT ENGINE」を中核に、EC
    SaaS事業、ECコンサルティング事業、ふるさと納税支援事業を提供し、全てのコマー
    スを支えることを目指して活動
    ● スマホケース「iFace」などを制作販売しているHamee株式会社から2022年8月に分社
    して出来た会社
    NEXT ENGINE
    ● NE株式会社が提供する一元管理ツール
    ● 複数のネットショップを一元管理し、ショップ運営を楽にする
    ● 2021年度の年間流通総額が1兆円を突破
    ● ビジネス拡大施策としてデータ提供・販売を進めている
    熱田さんパート:会社紹介
    8

    View Slide

  9. 熱田さんパート:NEXT ENGINE
    9

    View Slide

  10. 社内提供におけるデータ基盤の課題
    データ基盤は構築したはいいものの...
    ● 商品がカテゴリーに分類できない
    ● ネクストエンジンでは「商品分類」が任意項目となっており、一部のモールのカテゴ
    リデータが存在しない
    ● このままだとデータ分析で最初に見たくなるであろう「このカテゴリーの売れ行きが
    良い・悪い」を見ることができない
    商品カテゴリー推定モデルが必要不可欠
    熱田さんパート:背景・課題
    10

    View Slide

  11. 商品カテゴリー推定モデルを構築するためアノテーションの自動化
    熱田さんパート:今回の構成
    11

    View Slide

  12. 熱田さんパート:デモ・スクリーンショット
    12

    View Slide

  13. 熱田さんパート:デモ・スクリーンショット
    13
    データセット作成 学習・モデル構築

    View Slide

  14. 熱田さんパート:デモ・スクリーンショット
    14

    View Slide

  15. 熱田さんパート:実験後の課題
    15
    Vertex AI, AutoMLによる商品カテゴリー推定の課題
    ● 予測にかかるコストが想定以上に高かった
    ○ 数十億レコードある流通額テーブル全てに対して分類させてしまうと、
    膨大なお金がかかることが発覚
    ● TensorflowモデルをエクスポートしてCloudRunで並列実行できないか検証したが…
    ○ text classificationはエクスポートの対象外だった
    ● AutoML自体は機械学習のPoCをする分には非常に良い選択肢

    View Slide

  16. 打出さんパート:
    16
    ChatGPTを用いて翻訳作業を加速する話

    View Slide

  17. 打出さんパート:自己紹介
    17
    打出 紘基 / @hanon52_
    仕事
    ● (ピクシブ株式会社)広告のアナリティクスエンジニア
    ● (風音屋)データモデリングに関する洋書の翻訳
    資格・記事
    ● GCP Professional Data Engineer
    ● 「鮮度」と「精度」を両立させる広告データ基盤のつくり方
    語学力
    ● 時間をかければ洋書の技術書をきちんと読める
    ● 長期の留学経験や海外在住経験はない

    View Slide

  18. 打出さんパート:洋書の翻訳はどのように行うのか
    18
    翻訳作業の大半はレビューに時間を使う

    View Slide

  19. レビュー作業の3工程に関する課題
    レビュー作業は、以下の3工程に分類できる
    それぞれの工程では、訳者を悩ませる課題が多く存在する
    ChatGPTを活用することで、これらの課題をどう解決するのかを説明する
    打出さんパート:レビュー作業 > 課題
    19
    工程 概要 課題
    英文の読解 原文の英文を読んで理解する 英文の意味が理解できない
    原文の記述が曖昧
    ドメイン用語
    の検討
    ドメイン固有の用語について、
    適切な訳語を考える
    適切な訳語が思いつかない
    決めきれない
    訳文の
    ブラッシュ
    アップ
    一次翻訳文(試訳)の間違いを
    直し、出版に耐えうる自然な日
    本語へと品質を高める
    試訳の品質が低く校正が大変
    自然な訳文が思いつかない

    View Slide

  20. 英文の理解を進める上での課題
    課題
    ● 文章に登場する文法や単語の意味がわからない
    ● 原文が不明瞭で、具体例を挙げようとすると詰まってしまう
    ChatGPTが登場する前の対処法
    ● 辞書で調べる
    ● Google検索で調べる
    ● ネイティブな友人に読解してもらう
    ○ 最終的な品質を担保する唯一のアプローチ
    ○ ドメイン知識は都度私が補足
    ■ 作業コストが重い
    打出さんパート:英文の理解(ChatGPT登場前)
    20

    View Slide

  21. 特定の単語について、ピンポイントに質問する
    ● 「文章中のこの単語はどのような意味ですか?」と聞く
    ● 前後の文脈を踏まえた質問ができる
    ● 辞書や文法書で調べるより効率的(ただしファクトチェックは必要)
    打出さんパート:英文の理解(ChatGPT登場後)
    21

    View Slide

  22. 原文が不明瞭な場合に、具体例を挙げてもらう
    ● 「具体例を挙げてください」と聞く
    ● ChatGPT自身の知識を用いて、原著の行間を埋める
    ● 正確性の保証はないが、理解の助けになる
    打出さんパート:英文の理解(ChatGPT登場後)
    22

    View Slide

  23. ドメイン用語を検討する上での課題
    課題
    ● どの用語もしっくりこない、決め手に欠ける
    ● どの用語を選択すると、ニュアンスがどう変わるのか掴みきれない
    ChatGPTが登場する前の対処法
    ● 用語の基準整理
    ● 使用箇所を探す
    ● 実際に当てはめてみて、しっくりくるものを探す
    打出さんパート:ドメイン用語の検討(ChatGPT登場前)
    23

    View Slide

  24. 用語を選ぶ上での論点整理、評価に活用
    打出さんパート:ドメイン用語の検討(ChatGPT登場後)
    24
    Q. まずは素直に聞いてみる
    候補数と良し悪しについても合わせて聞く
    一般向け→「次元モデリング」
    専門家向け→「ディメンショナルモデリング」

    View Slide

  25. 用語を選ぶ上での論点整理、評価に活用
    打出さんパート:ドメイン用語の検討(ChatGPT登場後)
    25
    Q. 曖昧な問いを、曖昧なまま問いかける
    カタカナの表記揺れ、という論点の提示
    業界の慣習に合わせて統一すべき、という提案

    View Slide

  26. 用語を選ぶ上での論点整理、評価に活用
    打出さんパート:ドメイン用語の検討(ChatGPT登場後)
    26
    Q. 今までの議論を踏まえて判断してもらう
    「強いて言えば〜」で言い逃れを防ぐ
    専門家向けの本なので「ディメンション」

    View Slide

  27. 自然な訳文を検討する上での課題
    課題
    ● 文章に違和感を感じても、対処法が思いつかない
    ● 英単語に対応する日本語がないことがある
    ChatGPTが登場する前の対処法
    ● 素の訳文を頑張って考える
    ● 自分が納得するまで、訳文を改良し、より良いものを選ぶ
    ● 最後は、ネイティブな友人に考えてもらう
    打出さんパート:自然な訳文の検討(ChatGPT登場前)
    27

    View Slide

  28. 素の訳文を生成
    打出さんパート:自然な訳文の検討(ChatGPT登場後)
    28

    View Slide

  29. 訳文をブラッシュアップ
    打出さんパート:自然な訳文の検討(ChatGPT登場後)
    29
    Q. 日本語訳してください → 日本語で表してください
    Q. 訳語指定 + 日本語が自然になるようにしてください
    Q. 文末を言い切ってください
    Q. “estimate”を文末から文頭に移動してください
    約100,000件 → 約10万件
    自動車事故→交通事故
    運転手の眠気が〜を引き起こし→運転中の眠気が原因で
    それによりおおよそ → その結果、おおよそ
    〜と推定されています → 〜によると、〜
    しているとされています → しています

    View Slide

  30. ChatGPTを用いることで、レビュー作業の大半が楽になった
    打出さんパート:レビュー作業 > まとめ
    30
    作業工程 課題 ChatGPT導入前 ChatGPT導入後
    英文の読解 英文の意味が理解で
    きない
    原文の記述が曖昧
    辞書やweb検索を用いた読解
    ネイティブな友人による読解支援
    文中の特定の単語に絞った解説
    曖昧な表現に対する具体例の生成
    ネイティブな友人による読解支援
    ドメイン用語
    の検討
    適切な訳語を思いつ
    かない
    決めきれない
    訳者による論点整理
    訳者が訳語の候補を評価
    訳者同士での議論、決定
    ChatGPTによる論点整理
    ChatGPTが訳語の候補を評価
    訳者同士での議論、決定
    訳文の
    ブラッシュ
    アップ
    試訳の品質が低く校
    正が大変
    自然な訳文が思いつ
    かない
    DeepLによる低品質な試訳の生成
    訳者による訳文の改良
    ネイティブな友人による改良
    GPT4による高品質な試訳の生成
    ChatGPTとの対話で訳文を改良
    ネイティブな友人による改良
    ※赤字はChatGPTによって楽になった作業

    View Slide

  31. 2023年3月からGPT4を利用中
    打出さんパート:ChatGPT導入効果 > 時系列
    31

    View Slide

  32. ChatGPTの導入によって、作業効率と質がどちらも向上した
    作業効率が2倍になった
    ● LLMが元から保有する知識を用いて具体例を生成できる。理解速度が上がる
    ● 訳文を1から考えるのではなく、生成されたものを採用するかを判断すればよい
    訳文の質が上がった
    ● 素の訳文の品質が高い
    ● DeepLより翻訳精度が高い
    ○ より自然な訳文を返す
    ○ 過去の対話履歴を元に自己学習する
    打出さんパート:ChatGPT導入効果 > 効果
    32

    View Slide

  33. 人手による翻訳タスクにおいて、DeepLだけでは機能が不十分
    ● DeepLはあくまで機械翻訳ツールであり、人手による翻訳を前提としていない
    ● ChatGPTは英文読解の手助けから対話的な訳のブラッシュアップまでこなす
    打出さんパート:ChatGPT導入効果 > DeepLとChatGPTとの比較
    33
    ChatGPT(GPT4) DeepL
    試訳の生成 ○ ○
    用語集の適用 △(大量の指定は手間) ○
    トンマナの調整(です/ます など) ○ △(日本語は非対応)
    英文の解説、具体例の生成 ○ ×
    ドメイン用語の検討 ○ ×
    訳文のブラッシュアップ ○(文全体の一括適用) △(個別の調整は可能)

    View Slide

  34. 最終的な品質はChatGPTでなく訳者が保証する
    ● 訳文に不安が残ることもある。ネイティブによるチェックが必要
    ● 最終的な責任、品質担保は翻訳者が担う
    打出さんパート:ChatGPT導入効果 > ChatGPTの限界
    34

    View Slide


  35. ChatGPTを使うことで、翻訳作業における多くの工程の負担を楽にできる

    不明瞭な英文の読解

    用語を検討する上での論点整理

    質の高い試訳の作成

    対話を通じた訳文のブラッシュアップ

    最終的な訳文の品質担保の責任は訳者。必要に応じて人手によるチェックが必要

    ChatGPTに対して適切に問いを投げかける力が必要
    打出さんパート:まとめ
    35

    View Slide

  36. ITコンサル業を加速させたり、Azure周辺のデータソリューションの話(仮)
    ゆずたそパート
    36
    ……タイトルから(仮)を外さないまま登壇しがち

    View Slide

  37. @yuzutas0 / ゆずたそ
    風音屋 代表取締役
    慶應義塾大学にて金融・計量経済学を専攻。リクルートやメルカリにてデータ活用を推進、外資ITを経て、現職。
    広告配信の最適化や店舗営業のインセンティブ改善など、データ分析によって数億円規模のインパクトを創出。
    100社のデータ経営を実現して各産業の活性化に貢献すべく日々奮闘中。
    ゆずたそパート:自己紹介
    37
    主な登壇・発表
    ・Pythonのカンファレンス PyCon JP 2017 ベストトークアワード優秀賞
    ・翔泳社主催 Developers Summit 2018 Summer ベストスピーカー賞
    ・Google主催 Google Cloud Day 2021
    ・日本統計学会 第16回春季集会
    主な執筆・出版
    ・ITmedia「データ基盤 大解剖」(連載記事)
    ・技術評論社『実践的データ基盤の処方箋』
    ・技術評論社『Software Deign 2020年7月号 - ログ分析特集』
    ・『データマネジメントが30分でわかる本』

    View Slide

  38. データ組織におけるあらゆる業務を加速できる
    ゆずたそパート:ChatGPT活用例
    38
    リサーチ 分析・開発 保守運用
    採用 働き方 研修
    マネジメント 経理 広報
    エンジニア
    リング
    チーム
    会社運営
    Azureの各データソリューション
    リサーチ

    View Slide

  39. [海外事例リサーチ] GitLab Data Team Handbook
    ・GitLab社のデータチームがドキュメントを公開している→Git Cloneでローカルに取得。
    ・ファイル構成をChatGPTに教えて、ファイル読み取りのスクリプトを作ってもらう。
    ・スクリプトで取得した内容をもとに、各ページの概要を3行で翻訳&要約してもらう。
    ゆずたそパート:エンジニアリング > リサーチ業務
    39
    https://about.gitlab.com/handbook/business-technology/data-team/

    View Slide

  40. SQLやPythonの実装
    ・徹夜時など「頭は動かないけど手は動く」というときにブレインを肩代わりしてもらう。
    ・(BIツールがあるので普段は使わない)Pythonでの可視化の方法を教えてもらう。
    ・嘘をついたり動かないときは、要件を具体化していけば、徐々に答えに近づく。
    ゆずたそパート:エンジニアリング > 分析&開発
    40

    View Slide

  41. クラウドサービスのリリースノート要約
    ・Snowflakeなどのクラウドサービスの更新情報を簡単にキャッチアップできる。
    ・リリースノートをコピペして翻訳&要約してもらう。
    ・毎月のシステム運用保守レポートのAppendixに掲載。
    ゆずたそパート:エンジニアリング > 保守運用
    41
    https://docs.snowflake.com/release-notes/new-features

    View Slide

  42. 採用時のキャリア相談
    ・採用候補者に「3ヶ月でデータ人材への転職を目指す講座」を提供中。
    ・メッセージで「◯◯について困っています」相談をいただくことがある。
    ・ChatGPTで一般的なアドバイスの草案を作った後に、自分なりに手直し。
    ゆずたそパート:チーム > 採用
    42
    具体的な
    相談メッセージ
    一般化して
    ChatGPTに質問
    一般的な回答
    趣旨を元に加工&
    自分の意見を加味
    具体的な
    アドバイス回答

    View Slide

  43. 生産性向上プログラムの案内メッセージ
    ・テレワーク環境整備のため、超大型モニタ、昇降デスク、ハイエンドチェア等を貸与
    ・業務分の電気代やインターネット利用料を経費申請対象に追加(上限あり)
    ・これらは「福利厚生=報酬」ではなく「生産性向上プログラム=投資」の位置付け
    ・社員1人1人の自宅に、案内レターが届くようになっている
    ・(小さな会社なので)社長である自分が打ち合わせのない夜中に文章を書いた
    ・夜中の作業→頭が回らない→ChatGPTに叩き台を書いてもらう→自分の言葉で書き直す
    ゆずたそパート:チーム > 働き方
    43

    View Slide

  44. スキルアップのための研修コンテンツを量産
    ・エンジニアリングやデータ分析など、テクニカルなスキルは課題図書をリストアップ済み
    ・風音屋に関わる人はテクニカルスキル習得のモチベーションは高い(素晴らしい!)
    ・むしろ業務で課題になるのはビジネススキル(例:差し込み依頼にどう返信するか)
    ・ジュニアなデータ人材は dbtやSnowflakeより先にタスク管理やライティングを学ぶべき
    ・具体的なシチュエーション、OK例、NG例、解説、クイズをChatGPTに作ってもらう
    ゆずたそパート:チーム > 研修
    44

    View Slide

  45. プロジェクト撤退判断、金額交渉、キーパーソンからの苦情への対応
    ・マネジメントにおける意思決定は、そのトピックが重要であれば重要であるほど
     「自分の感情」が乗ってしまい、意思決定を歪めてしまう恐れがある。
    ・ChatGPTは無慈悲かつ適当に「それっぽい一般的な正論」を言ってくれる。
    ・質問にあたって、問題を言語化・一般化するので、その過程で状況を客観視できる。
    ゆずたそパート:会社運営 > マネジメント
    45

    View Slide

  46. 業務委託スタッフの請求シートをアップデート
    ・稼働記録→請求書/証憑発行→銀行振込まで、スプレッドシート+GASで自動化済み。
    ・Before:銀行名と銀行コードを手動入力する運用だったが入力ミスが発生。
    ・After:プルダウンから選べるように改善。
    ・記載内容やシート関数をChatGPTに教えてもらう。
    ゆずたそパート:会社運営 > 経理
    46

    View Slide

  47. 登壇タイトルのブレスト
    ・2023年5月(来月)は Google Cloud Day '23 に熱田さんと共同登壇。
    ・ChatGPTの画面を投影しながら、登壇タイトルについてブレスト。
    ・ゆくゆくは風音屋TechTalkの文字起こしもOpenAI Serviceにやってほしいところ。
    ゆずたそパート:会社運営 > 広報
    47

    View Slide

  48. 現在は社内規定&端末ログで縛っているが……
    ・Google検索やSNS投稿と同じ位置付けと解釈してアナウンス
    ・念のため教師データへの転用はオプトアウト
    ・ビジネス向けプランが出るらしいので期待
    ゆずたそパート:商用利用についての注意点
    48

    View Slide

  49. ChatGPTで社内の業務データを使いたい→Azure Open AI Serviceを使うべし
    ・MSがエンタープライズ利用を約束済み
    ・Azure Data Factoryも推薦したい
    ・cosmosDBは今回はノーコメント
    (特にネガティブな意図ではないです)
    ゆずたそパート:Azure Open AI Service
    49

    View Slide

  50. Azureでデータ基盤をDev&Opsする場合のざっくり構成イメージ
    ・ETL/ELT:Azure Data Factory (AWSのGlue、GCPのCloud Dataflowに相当)
    ・ストレージ:Azure Blob Storage (AWSのS3、GCPのGCSに相当)
    ・DWH:Azure Synapse Analytics (AWSのAthena/Redshift、GCPのBigQueryに相当)
    ・BI:Microsoft Power BI (GoogleのLookerStudioに相当)
    ゆずたそパート:Azureのデータスタック概観
    50
    データ
    ソース
    データ
    ソース
    Data
    Factory
    データ
    ソース
    Blob
    Storage
    Power BI
    XXX
    システム
    Open AI
    Service
    Data Factory
    Synapse
    Analytics
    加工
    データ
    ロー
    データ

    View Slide

  51. Synapseのざっくり使い勝手
    ◯ UI(利用者視点)
    【Good】BigQueryやSnowflakeと似たコンソールで、使い勝手も同等。
    【More】MSSQLというMicrosoft独自のクエリに慣れが必要。1ヶ月くらい触れば慣れる。
    ◯ セキュリティ(管理者視点)
    【Good】コンソールのIP制限など、基本的なセキュリティ設定は簡単に実現できる。
    IP ファイアウォール規則を構成する - Azure Synapse Analytics | Microsoft Learn
    【More】権限管理に慣れが必要。1ヶ月くらい触れば慣れる。
    Azure Synapse ワークスペースのアクセス制御を設定する方法
    ゆずたそパート:Azure Synapse Analytics
    51

    View Slide

  52. Synapseの画面イメージ
    ゆずたそパート:Azure Synapse Analytics
    52

    View Slide

  53. Azure Data Factoryによるデータ収集
    ・ざっくり機能比較表を作ると、ほぼ◯になる。
    ・データのコピーだけならソフトウェアエンジニア以外も利用可能で、商用事例も多数。
     AWSのGlueやGCPのDataflowに比べてUX差が顕著に見える(※個人の感想です)。
    ゆずたそパート:Azure Data Factory
    53

    View Slide

  54. Azure Data Factoryからのデータ転送
    ・Azure Synapse Analytics以外の他社DWHには対応していない。徹底的にロックイン。
    ・他社クラウドDWHとVPC連携しようとするとハマりどころが一気に増える。
    ・Data Gravity (データの重力) 観点ではDWH以上に転送ツールによる制約が大きい。
    ゆずたそパート:Azure Data Factory
    54

    View Slide

  55. ADFの画面イメージ①
    ・Azure SQL Database(RDB)からのデータ取得なら対象テーブルを画面で選ぶだけ。
    ・画面をポチポチと押していけば設定が完了する。
    ゆずたそパート:Azure Data Factory
    55

    View Slide

  56. ADFの画面イメージ②
    ・S3からのデータ取得はaccess keyとsecret access keyを設定すれば簡単に構築できる。
    ・ETL/ELT SaaSと同じようなUXと言える。
    ゆずたそパート:Azure Data Factory
    56

    View Slide

  57. Azure Data Factoryと他ETL/ELTサービスのざっくり比較(データ収集編)
    ゆずたそパート:ETL/ELT系サービスの比較
    57
    個人情報 構築コスト インフラ保守運用コスト 処理パフォーマンス マーケ部門で運用が完結
    各システムから指定場所にファ
    イルを置いてもらう

    ✕ 他チーム依頼が
    必要
    △ 作り方次第だが、
    他チームで保守運用が必要
    ◯ 推奨方法を数パターン
    案内すれば担保可能
    △ 調査方法の整備が必要+
    想定外エラー時にサポート必要
    画面でエクスポートの
    コマンドを実行
    ◯ ◯
    △ コード管理に比べて
    保守性は下がる
    ◯ ◯
    ETL SaaSを利用 ✕ 要確認 ◯ ◯
    △ 直接エクスポートに
    比べてシステムを1つ挟む

    VMインストール型の
    GUIソフトを使う

    △ インストールや
    構築作業が必要
    ✕ VMにインストールする
    △ 直接エクスポートに
    比べてシステムを1つ挟む
    △ データ収集の設定は
    できるが、VM管理が必要
    GlueやCloud dataflow ◯ △ 構築が必要
    ✕ システムは要見積もり+
    Sparkを扱える人材は高単価
    △ 直接エクスポートに
    比べてシステムを1つ挟む
    △ 使い勝手が独特で要PoC
    (✕になる可能性が高い)
    コンテナ・VMで
    プログラムを実行

    ✕ SWEによる
    構築が必要
    △ メンテナンスが必要+
    コンテナを扱える人材は高単価
    ◯ エクスポートコマンドを
    実行できるなら問題なし

    ADF ◯ ◯ ✕ 要見積もり
    △ 直接エクスポートに
    比べてシステムを1つ挟む

    View Slide

  58. Azure Data Factoryと他ETL/ELTサービスのざっくり比較(データ加工編)
    ゆずたそパート:ETL/ELT系サービスの比較
    58
    個人情報 構築コスト インフラ保守運用コスト 処理パフォーマンス マーケ部門で運用が完結
    画面上でクエリを実行 ◯
    △ DWHによっては
    自動化できない
    △ コード管理に比べて
    保守性は下がる
    ◯ ◯
    ELT SaaSを利用
    (dbt Cloudを含む)

    要確認
    ◯ ◯
    △ DWHでの直接クエリ発行に
    比べてシステムを1つ挟む
    (クエリ発行なら◯)

    VMインストール型の
    GUIソフトを使う

    △ インストールや
    構築作業が必要
    ✕ VMにインストールする
    △ DWHでの直接クエリ発行に
    比べてシステムを1つ挟む
    △ データ加工の設定は
    できるが、VM管理が必要
    GlueやCloud dataflow ◯ △ 構築作業が必要
    ✕ 要見積もり+
    Sparkを扱える人材は高単価
    △ DWHでの直接クエリ発行に
    比べてシステムを1つ挟む
    △ 使い勝手が独特で要PoC
    (✕になる可能性が高い)
    GCP dataform

    △ Preview版は設定必要
    (以前のSaaS版なら◯)
    ◯ ◯ DWHでの直接クエリ発行
    △ Preview版だと設定が必要
    (以前のSaaS版相当なら◯)
    コンテナ・VMで
    プログラムを実行
    (dbt Coreを含む)

    ✕ SWEによる構築が
    必要
    △ メンテナンスが必要+
    コンテナを扱える人材は高単価

    クエリ発行できるなら問題なし
    △ SQLまでは作れるが、
    VMやコンテナの管理が必要
    ADF ◯ ◯ ✕ 要見積もり
    △ DWHでの直接クエリ発行に
    比べてシステムを1つ挟む
    ✕ GUIでの加工は限界がある

    View Slide

  59. Azure Data Factoryで妥協するポイント
    ● データコピーのためにインスタンスでSparkの処理が走る。
    ○ コンピュート不要なのにコンピュート想定のリソースを動かしてしまう。
    ○ Embulk、Glue、Cloud Dataflow、TroccoなどのSaaSも同じだが……。
    ○ 各データソースのエクスポート機能や他社DWHのFederated Queryに比べると、
    効率が悪いように見えてしまう。
    ● リネージや依存管理には不向き。
    ○ 一応、複数の処理をパイプラインとして実行できるが……。
    ○ データ集計時にDWHのSQLではなくSparkの処理を走らせることになる。
    ○ 非ソフトウェアエンジニアが集計ロジックを作るのは難しいかも。
    ○ プログラムやSQLを書く場合に比べて、GUIで設計/表現するのは難しいかも。
    ○ SQLベースで管理できる dbt Cloud の Azure Native Integrated が欲しくなる。
    ゆずたそパート:ETL/ELT系サービスの比較
    59

    View Slide

  60. ChatGPTやAzureデータスタックは、非専門家フレンドリーなUXによって
    テクノロジーの民主化を促している点が魅力的。
    今回紹介したChatGPTやAzureの検証は、@yuzutas0+シニア1名が約3人日で実施。
    ● ユースケース開拓やアーキテクチャ構成を優先した。細かいテクニックは後回し。
    有益記事が大量に出ているので順次取り入れたいところ。
    ● 本資料で公開していないのは、処理パフォーマンスの計測やコストの試算。
    要件にもとづいて実施したが、具体的すぎるので割愛した。
    ● あまりシステムコストはかかっていない。Azureの検証環境を消し忘れて2ヶ月ほど
    放置した分のXX万円が追加コスト(風音屋の自腹)となっており、これが一番痛い。
    「新しいテクノロジーで価値を創出したい」「ベストプラクティスを模索したい」という人
    はぜひ風音屋で一緒に働きましょう。
    ゆずたそパート:おわりに
    60

    View Slide

  61. We're Hiring! & カジュアルトーク
    61
    風音屋の仕事に関心がある人に向けて、カジュアルトークの場を設けております。
    採用ページから応募可能です。ぜひお話しましょう。

    View Slide

  62. MENTAでスキルアップ講座を提供
    62
    ・ジュニア人材向けにスキルアップ講座を提供しています。
    ・メインは社会人2-3年目を想定していますが、厳密には条件を設けていません。
    ・今のところ受講者からの評価は「★5」のみで、レビューコメントも好評です。

    View Slide