Slide 1

Slide 1 text

ChatGPTを業務利用している データエンジニア3名の座談会 2023-04-18 ゆずたそ(風音屋) 熱田 亮(NE株式会社) 打出 紘基(ピクシブ株式会社) 風音屋TechTalk #4

Slide 2

Slide 2 text

本資料の利用により発生したいかなる損害に対しても資料作成者はその責任を負いかねます。 社名が提示されていないケーススタディやシステム構成については、 原則的に複数企業の事例を踏まえたダミー情報となります。 特定企業の情報公開や称賛・批判を意図するものではありません。 用語やツールの紹介は厳密ではありません。ご自身や所属チームでの理解・解釈が 紹介内容と異なる場合は、適宜読み替えていただけると幸いです。 本資料に記載されている会社名・製品名などは、一般に各社の登録商標または商標、 商品名です。資料内では ©, ®, ™ マーク等は省略させていただいております。 免責事項 2 (要するに)ケチつけないでね& お互いにルールを守ろうね

Slide 3

Slide 3 text

風音屋TechTalkは、風音屋(@kazaneya_PR)のクライアントや社員が気になっているテー マについて有識者から話を聞いたり、最近の取り組みやテクノロジーについてカジュアルに 話す勉強会です。 第4弾となる今回は、風音屋のクライアントであるNE株式会社の熱田様、風音屋アドバイ ザーとして翻訳プロジェクトをリードしている打出さん、風音屋代表の横山(ゆずたそ)の 3名でChatGPTの業務利用について話します。 イベントの趣旨 3

Slide 4

Slide 4 text

書籍『実践的データ基盤への処方箋』『データマネジメントが30分でわかる本』の著者、 ゆずたそ(@yuzutas0)が設立した会社。 ● 当面の目標は100社のデータ経営を実現し、各産業の活性化に貢献すること。 ● データエンジニア、データアナリスト、コンサルタントを採用中。著書・訳書を1冊出 版し、名実共に1人前のプロフェッショナルに成長できる環境を提供。 ● 業界の第一線で活躍する20名以上のアドバイザーたち(書籍著者、コミュニティ運営 者、OSSコントリビューター、元GAFAMなど)と一緒にベストプラクティスを開拓。 ● 転職希望のジュニア人材にはMENTAで講座を提供 ● 第二新卒が3ヶ月でデータアナリストへの転職を目指す講座 ● 第二新卒が3ヶ月でデータエンジニアへの転職を目指す講座 ● 第二新卒が3ヶ月でデータコンサルタントへの転職を目指す講座 株式会社 風音屋(かざねや)について 4

Slide 5

Slide 5 text

● 現在は社内規定&監査ログで縛っていますが、パナソニックさんやベネッセさんの方 式(Azure Open AI ServiceをラップしてChatGPTライクなUIを再現)のほうが明らか に良いので置き換えたいところです。 ● 自社トライアルの延長で、技術顧問先のうち5社で、ChatGPTの業務利用についてコン サルティングすることに……。 株式会社 風音屋(かざねや)とChatGPT 5

Slide 6

Slide 6 text

ChatGPTで教師データを作ってVertexAIでスケールさせようとした話 熱田さんパート 6

Slide 7

Slide 7 text

NE株式会社 熱田 亮 (@ryo_atsuta) Data Engineer / SRE 経歴 ● カリフォルニア州立大学CS卒業 ● 米スタートアップにて独自プロトコル等を担当 ● 電力システムやゲーム開発に携わる ● Hamee株式会社へSREとして入社 ● 年間流通額1兆円規模のデータ基盤を構築 ● 分社化後、NE株式会社にマーケティング統括部のデータエンジニアとして勤務 Zenn (https://zenn.dev/ryoatsuta) ● 機械学習という人工知能の技術 ● 「ドメイン駆動設計入門」を読んだ後 ● Docker Engineとは何か 熱田さんパート:自己紹介 7

Slide 8

Slide 8 text

NE株式会社 ● NE株式会社(エヌイー株式会社)はEC Attractions「NEXT ENGINE」を中核に、EC SaaS事業、ECコンサルティング事業、ふるさと納税支援事業を提供し、全てのコマー スを支えることを目指して活動 ● スマホケース「iFace」などを制作販売しているHamee株式会社から2022年8月に分社 して出来た会社 NEXT ENGINE ● NE株式会社が提供する一元管理ツール ● 複数のネットショップを一元管理し、ショップ運営を楽にする ● 2021年度の年間流通総額が1兆円を突破 ● ビジネス拡大施策としてデータ提供・販売を進めている 熱田さんパート:会社紹介 8

Slide 9

Slide 9 text

熱田さんパート:NEXT ENGINE 9

Slide 10

Slide 10 text

社内提供におけるデータ基盤の課題 データ基盤は構築したはいいものの... ● 商品がカテゴリーに分類できない ● ネクストエンジンでは「商品分類」が任意項目となっており、一部のモールのカテゴ リデータが存在しない ● このままだとデータ分析で最初に見たくなるであろう「このカテゴリーの売れ行きが 良い・悪い」を見ることができない 商品カテゴリー推定モデルが必要不可欠 熱田さんパート:背景・課題 10

Slide 11

Slide 11 text

商品カテゴリー推定モデルを構築するためアノテーションの自動化 熱田さんパート:今回の構成 11

Slide 12

Slide 12 text

熱田さんパート:デモ・スクリーンショット 12

Slide 13

Slide 13 text

熱田さんパート:デモ・スクリーンショット 13 データセット作成 学習・モデル構築

Slide 14

Slide 14 text

熱田さんパート:デモ・スクリーンショット 14

Slide 15

Slide 15 text

熱田さんパート:実験後の課題 15 Vertex AI, AutoMLによる商品カテゴリー推定の課題 ● 予測にかかるコストが想定以上に高かった ○ 数十億レコードある流通額テーブル全てに対して分類させてしまうと、 膨大なお金がかかることが発覚 ● TensorflowモデルをエクスポートしてCloudRunで並列実行できないか検証したが… ○ text classificationはエクスポートの対象外だった ● AutoML自体は機械学習のPoCをする分には非常に良い選択肢

Slide 16

Slide 16 text

打出さんパート: 16 ChatGPTを用いて翻訳作業を加速する話

Slide 17

Slide 17 text

打出さんパート:自己紹介 17 打出 紘基 / @hanon52_ 仕事 ● (ピクシブ株式会社)広告のアナリティクスエンジニア ● (風音屋)データモデリングに関する洋書の翻訳 資格・記事 ● GCP Professional Data Engineer ● 「鮮度」と「精度」を両立させる広告データ基盤のつくり方 語学力 ● 時間をかければ洋書の技術書をきちんと読める ● 長期の留学経験や海外在住経験はない

Slide 18

Slide 18 text

打出さんパート:洋書の翻訳はどのように行うのか 18 翻訳作業の大半はレビューに時間を使う

Slide 19

Slide 19 text

レビュー作業の3工程に関する課題 レビュー作業は、以下の3工程に分類できる それぞれの工程では、訳者を悩ませる課題が多く存在する ChatGPTを活用することで、これらの課題をどう解決するのかを説明する 打出さんパート:レビュー作業 > 課題 19 工程 概要 課題 英文の読解 原文の英文を読んで理解する 英文の意味が理解できない 原文の記述が曖昧 ドメイン用語 の検討 ドメイン固有の用語について、 適切な訳語を考える 適切な訳語が思いつかない 決めきれない 訳文の ブラッシュ アップ 一次翻訳文(試訳)の間違いを 直し、出版に耐えうる自然な日 本語へと品質を高める 試訳の品質が低く校正が大変 自然な訳文が思いつかない

Slide 20

Slide 20 text

英文の理解を進める上での課題 課題 ● 文章に登場する文法や単語の意味がわからない ● 原文が不明瞭で、具体例を挙げようとすると詰まってしまう ChatGPTが登場する前の対処法 ● 辞書で調べる ● Google検索で調べる ● ネイティブな友人に読解してもらう ○ 最終的な品質を担保する唯一のアプローチ ○ ドメイン知識は都度私が補足 ■ 作業コストが重い 打出さんパート:英文の理解(ChatGPT登場前) 20

Slide 21

Slide 21 text

特定の単語について、ピンポイントに質問する ● 「文章中のこの単語はどのような意味ですか?」と聞く ● 前後の文脈を踏まえた質問ができる ● 辞書や文法書で調べるより効率的(ただしファクトチェックは必要) 打出さんパート:英文の理解(ChatGPT登場後) 21

Slide 22

Slide 22 text

原文が不明瞭な場合に、具体例を挙げてもらう ● 「具体例を挙げてください」と聞く ● ChatGPT自身の知識を用いて、原著の行間を埋める ● 正確性の保証はないが、理解の助けになる 打出さんパート:英文の理解(ChatGPT登場後) 22

Slide 23

Slide 23 text

ドメイン用語を検討する上での課題 課題 ● どの用語もしっくりこない、決め手に欠ける ● どの用語を選択すると、ニュアンスがどう変わるのか掴みきれない ChatGPTが登場する前の対処法 ● 用語の基準整理 ● 使用箇所を探す ● 実際に当てはめてみて、しっくりくるものを探す 打出さんパート:ドメイン用語の検討(ChatGPT登場前) 23

Slide 24

Slide 24 text

用語を選ぶ上での論点整理、評価に活用 打出さんパート:ドメイン用語の検討(ChatGPT登場後) 24 Q. まずは素直に聞いてみる 候補数と良し悪しについても合わせて聞く 一般向け→「次元モデリング」 専門家向け→「ディメンショナルモデリング」

Slide 25

Slide 25 text

用語を選ぶ上での論点整理、評価に活用 打出さんパート:ドメイン用語の検討(ChatGPT登場後) 25 Q. 曖昧な問いを、曖昧なまま問いかける カタカナの表記揺れ、という論点の提示 業界の慣習に合わせて統一すべき、という提案

Slide 26

Slide 26 text

用語を選ぶ上での論点整理、評価に活用 打出さんパート:ドメイン用語の検討(ChatGPT登場後) 26 Q. 今までの議論を踏まえて判断してもらう 「強いて言えば〜」で言い逃れを防ぐ 専門家向けの本なので「ディメンション」

Slide 27

Slide 27 text

自然な訳文を検討する上での課題 課題 ● 文章に違和感を感じても、対処法が思いつかない ● 英単語に対応する日本語がないことがある ChatGPTが登場する前の対処法 ● 素の訳文を頑張って考える ● 自分が納得するまで、訳文を改良し、より良いものを選ぶ ● 最後は、ネイティブな友人に考えてもらう 打出さんパート:自然な訳文の検討(ChatGPT登場前) 27

Slide 28

Slide 28 text

素の訳文を生成 打出さんパート:自然な訳文の検討(ChatGPT登場後) 28

Slide 29

Slide 29 text

訳文をブラッシュアップ 打出さんパート:自然な訳文の検討(ChatGPT登場後) 29 Q. 日本語訳してください → 日本語で表してください Q. 訳語指定 + 日本語が自然になるようにしてください Q. 文末を言い切ってください Q. “estimate”を文末から文頭に移動してください 約100,000件 → 約10万件 自動車事故→交通事故 運転手の眠気が〜を引き起こし→運転中の眠気が原因で それによりおおよそ → その結果、おおよそ 〜と推定されています → 〜によると、〜 しているとされています → しています

Slide 30

Slide 30 text

ChatGPTを用いることで、レビュー作業の大半が楽になった 打出さんパート:レビュー作業 > まとめ 30 作業工程 課題 ChatGPT導入前 ChatGPT導入後 英文の読解 英文の意味が理解で きない 原文の記述が曖昧 辞書やweb検索を用いた読解 ネイティブな友人による読解支援 文中の特定の単語に絞った解説 曖昧な表現に対する具体例の生成 ネイティブな友人による読解支援 ドメイン用語 の検討 適切な訳語を思いつ かない 決めきれない 訳者による論点整理 訳者が訳語の候補を評価 訳者同士での議論、決定 ChatGPTによる論点整理 ChatGPTが訳語の候補を評価 訳者同士での議論、決定 訳文の ブラッシュ アップ 試訳の品質が低く校 正が大変 自然な訳文が思いつ かない DeepLによる低品質な試訳の生成 訳者による訳文の改良 ネイティブな友人による改良 GPT4による高品質な試訳の生成 ChatGPTとの対話で訳文を改良 ネイティブな友人による改良 ※赤字はChatGPTによって楽になった作業

Slide 31

Slide 31 text

2023年3月からGPT4を利用中 打出さんパート:ChatGPT導入効果 > 時系列 31

Slide 32

Slide 32 text

ChatGPTの導入によって、作業効率と質がどちらも向上した 作業効率が2倍になった ● LLMが元から保有する知識を用いて具体例を生成できる。理解速度が上がる ● 訳文を1から考えるのではなく、生成されたものを採用するかを判断すればよい 訳文の質が上がった ● 素の訳文の品質が高い ● DeepLより翻訳精度が高い ○ より自然な訳文を返す ○ 過去の対話履歴を元に自己学習する 打出さんパート:ChatGPT導入効果 > 効果 32

Slide 33

Slide 33 text

人手による翻訳タスクにおいて、DeepLだけでは機能が不十分 ● DeepLはあくまで機械翻訳ツールであり、人手による翻訳を前提としていない ● ChatGPTは英文読解の手助けから対話的な訳のブラッシュアップまでこなす 打出さんパート:ChatGPT導入効果 > DeepLとChatGPTとの比較 33 ChatGPT(GPT4) DeepL 試訳の生成 ○ ○ 用語集の適用 △(大量の指定は手間) ○ トンマナの調整(です/ます など) ○ △(日本語は非対応) 英文の解説、具体例の生成 ○ × ドメイン用語の検討 ○ × 訳文のブラッシュアップ ○(文全体の一括適用) △(個別の調整は可能)

Slide 34

Slide 34 text

最終的な品質はChatGPTでなく訳者が保証する ● 訳文に不安が残ることもある。ネイティブによるチェックが必要 ● 最終的な責任、品質担保は翻訳者が担う 打出さんパート:ChatGPT導入効果 > ChatGPTの限界 34

Slide 35

Slide 35 text

● ChatGPTを使うことで、翻訳作業における多くの工程の負担を楽にできる ○ 不明瞭な英文の読解 ○ 用語を検討する上での論点整理 ○ 質の高い試訳の作成 ○ 対話を通じた訳文のブラッシュアップ ● 最終的な訳文の品質担保の責任は訳者。必要に応じて人手によるチェックが必要 ● ChatGPTに対して適切に問いを投げかける力が必要 打出さんパート:まとめ 35

Slide 36

Slide 36 text

ITコンサル業を加速させたり、Azure周辺のデータソリューションの話(仮) ゆずたそパート 36 ……タイトルから(仮)を外さないまま登壇しがち

Slide 37

Slide 37 text

@yuzutas0 / ゆずたそ 風音屋 代表取締役 慶應義塾大学にて金融・計量経済学を専攻。リクルートやメルカリにてデータ活用を推進、外資ITを経て、現職。 広告配信の最適化や店舗営業のインセンティブ改善など、データ分析によって数億円規模のインパクトを創出。 100社のデータ経営を実現して各産業の活性化に貢献すべく日々奮闘中。 ゆずたそパート:自己紹介 37 主な登壇・発表 ・Pythonのカンファレンス PyCon JP 2017 ベストトークアワード優秀賞 ・翔泳社主催 Developers Summit 2018 Summer ベストスピーカー賞 ・Google主催 Google Cloud Day 2021 ・日本統計学会 第16回春季集会 主な執筆・出版 ・ITmedia「データ基盤 大解剖」(連載記事) ・技術評論社『実践的データ基盤の処方箋』 ・技術評論社『Software Deign 2020年7月号 - ログ分析特集』 ・『データマネジメントが30分でわかる本』

Slide 38

Slide 38 text

データ組織におけるあらゆる業務を加速できる ゆずたそパート:ChatGPT活用例 38 リサーチ 分析・開発 保守運用 採用 働き方 研修 マネジメント 経理 広報 エンジニア リング チーム 会社運営 Azureの各データソリューション リサーチ

Slide 39

Slide 39 text

[海外事例リサーチ] GitLab Data Team Handbook ・GitLab社のデータチームがドキュメントを公開している→Git Cloneでローカルに取得。 ・ファイル構成をChatGPTに教えて、ファイル読み取りのスクリプトを作ってもらう。 ・スクリプトで取得した内容をもとに、各ページの概要を3行で翻訳&要約してもらう。 ゆずたそパート:エンジニアリング > リサーチ業務 39 https://about.gitlab.com/handbook/business-technology/data-team/

Slide 40

Slide 40 text

SQLやPythonの実装 ・徹夜時など「頭は動かないけど手は動く」というときにブレインを肩代わりしてもらう。 ・(BIツールがあるので普段は使わない)Pythonでの可視化の方法を教えてもらう。 ・嘘をついたり動かないときは、要件を具体化していけば、徐々に答えに近づく。 ゆずたそパート:エンジニアリング > 分析&開発 40

Slide 41

Slide 41 text

クラウドサービスのリリースノート要約 ・Snowflakeなどのクラウドサービスの更新情報を簡単にキャッチアップできる。 ・リリースノートをコピペして翻訳&要約してもらう。 ・毎月のシステム運用保守レポートのAppendixに掲載。 ゆずたそパート:エンジニアリング > 保守運用 41 https://docs.snowflake.com/release-notes/new-features

Slide 42

Slide 42 text

採用時のキャリア相談 ・採用候補者に「3ヶ月でデータ人材への転職を目指す講座」を提供中。 ・メッセージで「◯◯について困っています」相談をいただくことがある。 ・ChatGPTで一般的なアドバイスの草案を作った後に、自分なりに手直し。 ゆずたそパート:チーム > 採用 42 具体的な 相談メッセージ 一般化して ChatGPTに質問 一般的な回答 趣旨を元に加工& 自分の意見を加味 具体的な アドバイス回答

Slide 43

Slide 43 text

生産性向上プログラムの案内メッセージ ・テレワーク環境整備のため、超大型モニタ、昇降デスク、ハイエンドチェア等を貸与 ・業務分の電気代やインターネット利用料を経費申請対象に追加(上限あり) ・これらは「福利厚生=報酬」ではなく「生産性向上プログラム=投資」の位置付け ・社員1人1人の自宅に、案内レターが届くようになっている ・(小さな会社なので)社長である自分が打ち合わせのない夜中に文章を書いた ・夜中の作業→頭が回らない→ChatGPTに叩き台を書いてもらう→自分の言葉で書き直す ゆずたそパート:チーム > 働き方 43

Slide 44

Slide 44 text

スキルアップのための研修コンテンツを量産 ・エンジニアリングやデータ分析など、テクニカルなスキルは課題図書をリストアップ済み ・風音屋に関わる人はテクニカルスキル習得のモチベーションは高い(素晴らしい!) ・むしろ業務で課題になるのはビジネススキル(例:差し込み依頼にどう返信するか) ・ジュニアなデータ人材は dbtやSnowflakeより先にタスク管理やライティングを学ぶべき ・具体的なシチュエーション、OK例、NG例、解説、クイズをChatGPTに作ってもらう ゆずたそパート:チーム > 研修 44

Slide 45

Slide 45 text

プロジェクト撤退判断、金額交渉、キーパーソンからの苦情への対応 ・マネジメントにおける意思決定は、そのトピックが重要であれば重要であるほど  「自分の感情」が乗ってしまい、意思決定を歪めてしまう恐れがある。 ・ChatGPTは無慈悲かつ適当に「それっぽい一般的な正論」を言ってくれる。 ・質問にあたって、問題を言語化・一般化するので、その過程で状況を客観視できる。 ゆずたそパート:会社運営 > マネジメント 45

Slide 46

Slide 46 text

業務委託スタッフの請求シートをアップデート ・稼働記録→請求書/証憑発行→銀行振込まで、スプレッドシート+GASで自動化済み。 ・Before:銀行名と銀行コードを手動入力する運用だったが入力ミスが発生。 ・After:プルダウンから選べるように改善。 ・記載内容やシート関数をChatGPTに教えてもらう。 ゆずたそパート:会社運営 > 経理 46

Slide 47

Slide 47 text

登壇タイトルのブレスト ・2023年5月(来月)は Google Cloud Day '23 に熱田さんと共同登壇。 ・ChatGPTの画面を投影しながら、登壇タイトルについてブレスト。 ・ゆくゆくは風音屋TechTalkの文字起こしもOpenAI Serviceにやってほしいところ。 ゆずたそパート:会社運営 > 広報 47

Slide 48

Slide 48 text

現在は社内規定&端末ログで縛っているが…… ・Google検索やSNS投稿と同じ位置付けと解釈してアナウンス ・念のため教師データへの転用はオプトアウト ・ビジネス向けプランが出るらしいので期待 ゆずたそパート:商用利用についての注意点 48

Slide 49

Slide 49 text

ChatGPTで社内の業務データを使いたい→Azure Open AI Serviceを使うべし ・MSがエンタープライズ利用を約束済み ・Azure Data Factoryも推薦したい ・cosmosDBは今回はノーコメント (特にネガティブな意図ではないです) ゆずたそパート:Azure Open AI Service 49

Slide 50

Slide 50 text

Azureでデータ基盤をDev&Opsする場合のざっくり構成イメージ ・ETL/ELT:Azure Data Factory (AWSのGlue、GCPのCloud Dataflowに相当) ・ストレージ:Azure Blob Storage (AWSのS3、GCPのGCSに相当) ・DWH:Azure Synapse Analytics (AWSのAthena/Redshift、GCPのBigQueryに相当) ・BI:Microsoft Power BI (GoogleのLookerStudioに相当) ゆずたそパート:Azureのデータスタック概観 50 データ ソース データ ソース Data Factory データ ソース Blob Storage Power BI XXX システム Open AI Service Data Factory Synapse Analytics 加工 データ ロー データ

Slide 51

Slide 51 text

Synapseのざっくり使い勝手 ◯ UI(利用者視点) 【Good】BigQueryやSnowflakeと似たコンソールで、使い勝手も同等。 【More】MSSQLというMicrosoft独自のクエリに慣れが必要。1ヶ月くらい触れば慣れる。 ◯ セキュリティ(管理者視点) 【Good】コンソールのIP制限など、基本的なセキュリティ設定は簡単に実現できる。 IP ファイアウォール規則を構成する - Azure Synapse Analytics | Microsoft Learn 【More】権限管理に慣れが必要。1ヶ月くらい触れば慣れる。 Azure Synapse ワークスペースのアクセス制御を設定する方法 ゆずたそパート:Azure Synapse Analytics 51

Slide 52

Slide 52 text

Synapseの画面イメージ ゆずたそパート:Azure Synapse Analytics 52

Slide 53

Slide 53 text

Azure Data Factoryによるデータ収集 ・ざっくり機能比較表を作ると、ほぼ◯になる。 ・データのコピーだけならソフトウェアエンジニア以外も利用可能で、商用事例も多数。  AWSのGlueやGCPのDataflowに比べてUX差が顕著に見える(※個人の感想です)。 ゆずたそパート:Azure Data Factory 53

Slide 54

Slide 54 text

Azure Data Factoryからのデータ転送 ・Azure Synapse Analytics以外の他社DWHには対応していない。徹底的にロックイン。 ・他社クラウドDWHとVPC連携しようとするとハマりどころが一気に増える。 ・Data Gravity (データの重力) 観点ではDWH以上に転送ツールによる制約が大きい。 ゆずたそパート:Azure Data Factory 54

Slide 55

Slide 55 text

ADFの画面イメージ① ・Azure SQL Database(RDB)からのデータ取得なら対象テーブルを画面で選ぶだけ。 ・画面をポチポチと押していけば設定が完了する。 ゆずたそパート:Azure Data Factory 55

Slide 56

Slide 56 text

ADFの画面イメージ② ・S3からのデータ取得はaccess keyとsecret access keyを設定すれば簡単に構築できる。 ・ETL/ELT SaaSと同じようなUXと言える。 ゆずたそパート:Azure Data Factory 56

Slide 57

Slide 57 text

Azure Data Factoryと他ETL/ELTサービスのざっくり比較(データ収集編) ゆずたそパート:ETL/ELT系サービスの比較 57 個人情報 構築コスト インフラ保守運用コスト 処理パフォーマンス マーケ部門で運用が完結 各システムから指定場所にファ イルを置いてもらう ◯ ✕ 他チーム依頼が 必要 △ 作り方次第だが、 他チームで保守運用が必要 ◯ 推奨方法を数パターン 案内すれば担保可能 △ 調査方法の整備が必要+ 想定外エラー時にサポート必要 画面でエクスポートの コマンドを実行 ◯ ◯ △ コード管理に比べて 保守性は下がる ◯ ◯ ETL SaaSを利用 ✕ 要確認 ◯ ◯ △ 直接エクスポートに 比べてシステムを1つ挟む ◯ VMインストール型の GUIソフトを使う ◯ △ インストールや 構築作業が必要 ✕ VMにインストールする △ 直接エクスポートに 比べてシステムを1つ挟む △ データ収集の設定は できるが、VM管理が必要 GlueやCloud dataflow ◯ △ 構築が必要 ✕ システムは要見積もり+ Sparkを扱える人材は高単価 △ 直接エクスポートに 比べてシステムを1つ挟む △ 使い勝手が独特で要PoC (✕になる可能性が高い) コンテナ・VMで プログラムを実行 ◯ ✕ SWEによる 構築が必要 △ メンテナンスが必要+ コンテナを扱える人材は高単価 ◯ エクスポートコマンドを 実行できるなら問題なし ✕ ADF ◯ ◯ ✕ 要見積もり △ 直接エクスポートに 比べてシステムを1つ挟む ◯

Slide 58

Slide 58 text

Azure Data Factoryと他ETL/ELTサービスのざっくり比較(データ加工編) ゆずたそパート:ETL/ELT系サービスの比較 58 個人情報 構築コスト インフラ保守運用コスト 処理パフォーマンス マーケ部門で運用が完結 画面上でクエリを実行 ◯ △ DWHによっては 自動化できない △ コード管理に比べて 保守性は下がる ◯ ◯ ELT SaaSを利用 (dbt Cloudを含む) ✕ 要確認 ◯ ◯ △ DWHでの直接クエリ発行に 比べてシステムを1つ挟む (クエリ発行なら◯) ◯ VMインストール型の GUIソフトを使う ◯ △ インストールや 構築作業が必要 ✕ VMにインストールする △ DWHでの直接クエリ発行に 比べてシステムを1つ挟む △ データ加工の設定は できるが、VM管理が必要 GlueやCloud dataflow ◯ △ 構築作業が必要 ✕ 要見積もり+ Sparkを扱える人材は高単価 △ DWHでの直接クエリ発行に 比べてシステムを1つ挟む △ 使い勝手が独特で要PoC (✕になる可能性が高い) GCP dataform ◯ △ Preview版は設定必要 (以前のSaaS版なら◯) ◯ ◯ DWHでの直接クエリ発行 △ Preview版だと設定が必要 (以前のSaaS版相当なら◯) コンテナ・VMで プログラムを実行 (dbt Coreを含む) ◯ ✕ SWEによる構築が 必要 △ メンテナンスが必要+ コンテナを扱える人材は高単価 ◯ クエリ発行できるなら問題なし △ SQLまでは作れるが、 VMやコンテナの管理が必要 ADF ◯ ◯ ✕ 要見積もり △ DWHでの直接クエリ発行に 比べてシステムを1つ挟む ✕ GUIでの加工は限界がある

Slide 59

Slide 59 text

Azure Data Factoryで妥協するポイント ● データコピーのためにインスタンスでSparkの処理が走る。 ○ コンピュート不要なのにコンピュート想定のリソースを動かしてしまう。 ○ Embulk、Glue、Cloud Dataflow、TroccoなどのSaaSも同じだが……。 ○ 各データソースのエクスポート機能や他社DWHのFederated Queryに比べると、 効率が悪いように見えてしまう。 ● リネージや依存管理には不向き。 ○ 一応、複数の処理をパイプラインとして実行できるが……。 ○ データ集計時にDWHのSQLではなくSparkの処理を走らせることになる。 ○ 非ソフトウェアエンジニアが集計ロジックを作るのは難しいかも。 ○ プログラムやSQLを書く場合に比べて、GUIで設計/表現するのは難しいかも。 ○ SQLベースで管理できる dbt Cloud の Azure Native Integrated が欲しくなる。 ゆずたそパート:ETL/ELT系サービスの比較 59

Slide 60

Slide 60 text

ChatGPTやAzureデータスタックは、非専門家フレンドリーなUXによって テクノロジーの民主化を促している点が魅力的。 今回紹介したChatGPTやAzureの検証は、@yuzutas0+シニア1名が約3人日で実施。 ● ユースケース開拓やアーキテクチャ構成を優先した。細かいテクニックは後回し。 有益記事が大量に出ているので順次取り入れたいところ。 ● 本資料で公開していないのは、処理パフォーマンスの計測やコストの試算。 要件にもとづいて実施したが、具体的すぎるので割愛した。 ● あまりシステムコストはかかっていない。Azureの検証環境を消し忘れて2ヶ月ほど 放置した分のXX万円が追加コスト(風音屋の自腹)となっており、これが一番痛い。 「新しいテクノロジーで価値を創出したい」「ベストプラクティスを模索したい」という人 はぜひ風音屋で一緒に働きましょう。 ゆずたそパート:おわりに 60

Slide 61

Slide 61 text

We're Hiring! & カジュアルトーク 61 風音屋の仕事に関心がある人に向けて、カジュアルトークの場を設けております。 採用ページから応募可能です。ぜひお話しましょう。

Slide 62

Slide 62 text

MENTAでスキルアップ講座を提供 62 ・ジュニア人材向けにスキルアップ講座を提供しています。 ・メインは社会人2-3年目を想定していますが、厳密には条件を設けていません。 ・今のところ受講者からの評価は「★5」のみで、レビューコメントも好評です。