風音屋TechTalk#4 ChatGPTを業務利用しているデータエンジニア3名の座談会 #kazaneya / 20230426

ChatGPTを業務利用しているデータエンジニア3名の座談会 2023-04-18 ゆずたそ（風音屋）熱田亮（NE株式会社）打出紘基（ピクシブ株式会社）風音屋TechTalk #4

本資料の利用により発生したいかなる損害に対しても資料作成者はその責任を負いかねます。社名が提示されていないケーススタディやシステム構成については、原則的に複数企業の事例を踏まえたダミー情報となります。特定企業の情報公開や称賛・批判を意図するものではありません。用語やツールの紹介は厳密ではありません。ご自身や所属チームでの理解・解釈が紹介内容と異なる場合は、適宜読み替えていただけると幸いです。本資料に記載されている会社名・製品名などは、一般に各社の登録商標または商標、商品名です。資料内では ©, ®,
™ マーク等は省略させていただいております。免責事項 2 （要するに）ケチつけないでね＆お互いにルールを守ろうね

風音屋TechTalkは、風音屋（@kazaneya_PR）のクライアントや社員が気になっているテーマについて有識者から話を聞いたり、最近の取り組みやテクノロジーについてカジュアルに話す勉強会です。第4弾となる今回は、風音屋のクライアントであるNE株式会社の熱田様、風音屋アドバイザーとして翻訳プロジェクトをリードしている打出さん、風音屋代表の横山（ゆずたそ）の 3名でChatGPTの業務利用について話します。イベントの趣旨 3

書籍『実践的データ基盤への処方箋』『データマネジメントが30分でわかる本』の著者、ゆずたそ（@yuzutas0）が設立した会社。 • 当面の目標は100社のデータ経営を実現し、各産業の活性化に貢献すること。 • データエンジニア、データアナリスト、コンサルタントを採用中。著書・訳書を1冊出版し、名実共に1人前のプロフェッショナルに成長できる環境を提供。 • 業界の第一線で活躍する20名以上のアドバイザーたち（書籍著者、コミュニティ運営者、OSSコントリビューター、元GAFAMなど）と一緒にベストプラクティスを開拓。
• 転職希望のジュニア人材にはMENTAで講座を提供 • 第二新卒が3ヶ月でデータアナリストへの転職を目指す講座 • 第二新卒が3ヶ月でデータエンジニアへの転職を目指す講座 • 第二新卒が3ヶ月でデータコンサルタントへの転職を目指す講座株式会社風音屋（かざねや）について 4

• 現在は社内規定＆監査ログで縛っていますが、パナソニックさんやベネッセさんの方式（Azure Open AI ServiceをラップしてChatGPTライクなUIを再現）のほうが明らかに良いので置き換えたいところです。 • 自社トライアルの延長で、技術顧問先のうち5社で、ChatGPTの業務利用についてコンサルティングすることに……。
株式会社風音屋（かざねや）とChatGPT 5

ChatGPTで教師データを作ってVertexAIでスケールさせようとした話熱田さんパート 6

NE株式会社熱田亮 (@ryo_atsuta) Data Engineer / SRE 経歴 •
カリフォルニア州立大学CS卒業 • 米スタートアップにて独自プロトコル等を担当 • 電力システムやゲーム開発に携わる • Hamee株式会社へSREとして入社 • 年間流通額1兆円規模のデータ基盤を構築 • 分社化後、NE株式会社にマーケティング統括部のデータエンジニアとして勤務 Zenn (https://zenn.dev/ryoatsuta) • 機械学習という人工知能の技術 • 「ドメイン駆動設計入門」を読んだ後 • Docker Engineとは何か熱田さんパート：自己紹介 7

NE株式会社 • NE株式会社（エヌイー株式会社）はEC Attractions「NEXT ENGINE」を中核に、EC SaaS事業、ECコンサルティング事業、ふるさと納税支援事業を提供し、全てのコマースを支えることを目指して活動 • スマホケース「iFace」などを制作販売しているHamee株式会社から2022年8月に分社して出来た会社
NEXT ENGINE • NE株式会社が提供する一元管理ツール • 複数のネットショップを一元管理し、ショップ運営を楽にする • 2021年度の年間流通総額が1兆円を突破 • ビジネス拡大施策としてデータ提供・販売を進めている熱田さんパート：会社紹介 8

熱田さんパート：NEXT ENGINE 9

社内提供におけるデータ基盤の課題データ基盤は構築したはいいものの... • 商品がカテゴリーに分類できない • ネクストエンジンでは「商品分類」が任意項目となっており、一部のモールのカテゴリデータが存在しない • このままだとデータ分析で最初に見たくなるであろう「このカテゴリーの売れ行きが良い・悪い」を見ることができない
商品カテゴリー推定モデルが必要不可欠熱田さんパート：背景・課題 10

商品カテゴリー推定モデルを構築するためアノテーションの自動化熱田さんパート：今回の構成 11

熱田さんパート：デモ・スクリーンショット 12

熱田さんパート：デモ・スクリーンショット 13 データセット作成学習・モデル構築

熱田さんパート：デモ・スクリーンショット 14

熱田さんパート：実験後の課題 15 Vertex AI, AutoMLによる商品カテゴリー推定の課題 • 予測にかかるコストが想定以上に高かった ◦ 数十億レコードある流通額テーブル全てに対して分類させてしまうと、膨大なお金がかかることが発覚
• TensorﬂowモデルをエクスポートしてCloudRunで並列実行できないか検証したが… ◦ text classiﬁcationはエクスポートの対象外だった • AutoML自体は機械学習のPoCをする分には非常に良い選択肢

打出さんパート： 16 ChatGPTを用いて翻訳作業を加速する話

打出さんパート：自己紹介 17 打出紘基 / @hanon52_ 仕事 • （ピクシブ株式会社）広告のアナリティクスエンジニア •
（風音屋）データモデリングに関する洋書の翻訳資格・記事 • GCP Professional Data Engineer • 「鮮度」と「精度」を両立させる広告データ基盤のつくり方語学力 • 時間をかければ洋書の技術書をきちんと読める • 長期の留学経験や海外在住経験はない

打出さんパート：洋書の翻訳はどのように行うのか 18 翻訳作業の大半はレビューに時間を使う

レビュー作業の3工程に関する課題レビュー作業は、以下の3工程に分類できるそれぞれの工程では、訳者を悩ませる課題が多く存在する ChatGPTを活用することで、これらの課題をどう解決するのかを説明する打出さんパート：レビュー作業 > 課題 19 工程概要
課題英文の読解原文の英文を読んで理解する英文の意味が理解できない原文の記述が曖昧ドメイン用語の検討ドメイン固有の用語について、適切な訳語を考える適切な訳語が思いつかない決めきれない訳文のブラッシュアップ一次翻訳文（試訳）の間違いを直し、出版に耐えうる自然な日本語へと品質を高める試訳の品質が低く校正が大変自然な訳文が思いつかない

英文の理解を進める上での課題課題 • 文章に登場する文法や単語の意味がわからない • 原文が不明瞭で、具体例を挙げようとすると詰まってしまう ChatGPTが登場する前の対処法 • 辞書で調べる •
Google検索で調べる • ネイティブな友人に読解してもらう ◦ 最終的な品質を担保する唯一のアプローチ ◦ ドメイン知識は都度私が補足 ▪ 作業コストが重い打出さんパート：英文の理解（ChatGPT登場前） 20

特定の単語について、ピンポイントに質問する • 「文章中のこの単語はどのような意味ですか？」と聞く • 前後の文脈を踏まえた質問ができる • 辞書や文法書で調べるより効率的（ただしファクトチェックは必要）打出さんパート：英文の理解（ChatGPT登場後） 21

原文が不明瞭な場合に、具体例を挙げてもらう • 「具体例を挙げてください」と聞く • ChatGPT自身の知識を用いて、原著の行間を埋める • 正確性の保証はないが、理解の助けになる打出さんパート：英文の理解（ChatGPT登場後） 22

ドメイン用語を検討する上での課題課題 • どの用語もしっくりこない、決め手に欠ける • どの用語を選択すると、ニュアンスがどう変わるのか掴みきれない ChatGPTが登場する前の対処法 • 用語の基準整理 •
使用箇所を探す • 実際に当てはめてみて、しっくりくるものを探す打出さんパート：ドメイン用語の検討（ChatGPT登場前） 23

用語を選ぶ上での論点整理、評価に活用打出さんパート：ドメイン用語の検討（ChatGPT登場後） 24 Q. まずは素直に聞いてみる候補数と良し悪しについても合わせて聞く一般向け→「次元モデリング」専門家向け→「ディメンショナルモデリング」

用語を選ぶ上での論点整理、評価に活用打出さんパート：ドメイン用語の検討（ChatGPT登場後） 25 Q. 曖昧な問いを、曖昧なまま問いかけるカタカナの表記揺れ、という論点の提示業界の慣習に合わせて統一すべき、という提案

用語を選ぶ上での論点整理、評価に活用打出さんパート：ドメイン用語の検討（ChatGPT登場後） 26 Q. 今までの議論を踏まえて判断してもらう「強いて言えば〜」で言い逃れを防ぐ専門家向けの本なので「ディメンション」

自然な訳文を検討する上での課題課題 • 文章に違和感を感じても、対処法が思いつかない • 英単語に対応する日本語がないことがある ChatGPTが登場する前の対処法 • 素の訳文を頑張って考える •
自分が納得するまで、訳文を改良し、より良いものを選ぶ • 最後は、ネイティブな友人に考えてもらう打出さんパート：自然な訳文の検討（ChatGPT登場前） 27

素の訳文を生成打出さんパート：自然な訳文の検討（ChatGPT登場後） 28

訳文をブラッシュアップ打出さんパート：自然な訳文の検討（ChatGPT登場後） 29 Q. 日本語訳してください → 日本語で表してください Q. 訳語指定 +
日本語が自然になるようにしてください Q. 文末を言い切ってください Q. “estimate”を文末から文頭に移動してください約100,000件 → 約10万件自動車事故→交通事故運転手の眠気が〜を引き起こし→運転中の眠気が原因でそれによりおおよそ → その結果、おおよそ〜と推定されています → 〜によると、〜しているとされています → しています

ChatGPTを用いることで、レビュー作業の大半が楽になった打出さんパート：レビュー作業 > まとめ 30 作業工程課題 ChatGPT導入前 ChatGPT導入後英文の読解
英文の意味が理解できない原文の記述が曖昧辞書やweb検索を用いた読解ネイティブな友人による読解支援文中の特定の単語に絞った解説曖昧な表現に対する具体例の生成ネイティブな友人による読解支援ドメイン用語の検討適切な訳語を思いつかない決めきれない訳者による論点整理訳者が訳語の候補を評価訳者同士での議論、決定 ChatGPTによる論点整理 ChatGPTが訳語の候補を評価訳者同士での議論、決定訳文のブラッシュアップ試訳の品質が低く校正が大変自然な訳文が思いつかない DeepLによる低品質な試訳の生成訳者による訳文の改良ネイティブな友人による改良 GPT4による高品質な試訳の生成 ChatGPTとの対話で訳文を改良ネイティブな友人による改良 ※赤字はChatGPTによって楽になった作業

2023年3月からGPT4を利用中打出さんパート：ChatGPT導入効果 > 時系列 31

ChatGPTの導入によって、作業効率と質がどちらも向上した作業効率が2倍になった • LLMが元から保有する知識を用いて具体例を生成できる。理解速度が上がる • 訳文を1から考えるのではなく、生成されたものを採用するかを判断すればよい訳文の質が上がった • 素の訳文の品質が高い •
DeepLより翻訳精度が高い ◦ より自然な訳文を返す ◦ 過去の対話履歴を元に自己学習する打出さんパート：ChatGPT導入効果 > 効果 32

人手による翻訳タスクにおいて、DeepLだけでは機能が不十分 • DeepLはあくまで機械翻訳ツールであり、人手による翻訳を前提としていない • ChatGPTは英文読解の手助けから対話的な訳のブラッシュアップまでこなす打出さんパート：ChatGPT導入効果 > DeepLとChatGPTとの比較 33 ChatGPT(GPT4)
DeepL 試訳の生成 ◦ ◦ 用語集の適用 △（大量の指定は手間） ◦ トンマナの調整（です/ますなど） ◦ △（日本語は非対応）英文の解説、具体例の生成 ◦ × ドメイン用語の検討 ◦ × 訳文のブラッシュアップ ◦（文全体の一括適用） △（個別の調整は可能）

最終的な品質はChatGPTでなく訳者が保証する • 訳文に不安が残ることもある。ネイティブによるチェックが必要 • 最終的な責任、品質担保は翻訳者が担う打出さんパート：ChatGPT導入効果 > ChatGPTの限界 34

• ChatGPTを使うことで、翻訳作業における多くの工程の負担を楽にできる ◦ 不明瞭な英文の読解 ◦ 用語を検討する上での論点整理 ◦ 質の高い試訳の作成 ◦ 対話を通じた訳文のブラッシュアップ
• 最終的な訳文の品質担保の責任は訳者。必要に応じて人手によるチェックが必要 • ChatGPTに対して適切に問いを投げかける力が必要打出さんパート：まとめ 35

ITコンサル業を加速させたり、Azure周辺のデータソリューションの話（仮）ゆずたそパート 36 ……タイトルから（仮）を外さないまま登壇しがち

@yuzutas0 / ゆずたそ風音屋　代表取締役慶應義塾大学にて金融・計量経済学を専攻。リクルートやメルカリにてデータ活用を推進、外資ITを経て、現職。広告配信の最適化や店舗営業のインセンティブ改善など、データ分析によって数億円規模のインパクトを創出。 100社のデータ経営を実現して各産業の活性化に貢献すべく日々奮闘中。ゆずたそパート：自己紹介 37 主な登壇・発表
・Pythonのカンファレンス PyCon JP 2017 ベストトークアワード優秀賞・翔泳社主催 Developers Summit 2018 Summer ベストスピーカー賞・Google主催 Google Cloud Day 2021 ・日本統計学会第16回春季集会主な執筆・出版・ITmedia「データ基盤大解剖」（連載記事）・技術評論社『実践的データ基盤の処方箋』・技術評論社『Software Deign 2020年7月号 - ログ分析特集』・『データマネジメントが30分でわかる本』

データ組織におけるあらゆる業務を加速できるゆずたそパート：ChatGPT活用例 38 リサーチ分析・開発保守運用採用働き方研修マネジメント
経理広報エンジニアリングチーム会社運営 Azureの各データソリューションリサーチ

[海外事例リサーチ] GitLab Data Team Handbook ・GitLab社のデータチームがドキュメントを公開している→Git Cloneでローカルに取得。・ファイル構成をChatGPTに教えて、ファイル読み取りのスクリプトを作ってもらう。・スクリプトで取得した内容をもとに、各ページの概要を3行で翻訳＆要約してもらう。ゆずたそパート：エンジニアリング
> リサーチ業務 39 https://about.gitlab.com/handbook/business-technology/data-team/

SQLやPythonの実装・徹夜時など「頭は動かないけど手は動く」というときにブレインを肩代わりしてもらう。・（BIツールがあるので普段は使わない）Pythonでの可視化の方法を教えてもらう。・嘘をついたり動かないときは、要件を具体化していけば、徐々に答えに近づく。ゆずたそパート：エンジニアリング > 分析＆開発 40

クラウドサービスのリリースノート要約・Snowﬂakeなどのクラウドサービスの更新情報を簡単にキャッチアップできる。・リリースノートをコピペして翻訳＆要約してもらう。・毎月のシステム運用保守レポートのAppendixに掲載。ゆずたそパート：エンジニアリング > 保守運用 41 https://docs.snowflake.com/release-notes/new-features

採用時のキャリア相談・採用候補者に「3ヶ月でデータ人材への転職を目指す講座」を提供中。・メッセージで「◯◯について困っています」相談をいただくことがある。・ChatGPTで一般的なアドバイスの草案を作った後に、自分なりに手直し。ゆずたそパート：チーム > 採用 42 具体的な相談メッセージ
一般化して ChatGPTに質問一般的な回答趣旨を元に加工＆自分の意見を加味具体的なアドバイス回答

生産性向上プログラムの案内メッセージ・テレワーク環境整備のため、超大型モニタ、昇降デスク、ハイエンドチェア等を貸与・業務分の電気代やインターネット利用料を経費申請対象に追加（上限あり）・これらは「福利厚生＝報酬」ではなく「生産性向上プログラム＝投資」の位置付け・社員1人1人の自宅に、案内レターが届くようになっている・（小さな会社なので）社長である自分が打ち合わせのない夜中に文章を書いた・夜中の作業→頭が回らない→ChatGPTに叩き台を書いてもらう→自分の言葉で書き直すゆずたそパート：チーム > 働き方
43

スキルアップのための研修コンテンツを量産・エンジニアリングやデータ分析など、テクニカルなスキルは課題図書をリストアップ済み・風音屋に関わる人はテクニカルスキル習得のモチベーションは高い（素晴らしい！）・むしろ業務で課題になるのはビジネススキル（例：差し込み依頼にどう返信するか）・ジュニアなデータ人材は dbtやSnowﬂakeより先にタスク管理やライティングを学ぶべき・具体的なシチュエーション、OK例、NG例、解説、クイズをChatGPTに作ってもらうゆずたそパート：チーム > 研修
44

プロジェクト撤退判断、金額交渉、キーパーソンからの苦情への対応・マネジメントにおける意思決定は、そのトピックが重要であれば重要であるほど　「自分の感情」が乗ってしまい、意思決定を歪めてしまう恐れがある。・ChatGPTは無慈悲かつ適当に「それっぽい一般的な正論」を言ってくれる。・質問にあたって、問題を言語化・一般化するので、その過程で状況を客観視できる。ゆずたそパート：会社運営 > マネジメント 45

業務委託スタッフの請求シートをアップデート・稼働記録→請求書/証憑発行→銀行振込まで、スプレッドシート＋GASで自動化済み。・Before：銀行名と銀行コードを手動入力する運用だったが入力ミスが発生。・After：プルダウンから選べるように改善。・記載内容やシート関数をChatGPTに教えてもらう。ゆずたそパート：会社運営 > 経理 46

登壇タイトルのブレスト・2023年5月（来月）は Google Cloud Day '23 に熱田さんと共同登壇。・ChatGPTの画面を投影しながら、登壇タイトルについてブレスト。・ゆくゆくは風音屋TechTalkの文字起こしもOpenAI Serviceにやってほしいところ。
ゆずたそパート：会社運営 > 広報 47

現在は社内規定＆端末ログで縛っているが…… ・Google検索やSNS投稿と同じ位置付けと解釈してアナウンス・念のため教師データへの転用はオプトアウト・ビジネス向けプランが出るらしいので期待ゆずたそパート：商用利用についての注意点 48

ChatGPTで社内の業務データを使いたい→Azure Open AI Serviceを使うべし・MSがエンタープライズ利用を約束済み・Azure Data Factoryも推薦したい・cosmosDBは今回はノーコメント（特にネガティブな意図ではないです）
ゆずたそパート：Azure Open AI Service 49

Azureでデータ基盤をDev&Opsする場合のざっくり構成イメージ・ETL/ELT：Azure Data Factory (AWSのGlue、GCPのCloud Dataﬂowに相当) ・ストレージ：Azure Blob Storage (AWSのS3、GCPのGCSに相当)
・DWH：Azure Synapse Analytics (AWSのAthena/Redshift、GCPのBigQueryに相当) ・BI：Microsoft Power BI (GoogleのLookerStudioに相当) ゆずたそパート：Azureのデータスタック概観 50 データソースデータソース Data Factory データソース Blob Storage Power BI XXX システム Open AI Service Data Factory Synapse Analytics 加工データローデータ

Synapseのざっくり使い勝手 ◯ UI（利用者視点）【Good】BigQueryやSnowﬂakeと似たコンソールで、使い勝手も同等。【More】MSSQLというMicrosoft独自のクエリに慣れが必要。1ヶ月くらい触れば慣れる。 ◯ セキュリティ（管理者視点）【Good】コンソールのIP制限など、基本的なセキュリティ設定は簡単に実現できる。 IP ファイアウォール規則を構成する
- Azure Synapse Analytics | Microsoft Learn 【More】権限管理に慣れが必要。1ヶ月くらい触れば慣れる。 Azure Synapse ワークスペースのアクセス制御を設定する方法ゆずたそパート：Azure Synapse Analytics 51

Synapseの画面イメージゆずたそパート：Azure Synapse Analytics 52

Azure Data Factoryによるデータ収集・ざっくり機能比較表を作ると、ほぼ◯になる。・データのコピーだけならソフトウェアエンジニア以外も利用可能で、商用事例も多数。　AWSのGlueやGCPのDataﬂowに比べてUX差が顕著に見える（※個人の感想です）。ゆずたそパート：Azure Data Factory 53

Azure Data Factoryからのデータ転送・Azure Synapse Analytics以外の他社DWHには対応していない。徹底的にロックイン。・他社クラウドDWHとVPC連携しようとするとハマりどころが一気に増える。・Data Gravity (データの重力)
観点ではDWH以上に転送ツールによる制約が大きい。ゆずたそパート：Azure Data Factory 54

ADFの画面イメージ① ・Azure SQL Database（RDB）からのデータ取得なら対象テーブルを画面で選ぶだけ。・画面をポチポチと押していけば設定が完了する。ゆずたそパート：Azure Data Factory 55

ADFの画面イメージ② ・S3からのデータ取得はaccess keyとsecret access keyを設定すれば簡単に構築できる。・ETL/ELT SaaSと同じようなUXと言える。ゆずたそパート：Azure Data Factory
56

Azure Data Factoryと他ETL/ELTサービスのざっくり比較（データ収集編）ゆずたそパート：ETL/ELT系サービスの比較 57 個人情報構築コストインフラ保守運用コスト処理パフォーマンスマーケ部門で運用が完結
各システムから指定場所にファイルを置いてもらう ◯ ✕　他チーム依頼が必要 △　作り方次第だが、他チームで保守運用が必要 ◯　推奨方法を数パターン案内すれば担保可能 △　調査方法の整備が必要＋想定外エラー時にサポート必要画面でエクスポートのコマンドを実行 ◯ ◯ △　コード管理に比べて保守性は下がる ◯ ◯ ETL SaaSを利用 ✕　要確認 ◯ ◯ △　直接エクスポートに比べてシステムを1つ挟む ◯ VMインストール型の GUIソフトを使う ◯ △　インストールや構築作業が必要 ✕　VMにインストールする △　直接エクスポートに比べてシステムを1つ挟む △　データ収集の設定はできるが、VM管理が必要 GlueやCloud dataflow ◯ △　構築が必要 ✕　システムは要見積もり＋ Sparkを扱える人材は高単価 △　直接エクスポートに比べてシステムを1つ挟む △　使い勝手が独特で要PoC （✕になる可能性が高い）コンテナ・VMでプログラムを実行 ◯ ✕　SWEによる構築が必要 △　メンテナンスが必要＋コンテナを扱える人材は高単価 ◯　エクスポートコマンドを実行できるなら問題なし ✕ ADF ◯ ◯ ✕　要見積もり △　直接エクスポートに比べてシステムを1つ挟む ◯

Azure Data Factoryと他ETL/ELTサービスのざっくり比較（データ加工編）ゆずたそパート：ETL/ELT系サービスの比較 58 個人情報構築コストインフラ保守運用コスト処理パフォーマンスマーケ部門で運用が完結
画面上でクエリを実行 ◯ △　DWHによっては自動化できない △　コード管理に比べて保守性は下がる ◯ ◯ ELT SaaSを利用（dbt Cloudを含む） ✕ 要確認 ◯ ◯ △　DWHでの直接クエリ発行に比べてシステムを1つ挟む（クエリ発行なら◯） ◯ VMインストール型の GUIソフトを使う ◯ △　インストールや構築作業が必要 ✕　VMにインストールする △　DWHでの直接クエリ発行に比べてシステムを1つ挟む △　データ加工の設定はできるが、VM管理が必要 GlueやCloud dataflow ◯ △　構築作業が必要 ✕　要見積もり＋ Sparkを扱える人材は高単価 △　DWHでの直接クエリ発行に比べてシステムを1つ挟む △　使い勝手が独特で要PoC （✕になる可能性が高い） GCP dataform ◯ △　Preview版は設定必要（以前のSaaS版なら◯） ◯ ◯　DWHでの直接クエリ発行 △　Preview版だと設定が必要（以前のSaaS版相当なら◯）コンテナ・VMでプログラムを実行（dbt Coreを含む） ◯ ✕　SWEによる構築が必要 △　メンテナンスが必要＋コンテナを扱える人材は高単価 ◯ クエリ発行できるなら問題なし △　SQLまでは作れるが、 VMやコンテナの管理が必要 ADF ◯ ◯ ✕　要見積もり △　DWHでの直接クエリ発行に比べてシステムを1つ挟む ✕　GUIでの加工は限界がある

Azure Data Factoryで妥協するポイント • データコピーのためにインスタンスでSparkの処理が走る。 ◦ コンピュート不要なのにコンピュート想定のリソースを動かしてしまう。 ◦ Embulk、Glue、Cloud Dataﬂow、TroccoなどのSaaSも同じだが……。
◦ 各データソースのエクスポート機能や他社DWHのFederated Queryに比べると、効率が悪いように見えてしまう。 • リネージや依存管理には不向き。 ◦ 一応、複数の処理をパイプラインとして実行できるが……。 ◦ データ集計時にDWHのSQLではなくSparkの処理を走らせることになる。 ◦ 非ソフトウェアエンジニアが集計ロジックを作るのは難しいかも。 ◦ プログラムやSQLを書く場合に比べて、GUIで設計/表現するのは難しいかも。 ◦ SQLベースで管理できる dbt Cloud の Azure Native Integrated が欲しくなる。ゆずたそパート：ETL/ELT系サービスの比較 59

ChatGPTやAzureデータスタックは、非専門家フレンドリーなUXによってテクノロジーの民主化を促している点が魅力的。今回紹介したChatGPTやAzureの検証は、@yuzutas0＋シニア1名が約３人日で実施。 • ユースケース開拓やアーキテクチャ構成を優先した。細かいテクニックは後回し。有益記事が大量に出ているので順次取り入れたいところ。 • 本資料で公開していないのは、処理パフォーマンスの計測やコストの試算。要件にもとづいて実施したが、具体的すぎるので割愛した。 •
あまりシステムコストはかかっていない。Azureの検証環境を消し忘れて2ヶ月ほど放置した分のXX万円が追加コスト（風音屋の自腹）となっており、これが一番痛い。「新しいテクノロジーで価値を創出したい」「ベストプラクティスを模索したい」という人はぜひ風音屋で一緒に働きましょう。ゆずたそパート：おわりに 60

We're Hiring! & カジュアルトーク 61 風音屋の仕事に関心がある人に向けて、カジュアルトークの場を設けております。採用ページから応募可能です。ぜひお話しましょう。

MENTAでスキルアップ講座を提供 62 ・ジュニア人材向けにスキルアップ講座を提供しています。・メインは社会人2-3年目を想定していますが、厳密には条件を設けていません。・今のところ受講者からの評価は「★5」のみで、レビューコメントも好評です。

風音屋TechTalk#4 ChatGPTを業務利用しているデータエンジニア3名の座談会 #k...

風音屋TechTalk#4 ChatGPTを業務利用しているデータエンジニア3名の座談会 #kazaneya / 20230426

風音屋 (Kazaneya) PRO

More Decks by 風音屋 (Kazaneya)

Other Decks in Technology

Featured

Transcript

ChatGPTを業務利用しているデータエンジニア3名の座談会 2023-04-18 ゆずたそ（風音屋）熱田亮（NE株式会社）打出紘基（ピクシブ株式会社）風音屋TechTalk #4

ChatGPTで教師データを作ってVertexAIでスケールさせようとした話熱田さんパート 6

NE株式会社熱田亮 (@ryo_atsuta) Data Engineer / SRE 経歴 •

熱田さんパート：NEXT ENGINE 9

商品カテゴリー推定モデルを構築するためアノテーションの自動化熱田さんパート：今回の構成 11

熱田さんパート：デモ・スクリーンショット 12

熱田さんパート：デモ・スクリーンショット 13 データセット作成学習・モデル構築

熱田さんパート：デモ・スクリーンショット 14

打出さんパート： 16 ChatGPTを用いて翻訳作業を加速する話

打出さんパート：自己紹介 17 打出紘基 / @hanon52_ 仕事 • （ピクシブ株式会社）広告のアナリティクスエンジニア •

打出さんパート：洋書の翻訳はどのように行うのか 18 翻訳作業の大半はレビューに時間を使う

英文の理解を進める上での課題課題 • 文章に登場する文法や単語の意味がわからない • 原文が不明瞭で、具体例を挙げようとすると詰まってしまう ChatGPTが登場する前の対処法 • 辞書で調べる •

ドメイン用語を検討する上での課題課題 • どの用語もしっくりこない、決め手に欠ける • どの用語を選択すると、ニュアンスがどう変わるのか掴みきれない ChatGPTが登場する前の対処法 • 用語の基準整理 •

用語を選ぶ上での論点整理、評価に活用打出さんパート：ドメイン用語の検討（ChatGPT登場後） 26 Q. 今までの議論を踏まえて判断してもらう「強いて言えば〜」で言い逃れを防ぐ専門家向けの本なので「ディメンション」

自然な訳文を検討する上での課題課題 • 文章に違和感を感じても、対処法が思いつかない • 英単語に対応する日本語がないことがある ChatGPTが登場する前の対処法 • 素の訳文を頑張って考える •

素の訳文を生成打出さんパート：自然な訳文の検討（ChatGPT登場後） 28

訳文をブラッシュアップ打出さんパート：自然な訳文の検討（ChatGPT登場後） 29 Q. 日本語訳してください → 日本語で表してください Q. 訳語指定 +

ChatGPTを用いることで、レビュー作業の大半が楽になった打出さんパート：レビュー作業 > まとめ 30 作業工程課題 ChatGPT導入前 ChatGPT導入後英文の読解

2023年3月からGPT4を利用中打出さんパート：ChatGPT導入効果 > 時系列 31

最終的な品質はChatGPTでなく訳者が保証する • 訳文に不安が残ることもある。ネイティブによるチェックが必要 • 最終的な責任、品質担保は翻訳者が担う打出さんパート：ChatGPT導入効果 > ChatGPTの限界 34

• ChatGPTを使うことで、翻訳作業における多くの工程の負担を楽にできる ◦ 不明瞭な英文の読解 ◦ 用語を検討する上での論点整理 ◦ 質の高い試訳の作成 ◦ 対話を通じた訳文のブラッシュアップ

ITコンサル業を加速させたり、Azure周辺のデータソリューションの話（仮）ゆずたそパート 36 ……タイトルから（仮）を外さないまま登壇しがち

データ組織におけるあらゆる業務を加速できるゆずたそパート：ChatGPT活用例 38 リサーチ分析・開発保守運用採用働き方研修マネジメント

ChatGPTで社内の業務データを使いたい→Azure Open AI Serviceを使うべし・MSがエンタープライズ利用を約束済み・Azure Data Factoryも推薦したい・cosmosDBは今回はノーコメント（特にネガティブな意図ではないです）

Azureでデータ基盤をDev&Opsする場合のざっくり構成イメージ・ETL/ELT：Azure Data Factory (AWSのGlue、GCPのCloud Dataﬂowに相当) ・ストレージ：Azure Blob Storage (AWSのS3、GCPのGCSに相当)

Synapseの画面イメージゆずたそパート：Azure Synapse Analytics 52

Azure Data Factoryからのデータ転送・Azure Synapse Analytics以外の他社DWHには対応していない。徹底的にロックイン。・他社クラウドDWHとVPC連携しようとするとハマりどころが一気に増える。・Data Gravity (データの重力)

ADFの画面イメージ① ・Azure SQL Database（RDB）からのデータ取得なら対象テーブルを画面で選ぶだけ。・画面をポチポチと押していけば設定が完了する。ゆずたそパート：Azure Data Factory 55

ADFの画面イメージ② ・S3からのデータ取得はaccess keyとsecret access keyを設定すれば簡単に構築できる。・ETL/ELT SaaSと同じようなUXと言える。ゆずたそパート：Azure Data Factory

Azure Data Factoryと他ETL/ELTサービスのざっくり比較（データ収集編）ゆずたそパート：ETL/ELT系サービスの比較 57 個人情報構築コストインフラ保守運用コスト処理パフォーマンスマーケ部門で運用が完結

Azure Data Factoryと他ETL/ELTサービスのざっくり比較（データ加工編）ゆずたそパート：ETL/ELT系サービスの比較 58 個人情報構築コストインフラ保守運用コスト処理パフォーマンスマーケ部門で運用が完結

We're Hiring! & カジュアルトーク 61 風音屋の仕事に関心がある人に向けて、カジュアルトークの場を設けております。採用ページから応募可能です。ぜひお話しましょう。