Upgrade to Pro — share decks privately, control downloads, hide ads and more …

風音屋TechTalk#4 ChatGPTを業務利用しているデータエンジニア3名の座談会 #k...

風音屋TechTalk#4 ChatGPTを業務利用しているデータエンジニア3名の座談会 #kazaneya / 20230426

風音屋TechTalk #4「ChatGPTを業務利用しているデータエンジニア3名の座談会」の登壇資料です。
https://kazaneya.connpass.com/event/281108/

風音屋TechTalkは、風音屋(@kazaneya_PR)のクライアントや社員が気になっているテーマについて有識者から話を聞いたり、最近の取り組みやテクノロジーについてカジュアルに話す勉強会です。
第4弾となる今回は、風音屋のクライアントであるNE株式会社の熱田様、風音屋アドバイザーとして翻訳プロジェクトをリードしている打出さん、風音屋代表の横山(ゆずたそ)の3名でChatGPTの業務利用について話します。

風音屋 (Kazaneya)

April 26, 2023
Tweet

More Decks by 風音屋 (Kazaneya)

Other Decks in Technology

Transcript

  1. NE株式会社 熱田 亮 (@ryo_atsuta) Data Engineer / SRE 経歴 •

    カリフォルニア州立大学CS卒業 • 米スタートアップにて独自プロトコル等を担当 • 電力システムやゲーム開発に携わる • Hamee株式会社へSREとして入社 • 年間流通額1兆円規模のデータ基盤を構築 • 分社化後、NE株式会社にマーケティング統括部のデータエンジニアとして勤務 Zenn (https://zenn.dev/ryoatsuta) • 機械学習という人工知能の技術 • 「ドメイン駆動設計入門」を読んだ後 • Docker Engineとは何か 熱田さんパート:自己紹介 7
  2. NE株式会社 • NE株式会社(エヌイー株式会社)はEC Attractions「NEXT ENGINE」を中核に、EC SaaS事業、ECコンサルティング事業、ふるさと納税支援事業を提供し、全てのコマー スを支えることを目指して活動 • スマホケース「iFace」などを制作販売しているHamee株式会社から2022年8月に分社 して出来た会社

    NEXT ENGINE • NE株式会社が提供する一元管理ツール • 複数のネットショップを一元管理し、ショップ運営を楽にする • 2021年度の年間流通総額が1兆円を突破 • ビジネス拡大施策としてデータ提供・販売を進めている 熱田さんパート:会社紹介 8
  3. 熱田さんパート:実験後の課題 15 Vertex AI, AutoMLによる商品カテゴリー推定の課題 • 予測にかかるコストが想定以上に高かった ◦ 数十億レコードある流通額テーブル全てに対して分類させてしまうと、 膨大なお金がかかることが発覚

    • TensorflowモデルをエクスポートしてCloudRunで並列実行できないか検証したが… ◦ text classificationはエクスポートの対象外だった • AutoML自体は機械学習のPoCをする分には非常に良い選択肢
  4. 打出さんパート:自己紹介 17 打出 紘基 / @hanon52_ 仕事 • (ピクシブ株式会社)広告のアナリティクスエンジニア •

    (風音屋)データモデリングに関する洋書の翻訳 資格・記事 • GCP Professional Data Engineer • 「鮮度」と「精度」を両立させる広告データ基盤のつくり方 語学力 • 時間をかければ洋書の技術書をきちんと読める • 長期の留学経験や海外在住経験はない
  5. レビュー作業の3工程に関する課題 レビュー作業は、以下の3工程に分類できる それぞれの工程では、訳者を悩ませる課題が多く存在する ChatGPTを活用することで、これらの課題をどう解決するのかを説明する 打出さんパート:レビュー作業 > 課題 19 工程 概要

    課題 英文の読解 原文の英文を読んで理解する 英文の意味が理解できない 原文の記述が曖昧 ドメイン用語 の検討 ドメイン固有の用語について、 適切な訳語を考える 適切な訳語が思いつかない 決めきれない 訳文の ブラッシュ アップ 一次翻訳文(試訳)の間違いを 直し、出版に耐えうる自然な日 本語へと品質を高める 試訳の品質が低く校正が大変 自然な訳文が思いつかない
  6. 英文の理解を進める上での課題 課題 • 文章に登場する文法や単語の意味がわからない • 原文が不明瞭で、具体例を挙げようとすると詰まってしまう ChatGPTが登場する前の対処法 • 辞書で調べる •

    Google検索で調べる • ネイティブな友人に読解してもらう ◦ 最終的な品質を担保する唯一のアプローチ ◦ ドメイン知識は都度私が補足 ▪ 作業コストが重い 打出さんパート:英文の理解(ChatGPT登場前) 20
  7. 自然な訳文を検討する上での課題 課題 • 文章に違和感を感じても、対処法が思いつかない • 英単語に対応する日本語がないことがある ChatGPTが登場する前の対処法 • 素の訳文を頑張って考える •

    自分が納得するまで、訳文を改良し、より良いものを選ぶ • 最後は、ネイティブな友人に考えてもらう 打出さんパート:自然な訳文の検討(ChatGPT登場前) 27
  8. 訳文をブラッシュアップ 打出さんパート:自然な訳文の検討(ChatGPT登場後) 29 Q. 日本語訳してください → 日本語で表してください Q. 訳語指定 +

    日本語が自然になるようにしてください Q. 文末を言い切ってください Q. “estimate”を文末から文頭に移動してください 約100,000件 → 約10万件 自動車事故→交通事故 運転手の眠気が〜を引き起こし→運転中の眠気が原因で それによりおおよそ → その結果、おおよそ 〜と推定されています → 〜によると、〜 しているとされています → しています
  9. ChatGPTを用いることで、レビュー作業の大半が楽になった 打出さんパート:レビュー作業 > まとめ 30 作業工程 課題 ChatGPT導入前 ChatGPT導入後 英文の読解

    英文の意味が理解で きない 原文の記述が曖昧 辞書やweb検索を用いた読解 ネイティブな友人による読解支援 文中の特定の単語に絞った解説 曖昧な表現に対する具体例の生成 ネイティブな友人による読解支援 ドメイン用語 の検討 適切な訳語を思いつ かない 決めきれない 訳者による論点整理 訳者が訳語の候補を評価 訳者同士での議論、決定 ChatGPTによる論点整理 ChatGPTが訳語の候補を評価 訳者同士での議論、決定 訳文の ブラッシュ アップ 試訳の品質が低く校 正が大変 自然な訳文が思いつ かない DeepLによる低品質な試訳の生成 訳者による訳文の改良 ネイティブな友人による改良 GPT4による高品質な試訳の生成 ChatGPTとの対話で訳文を改良 ネイティブな友人による改良 ※赤字はChatGPTによって楽になった作業
  10. 人手による翻訳タスクにおいて、DeepLだけでは機能が不十分 • DeepLはあくまで機械翻訳ツールであり、人手による翻訳を前提としていない • ChatGPTは英文読解の手助けから対話的な訳のブラッシュアップまでこなす 打出さんパート:ChatGPT導入効果 > DeepLとChatGPTとの比較 33 ChatGPT(GPT4)

    DeepL 試訳の生成 ◦ ◦ 用語集の適用 △(大量の指定は手間) ◦ トンマナの調整(です/ます など) ◦ △(日本語は非対応) 英文の解説、具体例の生成 ◦ × ドメイン用語の検討 ◦ × 訳文のブラッシュアップ ◦(文全体の一括適用) △(個別の調整は可能)
  11. • ChatGPTを使うことで、翻訳作業における多くの工程の負担を楽にできる ◦ 不明瞭な英文の読解 ◦ 用語を検討する上での論点整理 ◦ 質の高い試訳の作成 ◦ 対話を通じた訳文のブラッシュアップ

    • 最終的な訳文の品質担保の責任は訳者。必要に応じて人手によるチェックが必要 • ChatGPTに対して適切に問いを投げかける力が必要 打出さんパート:まとめ 35
  12. @yuzutas0 / ゆずたそ 風音屋 代表取締役 慶應義塾大学にて金融・計量経済学を専攻。リクルートやメルカリにてデータ活用を推進、外資ITを経て、現職。 広告配信の最適化や店舗営業のインセンティブ改善など、データ分析によって数億円規模のインパクトを創出。 100社のデータ経営を実現して各産業の活性化に貢献すべく日々奮闘中。 ゆずたそパート:自己紹介 37 主な登壇・発表

    ・Pythonのカンファレンス PyCon JP 2017 ベストトークアワード優秀賞 ・翔泳社主催 Developers Summit 2018 Summer ベストスピーカー賞 ・Google主催 Google Cloud Day 2021 ・日本統計学会 第16回春季集会 主な執筆・出版 ・ITmedia「データ基盤 大解剖」(連載記事) ・技術評論社『実践的データ基盤の処方箋』 ・技術評論社『Software Deign 2020年7月号 - ログ分析特集』 ・『データマネジメントが30分でわかる本』
  13. Azureでデータ基盤をDev&Opsする場合のざっくり構成イメージ ・ETL/ELT:Azure Data Factory (AWSのGlue、GCPのCloud Dataflowに相当) ・ストレージ:Azure Blob Storage (AWSのS3、GCPのGCSに相当)

    ・DWH:Azure Synapse Analytics (AWSのAthena/Redshift、GCPのBigQueryに相当) ・BI:Microsoft Power BI (GoogleのLookerStudioに相当) ゆずたそパート:Azureのデータスタック概観 50 データ ソース データ ソース Data Factory データ ソース Blob Storage Power BI XXX システム Open AI Service Data Factory Synapse Analytics 加工 データ ロー データ
  14. Azure Data Factoryと他ETL/ELTサービスのざっくり比較(データ収集編) ゆずたそパート:ETL/ELT系サービスの比較 57 個人情報 構築コスト インフラ保守運用コスト 処理パフォーマンス マーケ部門で運用が完結

    各システムから指定場所にファ イルを置いてもらう ◯ ✕ 他チーム依頼が 必要 △ 作り方次第だが、 他チームで保守運用が必要 ◯ 推奨方法を数パターン 案内すれば担保可能 △ 調査方法の整備が必要+ 想定外エラー時にサポート必要 画面でエクスポートの コマンドを実行 ◯ ◯ △ コード管理に比べて 保守性は下がる ◯ ◯ ETL SaaSを利用 ✕ 要確認 ◯ ◯ △ 直接エクスポートに 比べてシステムを1つ挟む ◯ VMインストール型の GUIソフトを使う ◯ △ インストールや 構築作業が必要 ✕ VMにインストールする △ 直接エクスポートに 比べてシステムを1つ挟む △ データ収集の設定は できるが、VM管理が必要 GlueやCloud dataflow ◯ △ 構築が必要 ✕ システムは要見積もり+ Sparkを扱える人材は高単価 △ 直接エクスポートに 比べてシステムを1つ挟む △ 使い勝手が独特で要PoC (✕になる可能性が高い) コンテナ・VMで プログラムを実行 ◯ ✕ SWEによる 構築が必要 △ メンテナンスが必要+ コンテナを扱える人材は高単価 ◯ エクスポートコマンドを 実行できるなら問題なし ✕ ADF ◯ ◯ ✕ 要見積もり △ 直接エクスポートに 比べてシステムを1つ挟む ◯
  15. Azure Data Factoryと他ETL/ELTサービスのざっくり比較(データ加工編) ゆずたそパート:ETL/ELT系サービスの比較 58 個人情報 構築コスト インフラ保守運用コスト 処理パフォーマンス マーケ部門で運用が完結

    画面上でクエリを実行 ◯ △ DWHによっては 自動化できない △ コード管理に比べて 保守性は下がる ◯ ◯ ELT SaaSを利用 (dbt Cloudを含む) ✕ 要確認 ◯ ◯ △ DWHでの直接クエリ発行に 比べてシステムを1つ挟む (クエリ発行なら◯) ◯ VMインストール型の GUIソフトを使う ◯ △ インストールや 構築作業が必要 ✕ VMにインストールする △ DWHでの直接クエリ発行に 比べてシステムを1つ挟む △ データ加工の設定は できるが、VM管理が必要 GlueやCloud dataflow ◯ △ 構築作業が必要 ✕ 要見積もり+ Sparkを扱える人材は高単価 △ DWHでの直接クエリ発行に 比べてシステムを1つ挟む △ 使い勝手が独特で要PoC (✕になる可能性が高い) GCP dataform ◯ △ Preview版は設定必要 (以前のSaaS版なら◯) ◯ ◯ DWHでの直接クエリ発行 △ Preview版だと設定が必要 (以前のSaaS版相当なら◯) コンテナ・VMで プログラムを実行 (dbt Coreを含む) ◯ ✕ SWEによる構築が 必要 △ メンテナンスが必要+ コンテナを扱える人材は高単価 ◯ クエリ発行できるなら問題なし △ SQLまでは作れるが、 VMやコンテナの管理が必要 ADF ◯ ◯ ✕ 要見積もり △ DWHでの直接クエリ発行に 比べてシステムを1つ挟む ✕ GUIでの加工は限界がある
  16. Azure Data Factoryで妥協するポイント • データコピーのためにインスタンスでSparkの処理が走る。 ◦ コンピュート不要なのにコンピュート想定のリソースを動かしてしまう。 ◦ Embulk、Glue、Cloud Dataflow、TroccoなどのSaaSも同じだが……。

    ◦ 各データソースのエクスポート機能や他社DWHのFederated Queryに比べると、 効率が悪いように見えてしまう。 • リネージや依存管理には不向き。 ◦ 一応、複数の処理をパイプラインとして実行できるが……。 ◦ データ集計時にDWHのSQLではなくSparkの処理を走らせることになる。 ◦ 非ソフトウェアエンジニアが集計ロジックを作るのは難しいかも。 ◦ プログラムやSQLを書く場合に比べて、GUIで設計/表現するのは難しいかも。 ◦ SQLベースで管理できる dbt Cloud の Azure Native Integrated が欲しくなる。 ゆずたそパート:ETL/ELT系サービスの比較 59
  17. ChatGPTやAzureデータスタックは、非専門家フレンドリーなUXによって テクノロジーの民主化を促している点が魅力的。 今回紹介したChatGPTやAzureの検証は、@yuzutas0+シニア1名が約3人日で実施。 • ユースケース開拓やアーキテクチャ構成を優先した。細かいテクニックは後回し。 有益記事が大量に出ているので順次取り入れたいところ。 • 本資料で公開していないのは、処理パフォーマンスの計測やコストの試算。 要件にもとづいて実施したが、具体的すぎるので割愛した。 •

    あまりシステムコストはかかっていない。Azureの検証環境を消し忘れて2ヶ月ほど 放置した分のXX万円が追加コスト(風音屋の自腹)となっており、これが一番痛い。 「新しいテクノロジーで価値を創出したい」「ベストプラクティスを模索したい」という人 はぜひ風音屋で一緒に働きましょう。 ゆずたそパート:おわりに 60