Slide 1

Slide 1 text

2023サンフランシスコ出張報告 〜ダッシュボードが自動生成される時代に、 データ人材に求められる働き方を考える〜 2023-12-12 Data Engineering Study #22 @yuzutas0

Slide 2

Slide 2 text

免責事項 2
 本資料の利用により発生したいかなる損害に対しても資料作成者はその責任を負いかねます。 社名が提示されていないケーススタディやシステム構成については、 原則的に複数企業の事例を踏まえたダミー情報となります。 特定企業の情報公開や称賛・批判を意図するものではありません。 用語やツールの紹介は厳密ではありません。ご自身や所属チームでの理解・解釈が 紹介内容と異なる場合は、適宜読み替えていただけると幸いです。 本資料に記載されている会社名・製品名などは、一般に各社の登録商標または商標、 商品名です。資料内では ©, ®, ™ マーク等は省略させていただいております。 (要するに)ケチつけないでね& お互いにルールを守ろうね

Slide 3

Slide 3 text

データエンジニアリング特化の専門会社「風音屋」 事業概要 ● データ基盤の構築、運用保守 ● データ分析コンサルティング ● 月30万円でデータ分析組織を立ち上げる支援パッケージ 「Kazaneya Virtual Data Team」(ベータ版)の提供 取引先(一部抜粋) ● プライム上場:製造、物流、金融、エンタメ ● グロース上場 :人材、通販、販促ツール ● 未上場:不動産、自動車販売、音響制作 余談 今回の Data Engineering Study 登壇者の半分が風音屋Slackにいる……! (勉強会で話すような内容を日々チャットでディスカッションしています🙌) 3


Slide 4

Slide 4 text

風音屋 代表取締役 4
 横山 翔(@yuzutas0) ● リクルートやメルカリにてデータ活用を推進、AWSを経て、現職 ● 東京大学 経済学研究科 金融教育研究センター 特任研究員を兼任 ● Googleが認定する技術エキスパート Google Cloud Champion Innovator (Data Analytics) 主なコミュニティ活動 ● 累計視聴者10,000名以上の勉強会「Data Engineering Study」企画・運営(#1から3年以上) ● 1,000名以上が参加するSlackコミュニティ「datatech-jp」発起人&運営メンバーの1人 主な登壇・発表 ● Pythonのカンファレンス PyCon JP 2017 にてベストトークアワード優秀賞 ● Google主催 Google Cloud Day ‘21, ‘23, Google Cloud Next Tokyo ‘23 ● 日本統計学会 第16回春季集会 主な執筆・出版 ● 内閣府『経済分析 第208号 - 景気動向分析の新たな潮流』 ● 技術評論社『実践的データ基盤への処方箋』 ● 技術評論社『Software Design 2020年7月号 - ログ分析特集』 ● 風音屋『データマネジメントが30分でわかる本』

Slide 5

Slide 5 text

本日のテーマ 2023年の “データエンジニアリング” と “自社の取り組み” を振り返る 5


Slide 6

Slide 6 text

大規模言語モデル(LLM:Large Language Models)および生成AI(Generative AI) ①非構造化データ(テキストや画像)を構造化データに変換 ②データベースからコンテンツを生成 ③データベースに対するクエリの作成補助 ④ダッシュボードの自動生成 2023を代表するテクノロジー 6
 非構造化データ ダッシュボード データパイプライン 構造化データ コンテンツ ① クエリ データ利用者 ② ③ ④

Slide 7

Slide 7 text

①非構造化データ(テキストや画像)を構造化データに変換 ● テキストや画像をLLMに読ませて、カテゴリ判定(例:商品分類)やラベリング(例:犬の写真) ● 風音屋TechTalk#4(4月)や Google Cloud Day ‘23 Tokyo(5月)で紹介済みなので省略します ● ‘23後半に各DWHのSQLでGenAIを実行できるようになり、データパイプラインに乗せやすくなった 7


Slide 8

Slide 8 text

②データベースからコンテンツを生成 ● WEBページ、社内通知、動画の台本、広告クリエイティブ、メール文言など、コンテンツを生成 ● ‘23年末時点ではPoC段階やDHW非利用の取り組みが多い ● dbtからSQL経由でLLMを使い、テキストを大量生成することは既に可能ではある 8
 (おそらく事例が増えるのは来年以降)

Slide 9

Slide 9 text

③データベースに対するクエリの作成補助 ● データ分野に限らず GitHub Copilot や Chat GPT Code Interpreter など、多数の商用製品が台頭 ● データ分野に特化すると、Snowflake Copilot など、各ベンダーが補助機能の提供を発表している ● 風音屋のクライアントの例だと、SlackBotでデータ利用者の問い合わせ対応をしたり、 SQLの作成を補助する独自ツールを社内提供していたりする。 9
 https://investors.snowflake.com/news/news-details/2023/Snowflake-Puts-Industry-Leading-Large-Language-and-AI-Models-in-the-Hands-of-All-Users-with-Snowflake-Cortex/default.aspx

Slide 10

Slide 10 text

④ダッシュボードの自動生成 本日のメインテーマはこちら 10


Slide 11

Slide 11 text

サンフランシスコ出張報告 Google Cloud Next '23 にあわせて米国サンフランシスコへ風音屋の社員3名と出張してきました (※ご飯が美味しかったよといった話をnoteで紹介しています) 11
 フルハウスのOPに出てくる例の橋

Slide 12

Slide 12 text

Google Cloud Next とは 12
 会場入口の様子 Google Cloud Nextとは、Google Cloudの最新情報やビジネス活用の事例を紹介するイベントです。 基調講演から始まり、各トピックのセッションに参加したり、ブースで話を聞いたりすることができます。 なお、セッションの動画は公開されるので、オンラインで後から視聴することも可能です。 今回のGoogle Cloud Next '23は、アメリカ・サンフランシスコのMoscone Centerにおいて、 3日間(現地時間 2023/08/29〜2023/08/31)にわたって開催されました。 ※本日の話はGoogle Cloudに  閉じない内容となります。

Slide 13

Slide 13 text

データエンジニアリング分野のセッションが多々開催 13


Slide 14

Slide 14 text

最大のインパクト 10秒でダッシュボードを作れるようになった (製品デモとは分かっているがそれでも感動した) 14
 https://cloud.google.com/blog/ja/products/business-intelligence/whats-ne w-for-looker-and-business-intelligence-at-next-23?hl=ja

Slide 15

Slide 15 text

Duet AI for Looker Studio Pro 15
 ● 自然言語で「売上トップの商品カテゴリを教えて」と質問すると、複数のグラフが自動生成 ● スコアボード形式で売上総額を、テーブル形式でカテゴリランキングと四半期の上昇率を、 マップ形式で国別の売上を表示。

Slide 16

Slide 16 text

Duet AI for Looker 16
 ● チャットの質問に対してダッシュボードを自動生成 ● チャットにLookerの画面が組み込まれており、タイル状に複数のグラフを組み合わせて表示

Slide 17

Slide 17 text

参考:Amazon Q in QuickSight 17
 ● https://aws.amazon.com/about-aws/whats-new/2023/11/amazon-q-quicksight-data-exploration-generative-bi-capabilities-preview/ ● https://community.amazonquicksight.com/t/amazon-q-november-28-announcements-at-aws-re-invent-2023/21223 2023年11月27日から行われたAWSのグローバルイベント re:Inventにおいても、 生成AIを利用したダッシュボード自動生成機能が発表されている(Generative BI)

Slide 18

Slide 18 text

現地でデモを見たり関係者と話した所感 18
 おそらくChatGPTよりもイラストAIを想像してもらったほうが感覚が掴めると思います https://github.com/Stability-AI/stablediffusion

Slide 19

Slide 19 text

現時点でのイラストAI の Fit & Gap 19
 <アンマッチなケース> ● イラストAIは、イラストを自由自在に描ける人からすると「痒いところに手が届かない」 「手直しで余計に時間がかかる」といった不便さも目立つ ● 人気ゲームのパッケージイラストであれば描き下ろしのほうがマッチする (ゲームクリア後に気付ける意図や仕掛けが散りばめられた渾身の1枚絵であってほしい) <マッチするケース> ● 自力でイラストを書けない人が、個人ブログの見出し画像を作ったり、 LINEやSlackのアイコン画像を作るだけなら、これ以上なく便利なツール ● 好みのテイストにあった学習モデルを選び、プロンプトを調整しながら画像を生成しまくって、 最後にベストショットを選別すれば終了 → おそらくダッシュボード生成AIも同じような位置付けになるのではないか

Slide 20

Slide 20 text

イラストAIから予想しうる Generative BI の Fit & Gap ① 20
 <アンマッチなケース> ● 一流データアナリストの100点を再現するツールではない ○ せいぜい50点しか取れないのではないか ● クリティカルな業務では、ハイスキルなデータ人材をアサインしたほうが良さそう ○ コアとなる経営指標の設計 ○ グロース戦略に関わる根幹のモニタリング ○ IRで投資家に開示するようなデータの取得・抽出 ○ 共通指標として横断で管理/定義すべきデータ(データモデリングが必要) ○ データ仕様や歴史的経緯が複雑で、要件定義・テスト設計や複数人レビューが必要となる分析 ● ビジネスの意思決定においては「自動生成されたものを使います」(思考放棄)が許されない場面、 「根拠にもとづく説明」「根拠にもとづくブラッシュアップ」が必要となる場面は多々ある → ツールを使えるだけ、データ集計・抽出できるだけのジュニア人材だと、対応しきれないかも?   これまで以上にプロフェッショナルなシニア人材に需要が偏る?

Slide 21

Slide 21 text

イラストAIから予想しうる Generative BI の Fit & Gap ② 21
 <マッチするケース> ● 「10秒で50点のダッシュボードが作れる」というのは革命的なUX ○ GenBIが社内データを参照できるように、データを一元管理しておく必要はある ● ちょっとした施策のモニタリング程度であれば50点のダッシュボードで問題ない ○ ジュニア人材の成果物は50点に満たないことも多い(それで今の仕事は回っている) ○ ハイスキル人材が100点のクオリティで仕上げても「そこまでしなくていい」と言いたくなる ○ 100点ではないので、気軽に壊せる(=軌道修正しやすくなる) ● データ専門職に仕事をお願いして1週間待つよりも、圧倒的に素早く、格安でPDCAサイクルを回せる ○ 業務担当者が自分でデータを見ることで、データ分析&業務改善が一気に進む ○ データを見るのはあくまで手段 / 「課題発見→改善」のサイクルを回すことが大事 → データ利用者の裾野が広がり、より多くの人がデータを活用しやすくなる?   これまで以上にデータ整備が重要になる?

Slide 22

Slide 22 text

余談:LLM / GenAIでよく挙げられる批判と回答 22
 【機能追加や技術革新で解決するケース】 例:AI生成ダッシュボードが量産されたら管理が大変になる! →Pixivさんのようにフィルタリングできれば良いのでは? (課題に対する打ち手を講じれば良い) 【AIナシでも同じ問題が起きるケース】 例:AI生成ダッシュボードだとSQLがカオスで調査しにくい! →今のジュニア人材や非データ職が作ったSQLは調査しやすいのか? (AIがなくても同じ問題が起きている) https://www.pixiv.help/hc/ja/articles/18685842478361 🤷専門家が自分の従来の仕事を守るために新しい技術を批判することはよくある 💪技術を利用する時に課題が出てくるのは当然/それを解決するのがエンジニア 💸新しいテクノロジーは素直に試して、変化に適応するスタンスのほうが建設的 🏄パラノイア(悲観論者)だけが生き残る⇒自己弁護に逃げずに変化を楽しもう

Slide 23

Slide 23 text

データ分析人材のキャリアと働き方 23
 (ダッシュボードが10秒で自動生成される時代において) この先生きのこるには ● データ分析人材のキャリアの方向性 ● 風音屋で2023年に試したこと

Slide 24

Slide 24 text

キャリアの方向性①:王道プラン 24
 <データ分析人材のキャリアの方向性> データ分析の基礎スキルを愚直に伸ばす! (例:計量経済学の論文を書ける水準) <風音屋で2023年に試したこと> ● 代表の横山が東京大学の特任研究員に就任した ● 民間企業データを用いて、論文を執筆し、内閣府『経済分析』に投稿した ● 民間企業データを用いて、学部生向け「データ分析」授業を行い、レポートをまとめた ● 風音屋のメンバーが20%ルールで大学院に通えるような支援を提供

Slide 25

Slide 25 text

キャリアの方向性②:分野特化プラン 25
 <データ分析人材のキャリアの方向性> 特定の産業・分野に特化する! ● 例:製造業データマネジメント ● 例:人事データ分析 ● 例:月面データの位置情報エンジニアリング (緯度経度やIPアドレスがそのまま使えない) <風音屋で2023年に試したこと> ● (以前から)各クライアントワークでの業界知識キャッチアップは都度実施 ● 短期間でドメイン知識を叩き込むメソッドの開拓・模索 ● 「これが自分の武器です」と言えるようにスキル向上を追求できる目標管理シート ● クライアント企業への出向・兼務 → データチームを立ち上げて担当事業にコミット (事業会社に転職するケースと異なり、風音屋のリソースやノウハウを横展開できる)

Slide 26

Slide 26 text

キャリアの方向性③:上流工程プラン 26
 <データ分析人材のキャリアの方向性> データ集計・抽出やダッシュボード構築だけではなく、 より上流の「ビジネス/プロダクト戦略策定」に染み出し! <風音屋で2023年に試したこと> ● クライアント企業の執行役員と一緒にグロースサイクルを 描いてプロダクトの成長戦略を模索 ● 中途メンバーが入社10日で経営陣に分析結果を報告

Slide 27

Slide 27 text

キャリアの方向性④:活用支援プラン 27
 <データ分析人材のキャリアの方向性> データ利用者の活動をサポートする! (Sales、CS、コンサルタント的な存在) 例 ● Analytics Enablement(HubSpot) ● Data Champion(GitLab) <風音屋で2023年に試したこと> ● 「データ抽出・集計」の依頼対応を減らし「Enablement」に舵を切る ● データ活用支援パッケージ「Kazaneya Virtual Data Team」では 各チームが自分たちでデータを見る前提でツール選定、会議設計、サポート体制を構築 ● エンジニア/アナリスト→コンサルタントに方向転換するための育成メニューを整備

Slide 28

Slide 28 text

キャリアの方向性⑤:GenAI担当プラン 28
 <データ分析人材のキャリアの方向性> GenAIをデータパイプラインに組み込む! (冒頭に話したような内容/MLOpsライク) GenAIがデータを読み取れるように メタデータや中間テーブルを整備する! <風音屋で2023年に試したこと> ● LLM/GenAIの商用利用(冒頭の内容) ● 各社にてdbtやdataformを導入 ● データモデリング書籍の翻訳 (もうすぐです…長かった…) ● 社員が2ヶ月で書き上げた社内記事 「30分でわかるデータモデリング」

Slide 29

Slide 29 text

キャリアの方向性を決める前に 29
 いずれの場合も前提となるのは 󰢄「Pythonを書ければOK」  「dbtを使えているから最先端」ではなく 󰢏「主体的に仕事をリードできること」  「幅広く全体像を押さえること」が必須! <風音屋で2023年に試したこと> ● プロフェッショナル人材としての スタンス・スキルを叩き込む研修 ● データ人材向けの課題図書リスト

Slide 30

Slide 30 text

まとめ 30
 <2023年の出来事> ● サンフランシスコの気候とご飯は最高だった、治安は…… ● 2023年はLLM/GenAIをデータパイプラインに組み込む事例が一気に増えた ● 各ソリューションベンダーは「10秒でダッシュボードを作れる未来」を提示した ● データ職以外が50点のダッシュボードでPDCAサイクルを回せる未来が来るかも <データ人材のキャリア> ● ツールを使えるだけのジュニアなデータ人材にとっては逆風かも ● 分野特化、上流工程、活用支援、GenAI担当に回るといったキャリアの方向性があるか ● いずれの場合もシニア人材として活躍できる土台となるスキルが必要そう ● 風音屋ではデータ人材のキャリア開拓のために、各アプローチを実験している

Slide 31

Slide 31 text

【宣伝】キャリアを見直すために今すぐできること 31
 「データ職としてのキャリアを見直したい/1から鍛え直したい」という方! 今すぐ風音屋のカジュアル面談に応募だー!! 年末年始だと事務員がメールを返せないので!今のうちに!日程調整を!ぜひ!頼む!

Slide 32

Slide 32 text

お問い合わせ 改善サイクルを回し、今日よりも良い明日を。 https://kazaneya.com/ 32