Slide 1

Slide 1 text

Developers Summit 2024 Summer 生成AIの研究開発を事業につなげる データ、仕組み、コミュニケーション 2024/07/24 Shibui Yusuke

Slide 2

Slide 2 text

自己紹介 shibui yusuke ● いろいろ → Stability AI Japan(いまここ) ● MLOps & データ & バックエンド & インフラ & その他諸々エンジニア ● 最近の趣味:GeoGuesser ● Github: @shibuiwilliam ● FB: yusuke.shibui ● 本発表は私個人の見解であり、 所属組織を代表するものではありません。 cat : 0.55 dog: 0.45 human : 0.70 gorilla : 0.30 物体検知

Slide 3

Slide 3 text

● 発売中! ● https://www.amazon.co.jp/dp/4798169447/ ● 発売中! ● https://www.amazon.co.jp/dp/4798173401/

Slide 4

Slide 4 text

技術評論社 Software & Designで MLOpsについて連載しました! ● 2023年8月号  MLOpsの概要 ● 2023年9月号  MLOpsのためのスキルセットとチーム構成 ● 2023年10月号 方針策定とMLOpsのためのツール ● 2023年11月号 MLOpsのための技術選定 ● 2023年12月号 LLMのためのDevOps ● 2024年1月号  MLOpsと評価 ● 2024年2月号  推論システム(予定) ● 2024年3月号  機械学習システムの引き継ぎ ● 2024年4月号  LLMのデータエンジニアリング ● 2024年5月号  機械学習の使い途と未来 MLOpsについてあまり他では取り上げられないテーマを 中心に記事を書きました!

Slide 5

Slide 5 text

Agenda ● 生成AI時代のエンジニア ● データ、仕組み、コミュニケーション

Slide 6

Slide 6 text

生成AI時代の エンジニア

Slide 7

Slide 7 text

毎年数回イノベーションが発生する世界 Machine learning Deep learning Generative AI Platform 2011 2012 2013 2023 2022 2021 2020 2014 2015 2016 2017 2019 2018 BigQuery dbt Kubeflow AlexNet DCGAN TensorFlow DQN AlphaGo AlphaZero XGBoost LightGBM ONNX PyTorch Anaconda GoogleNet ResNet Kaggle SageMaker Keras Core ML MediaPipe TensorRT Nvidia K80 Jupyter Notebook Google Colab Word2Vec Vertex AI MLflow Spark CLIP BERT GPT-3 OpenAI Hidden debt paper Diffusion model HuggingFace AutoML Optuna Katib ChatGPT Snowflake Airflow Cycle GAN Style GAN Magenta VAE CatBoost Flax TFServing TorchServe Stable Diffusion Nvidia A100 TPU Transformer イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション CodeX BQML 2024 Llama LoRA DeepSpeed GPT4 Gemini Nvidia H100 AnimateDiff イノベーション Copilot

Slide 8

Slide 8 text

生成AIの期待と印象 ● LLM:事実 vs ハルシネーション。 ● 画像や動画の生成AI:下書きとコントローラビリティが課題。 ● AIコーディング:設計された全体の中でのコンポーネント開発が課題。

Slide 9

Slide 9 text

プロの仕事と審美眼 安定運用や将来的な拡張 (または事業撤退)を考えると、全体 設計やレビュー、ログ分析を 実践しながら作りたい。 AIを含めた自分の成果に対する 審美眼が大事。 テスト したい レビュー したい 設計 したい CI したい E2E したい 稼働確認 したい ログ 取りたい 監視 したい 生成AIはいきなり これを作る

Slide 10

Slide 10 text

生成AIの研究開発と事業 従来のAI:予測する 写真を撮る タイトル入力 説明入力 投稿する ねこ データ 推論 検索 推薦 学習 投稿 データをもとにした予測する。 ロジックの一部に確率的な機能を組み込む。

Slide 11

Slide 11 text

生成AIの研究開発と事業 生成AI:生成し、拡張する ねこ 生成 検索 推薦 データ コンテンツそのものを生成する。 LLM 自然言語のUIを拡張する。

Slide 12

Slide 12 text

技術的価値と事業 生成 AI 事 業 的 成 功

Slide 13

Slide 13 text

事 業 的 成 功 技術的価値と事業 コミュニ ティ マーケ ティング PR 評判 デザ イン UI デー タ 人事 インフ ラ 生成 AI ソフト ウェア チー ム 障害 対応 設計 運用 法律 経営 課金 モデル 営業 ライセン ス 人 タ イ ミ ン グ 運

Slide 14

Slide 14 text

数十億件、 PBサイズの非構造化データから始まる生成 AI開発 データセットを用 意する 実験、学習する APIやアプリに 組み込む ビジネス化する

Slide 15

Slide 15 text

データ 仕組み コミュニケーション

Slide 16

Slide 16 text

事例:生成 AI時代のデータエンジニアの仕事 ● 生成AIを学習、評価、拡張するためのデータを検索、収集、生成、検査、整理する。 データセット検索 データ確認 ライセンス・NSFW チェック データ取得 データ生成・拡張 データ保管 データ利用の管理

Slide 17

Slide 17 text

正しいデータ、使えるデータ、使って良いデータ、すぐ手に入るデータ ● 177,180: HuggingFaceに登録されているデータセット数。 ● 32,670: そのうち、MIT、Apache、CC等のライセンスで商用利用可能な数(※)。 ● HuggingFaceで提供されているデータセットがデータ全体を提供しているとは限らない。 ※ 2024/07/13調べ。数え方によって上下します。 3Dモデルの データセット 動画 HuggingFace CC-BY-SA 4.0 コンテンツのライセンスは それぞれで規定 動画から3Dモデルとキャプションを用意 しているデータセットの場合、 3Dモデルと キャプションはデータセットのライセンス が適用されるが、元動画は元動画のラ イセンスが適用。 例 画像 キャプション

Slide 18

Slide 18 text

AIに自動化されないデータのタスク データセット検索 データ確認 ライセンス・NSFW チェック データ取得 データ生成・拡張 データ保管 データ利用の管理 単にデータを収集して管理するだけの仕事だが、 実態は多様なスキルが要求される。 データのモダリティによって難易度も異なる。 ● テキスト:Common CrawlとHugging Faceが主なデータソース。データ セッ トに含まれているテキストが著作権や NSFWの課題を クリアしているかは別問題。 ● 画像:各種データセットが公開されているが、データセットに 含まれている画像が著作権や NSFWの課題をクリアしているかは 別問題。 ● 動画:動画サイトでCC-BYライセンスで公開されている動画が 主なデータソース。メタデータが用意されていないと選定や 有効活用が難しい。大容量になることが多い。 ● プログラム:オープンソースになっているレポジトリが主な データソース。品質や稼働可否を評価することが難しい。 ● 3D:データの提供方法に統一性がなく、データセットごとに 異なる取得手順が必要。動画よりも巨大になることが多い。

Slide 19

Slide 19 text

● 仕組み化:一定のルールに従って自動的に処理するシステムを作る。 ○ 例:データを整理し管理するパイプラインやデータ基盤。 ● 生成AIのデータセットは要件の変化、評価のコスト、元データの変更等の不確実性により、 仕組み化が難しい。 仕組み化、不確実性、マイグレーション 日本語LLMの データセットが ほしい Common Crawlや HuggingFaceから 取得 文章は大量に 得られたけど Q&Aが足りない 品質要件や クレンジングの ロジック 収集したデータの ライセンスがGPLに変更 クレンジング、評 価、 フィルター データセット化 仕組み化の課題: 要件やデータの変化が激しく、 多様なモダリティをサポートする システムが必要。

Slide 20

Slide 20 text

苦労話:webdatasetに全部入れたら検索・更新が困難になった ● コンテンツデータを数千件ずつに分割して webdatasetで圧縮。 ● PyTorchで全データを学習するには便利。 ● 特定条件でデータを検索するには parquetファイルを解凍して探すため、 相応の時間を要する。

Slide 21

Slide 21 text

メタデータと抽象化 一般的に共通する メタデータ ライセンス データソース 容量 提供者 用途 取得日 画像 - 被写体 - 場所 - 拡張子 - キャプション 音声 - 言語 - 話者 - 歌詞・曲の著作権 - サンプリングレート テキスト - 言語 - 著者 - テーマ - ですます調 作成日 動画 - 言語 - 文字起こし - 解像度 - 音声の有無 3D - 提供フォーマット - 動画有無 - キャプション - 対象物 要件や技術の変化によってメタデータも変わっていく。

Slide 22

Slide 22 text

● 完璧な仕組み化が難しいからこそ、マイグレーションに慣れたほうが良い。 仕組み化、不確実性、マイグレーション 日本語LLMの データセットが ほしい Common Crawlや HuggingFaceから 取得 文章は大量に 得られたけど Q&Aが足りない 品質要件や クレンジングの ロジック 収集したデータの ライセンスがGPLに変更 クレンジング、評 価、 フィルター データセット化 フォーマット変換 メタデータ化 ライセンス 再確認 マイグレーション前 提で作る 削除

Slide 23

Slide 23 text

数十億件、 PBサイズの非構造化データから始まる生成 AI開発 データセットを用 意する 実験、学習する APIやアプリに 組み込む ビジネス化する ここが遅いと ここが停滞し これが作れず リリースできない データ ダウンローダ GPUとインフラ 事業計画 データ 検査 巨大なストレージ データ パイプ ライン DWHと 検索 ライセンス チェック 認識 分類 GPU! 高速なデータローダ デザイン UI/UX バック エンド DB 課金 ユーザ 管理 監視 運用 営業 PR マーケティ ング BizDev パートナー シップ 売上 コスト 利益 継続率 競合 アルゴリズム

Slide 24

Slide 24 text

数十億件、 PBサイズの非構造化データから始まる生成 AI開発 データセットを用 意する 実験、学習する APIやアプリに 組み込む ビジネス化する ここが遅いと ここが停滞し これが作れず リリースできない データ ダウンローダ GPUとインフラ 事業計画 データ 検査 巨大なストレージ データ パイプ ライン DWHと 検索 ライセンス チェック 認識 分類 GPU! 高速なデータローダ デザイン UI/UX バック エンド DB 課金 ユーザ 管理 監視 運用 営業 PR マーケティ ング BizDev パートナー シップ 売上 コスト 利益 継続率 競合 アルゴリズム 短時間で成果を 出すよりも、 継続的な活動が 重要 ビジネスモデル、 アーキテクチャや エンジニア次第 必ず時間を要する 時間を要するが、 GPUや実験計画 次第では 短時間で可能

Slide 25

Slide 25 text

● 仕組み化することで所与の処理は自動化し、アウトプットまで形式に従って記録できるが、 サポートされていない処理とアウトプットはルールに従わない異常値になることが多い。 仕組み化の利点と難点 サポートされていない 実験的な処理。 マニュアル処理はドキュメントされていないことが多く、 作業者が去ったら失われる作業になる。 unknown unknown 日本語LLMを 学習する Common Crawlや HuggingFaceから 取得 文章は大量に 得られたけど Q&Aが足りない 品質要件や クレンジングの ロジック クレンジング評 価 フィルター データセット LLMを使って 文章生成 事前 学習 SFT 評価 ブレンディング 記録 データリネージ

Slide 26

Slide 26 text

事例:生成 AIを活用するプロダクト開発 A dramatic landscape image of a rugged mountain range at sunset. The mountains are sharp and imposing, with jagged peaks covered in snow. A winding river cuts through the valley below, reflecting the vibrant colors of the sky. The sky is ablaze with hues of orange, pink, and purple, casting a majestic glow over the entire scene. In the foreground, there are tall pine trees and rocky outcrops, adding to the wild and untamed feel of the landscape.

Slide 27

Slide 27 text

R&D エンジニア ビジネス ウ ォ | ル 社 内 外 ユーザ ウ ォ | ル 知 名 度 すごい モデル 作った! カチャ カチャ カチャ どんどん やってこ う! プロンプト書 くの めんどう かわいい猫 できた! 前例のない技術領域の事業化は文化も型もないところから始まる。 ウ ォ | ル 立 場 ウ ォ | ル 時 差 研究開発を事業につなげるコミュニケーションの課題

Slide 28

Slide 28 text

AIリサーチャー スピード感のイメージ 生成AIの技術 Webプロダクト データの仕事

Slide 29

Slide 29 text

新しい生成 AIの世界でコミュニケーションの型と文化を作る はじまりはカオス プロダクトを起点に 文化を作る

Slide 30

Slide 30 text

ドキュメンテーション、チームワーク、サイロ ここだけ独善的に解釈して、 ドキュメントを一切書かずに 何かを作るだけのプロジェクトは 意外と多い。

Slide 31

Slide 31 text

● ルールや文化を作り、提案し、守らせる仕組みを作る。 ● 最初の一人になることが重要。 ● 経験上、「0 -> 1」は難しいが、「0 -> 1を零 -> 壱にする」のはもっと難しい。 「最初に右側のナプキンを取る」 Innovation distinguishes between a leader and a follower. Steve Jobs

Slide 32

Slide 32 text

(うまくいけば) いつのまにか 誰かがテンプレート化 してくれてる 帰納的に取り入れていく No document Random structure Unknown unknown 知見を ドキュメントにする README.md Notion Code comment S3 memo Slack とにかく書く

Slide 33

Slide 33 text

機能と構造 ● コミュニケーションを構造化し、共通認識と要求を分ける。 ● 機能 ○ 各所でREADMEを書く。Whyを明確にする。 ○ 変化が激しい業界だからこそ、物事は簡単に Unknown unknownになる。これを防ぐ。 ● 構造 ○ デザインパターンも構造化コミュニケーションの一種。 ○ DIパターンで作ると共通で認識していれば、 構造に沿って開発できる。 ○ 複雑でない構造化を続けることで仕組みが根付く。

Slide 34

Slide 34 text

まとめ

Slide 35

Slide 35 text

変化に強くあれ、イノベーションを楽しめ ● AIの良し悪しを見極める審美眼を鍛える。 ● データに誠実に向き合う。 ● ルールと仕組みを作る側になる。

Slide 36

Slide 36 text

ありがとうございました!