生成AIの研究開発を事業につなげるデータ、仕組み、コミュニケーション

Slide 1

Slide 1 text

Developers Summit 2024 Summer 生成AIの研究開発を事業につなげるデータ、仕組み、コミュニケーション 2024/07/24 Shibui Yusuke

Slide 2

Slide 2 text

自己紹介 shibui yusuke ● いろいろ → Stability AI Japan（いまここ） ● MLOps & データ & バックエンド & インフラ & その他諸々エンジニア ● 最近の趣味：GeoGuesser ● Github: @shibuiwilliam ● FB: yusuke.shibui ● 本発表は私個人の見解であり、所属組織を代表するものではありません。 cat : 0.55 dog: 0.45 human : 0.70 gorilla : 0.30 物体検知

Slide 3

Slide 3 text

● 発売中！ ● https://www.amazon.co.jp/dp/4798169447/ ● 発売中！ ● https://www.amazon.co.jp/dp/4798173401/

Slide 4

Slide 4 text

技術評論社 Software & Designで MLOpsについて連載しました！ ● 2023年8月号　 MLOpsの概要 ● 2023年9月号　 MLOpsのためのスキルセットとチーム構成 ● 2023年10月号　方針策定とMLOpsのためのツール ● 2023年11月号　MLOpsのための技術選定 ● 2023年12月号　LLMのためのDevOps ● 2024年1月号　 MLOpsと評価 ● 2024年2月号　推論システム（予定） ● 2024年3月号　機械学習システムの引き継ぎ ● 2024年4月号　 LLMのデータエンジニアリング ● 2024年5月号　機械学習の使い途と未来 MLOpsについてあまり他では取り上げられないテーマを中心に記事を書きました！

Slide 5

Slide 5 text

Agenda ● 生成AI時代のエンジニア ● データ、仕組み、コミュニケーション

Slide 6

Slide 6 text

生成AI時代のエンジニア

Slide 7

Slide 7 text

毎年数回イノベーションが発生する世界 Machine learning Deep learning Generative AI Platform 2011 2012 2013 2023 2022 2021 2020 2014 2015 2016 2017 2019 2018 BigQuery dbt Kubeflow AlexNet DCGAN TensorFlow DQN AlphaGo AlphaZero XGBoost LightGBM ONNX PyTorch Anaconda GoogleNet ResNet Kaggle SageMaker Keras Core ML MediaPipe TensorRT Nvidia K80 Jupyter Notebook Google Colab Word2Vec Vertex AI MLflow Spark CLIP BERT GPT-3 OpenAI Hidden debt paper Diffusion model HuggingFace AutoML Optuna Katib ChatGPT Snowflake Airflow Cycle GAN Style GAN Magenta VAE CatBoost Flax TFServing TorchServe Stable Diffusion Nvidia A100 TPU Transformer イノベーションイノベーションイノベーションイノベーションイノベーションイノベーションイノベーションイノベーションイノベーションイノベーションイノベーションイノベーション CodeX BQML 2024 Llama LoRA DeepSpeed GPT4 Gemini Nvidia H100 AnimateDiff イノベーション Copilot

Slide 8

Slide 8 text

生成AIの期待と印象 ● LLM：事実 vs ハルシネーション。 ● 画像や動画の生成AI：下書きとコントローラビリティが課題。 ● AIコーディング：設計された全体の中でのコンポーネント開発が課題。

Slide 9

Slide 9 text

プロの仕事と審美眼安定運用や将来的な拡張（または事業撤退）を考えると、全体設計やレビュー、ログ分析を実践しながら作りたい。 AIを含めた自分の成果に対する審美眼が大事。テストしたいレビューしたい設計したい CI したい E2E したい稼働確認したいログ取りたい監視したい生成AIはいきなりこれを作る

Slide 10

Slide 10 text

生成AIの研究開発と事業従来のAI：予測する写真を撮るタイトル入力説明入力投稿するねこデータ推論検索推薦学習投稿データをもとにした予測する。ロジックの一部に確率的な機能を組み込む。

Slide 11

Slide 11 text

生成AIの研究開発と事業生成AI：生成し、拡張するねこ生成検索推薦データコンテンツそのものを生成する。 LLM 自然言語のUIを拡張する。

Slide 12

Slide 12 text

技術的価値と事業生成 AI 事業的成功

Slide 13

Slide 13 text

事業的成功技術的価値と事業コミュニティマーケティング PR 評判デザイン UI データ人事インフラ生成 AI ソフトウェアチーム障害対応設計運用法律経営課金モデル営業ライセンス人タイミング運

Slide 14

Slide 14 text

数十億件、 PBサイズの非構造化データから始まる生成 AI開発データセットを用意する実験、学習する APIやアプリに組み込むビジネス化する

Slide 15

Slide 15 text

データ仕組みコミュニケーション

Slide 16

Slide 16 text

事例：生成 AI時代のデータエンジニアの仕事 ● 生成AIを学習、評価、拡張するためのデータを検索、収集、生成、検査、整理する。データセット検索データ確認ライセンス・NSFW チェックデータ取得データ生成・拡張データ保管データ利用の管理

Slide 17

Slide 17 text

正しいデータ、使えるデータ、使って良いデータ、すぐ手に入るデータ ● 177,180: HuggingFaceに登録されているデータセット数。 ● 32,670: そのうち、MIT、Apache、CC等のライセンスで商用利用可能な数（※）。 ● HuggingFaceで提供されているデータセットがデータ全体を提供しているとは限らない。 ※ 2024/07/13調べ。数え方によって上下します。 3Dモデルのデータセット動画 HuggingFace CC-BY-SA 4.0 コンテンツのライセンスはそれぞれで規定動画から3Dモデルとキャプションを用意しているデータセットの場合、 3Dモデルとキャプションはデータセットのライセンスが適用されるが、元動画は元動画のライセンスが適用。例画像キャプション

Slide 18

Slide 18 text

AIに自動化されないデータのタスクデータセット検索データ確認ライセンス・NSFW チェックデータ取得データ生成・拡張データ保管データ利用の管理単にデータを収集して管理するだけの仕事だが、実態は多様なスキルが要求される。データのモダリティによって難易度も異なる。 ● テキスト：Common CrawlとHugging Faceが主なデータソース。データセットに含まれているテキストが著作権や NSFWの課題をクリアしているかは別問題。 ● 画像：各種データセットが公開されているが、データセットに含まれている画像が著作権や NSFWの課題をクリアしているかは別問題。 ● 動画：動画サイトでCC-BYライセンスで公開されている動画が主なデータソース。メタデータが用意されていないと選定や有効活用が難しい。大容量になることが多い。 ● プログラム：オープンソースになっているレポジトリが主なデータソース。品質や稼働可否を評価することが難しい。 ● 3D：データの提供方法に統一性がなく、データセットごとに異なる取得手順が必要。動画よりも巨大になることが多い。

Slide 19

Slide 19 text

● 仕組み化：一定のルールに従って自動的に処理するシステムを作る。 ○ 例：データを整理し管理するパイプラインやデータ基盤。 ● 生成AIのデータセットは要件の変化、評価のコスト、元データの変更等の不確実性により、仕組み化が難しい。仕組み化、不確実性、マイグレーション日本語LLMのデータセットがほしい Common Crawlや HuggingFaceから取得文章は大量に得られたけど Q&Aが足りない品質要件やクレンジングのロジック収集したデータのライセンスがGPLに変更クレンジング、評価、フィルターデータセット化仕組み化の課題：要件やデータの変化が激しく、多様なモダリティをサポートするシステムが必要。

Slide 20

Slide 20 text

苦労話：webdatasetに全部入れたら検索・更新が困難になった ● コンテンツデータを数千件ずつに分割して webdatasetで圧縮。 ● PyTorchで全データを学習するには便利。 ● 特定条件でデータを検索するには parquetファイルを解凍して探すため、相応の時間を要する。

Slide 21

Slide 21 text

メタデータと抽象化一般的に共通するメタデータライセンスデータソース容量提供者用途取得日画像 - 被写体 - 場所 - 拡張子 - キャプション音声 - 言語 - 話者 - 歌詞・曲の著作権 - サンプリングレートテキスト - 言語 - 著者 - テーマ - ですます調作成日動画 - 言語 - 文字起こし - 解像度 - 音声の有無 3D - 提供フォーマット - 動画有無 - キャプション - 対象物要件や技術の変化によってメタデータも変わっていく。

Slide 22

Slide 22 text

● 完璧な仕組み化が難しいからこそ、マイグレーションに慣れたほうが良い。仕組み化、不確実性、マイグレーション日本語LLMのデータセットがほしい Common Crawlや HuggingFaceから取得文章は大量に得られたけど Q&Aが足りない品質要件やクレンジングのロジック収集したデータのライセンスがGPLに変更クレンジング、評価、フィルターデータセット化フォーマット変換メタデータ化ライセンス再確認マイグレーション前提で作る削除

Slide 23

Slide 23 text

数十億件、 PBサイズの非構造化データから始まる生成 AI開発データセットを用意する実験、学習する APIやアプリに組み込むビジネス化するここが遅いとここが停滞しこれが作れずリリースできないデータダウンローダ GPUとインフラ事業計画データ検査巨大なストレージデータパイプライン DWHと検索ライセンスチェック認識分類 GPU! 高速なデータローダデザイン UI/UX バックエンド DB 課金ユーザ管理監視運用営業 PR マーケティング BizDev パートナーシップ売上コスト利益継続率競合アルゴリズム

Slide 24

Slide 24 text

Slide 25

Slide 25 text

● 仕組み化することで所与の処理は自動化し、アウトプットまで形式に従って記録できるが、サポートされていない処理とアウトプットはルールに従わない異常値になることが多い。仕組み化の利点と難点サポートされていない実験的な処理。マニュアル処理はドキュメントされていないことが多く、作業者が去ったら失われる作業になる。 unknown unknown 日本語LLMを学習する Common Crawlや HuggingFaceから取得文章は大量に得られたけど Q&Aが足りない品質要件やクレンジングのロジッククレンジング評価フィルターデータセット LLMを使って文章生成事前学習 SFT 評価ブレンディング記録データリネージ

Slide 26

Slide 26 text

事例：生成 AIを活用するプロダクト開発 A dramatic landscape image of a rugged mountain range at sunset. The mountains are sharp and imposing, with jagged peaks covered in snow. A winding river cuts through the valley below, reflecting the vibrant colors of the sky. The sky is ablaze with hues of orange, pink, and purple, casting a majestic glow over the entire scene. In the foreground, there are tall pine trees and rocky outcrops, adding to the wild and untamed feel of the landscape.

Slide 27

Slide 27 text

R&D エンジニアビジネスウォ｜ル社内外ユーザウォ｜ル知名度すごいモデル作った！カチャカチャカチャどんどんやってこう！プロンプト書くのめんどうかわいい猫できた！前例のない技術領域の事業化は文化も型もないところから始まる。ウォ｜ル立場ウォ｜ル時差研究開発を事業につなげるコミュニケーションの課題

Slide 28

Slide 28 text

AIリサーチャースピード感のイメージ生成AIの技術 Webプロダクトデータの仕事

Slide 29

Slide 29 text

新しい生成 AIの世界でコミュニケーションの型と文化を作るはじまりはカオスプロダクトを起点に文化を作る

Slide 30

Slide 30 text

ドキュメンテーション、チームワーク、サイロここだけ独善的に解釈して、ドキュメントを一切書かずに何かを作るだけのプロジェクトは意外と多い。

Slide 31

Slide 31 text

● ルールや文化を作り、提案し、守らせる仕組みを作る。 ● 最初の一人になることが重要。 ● 経験上、「0 -> 1」は難しいが、「0 -> 1を零 -> 壱にする」のはもっと難しい。「最初に右側のナプキンを取る」 Innovation distinguishes between a leader and a follower. Steve Jobs

Slide 32

Slide 32 text

（うまくいけば）いつのまにか誰かがテンプレート化してくれてる帰納的に取り入れていく No document Random structure Unknown unknown 知見をドキュメントにする README.md Notion Code comment S3 memo Slack とにかく書く

Slide 33

Slide 33 text

機能と構造 ● コミュニケーションを構造化し、共通認識と要求を分ける。 ● 機能 ○ 各所でREADMEを書く。Whyを明確にする。 ○ 変化が激しい業界だからこそ、物事は簡単に Unknown unknownになる。これを防ぐ。 ● 構造 ○ デザインパターンも構造化コミュニケーションの一種。 ○ DIパターンで作ると共通で認識していれば、構造に沿って開発できる。 ○ 複雑でない構造化を続けることで仕組みが根付く。

Slide 34

Slide 34 text

まとめ

Slide 35

Slide 35 text

変化に強くあれ、イノベーションを楽しめ ● AIの良し悪しを見極める審美眼を鍛える。 ● データに誠実に向き合う。 ● ルールと仕組みを作る側になる。

Slide 36

Slide 36 text

ありがとうございました！