Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AI時代のデータ基盤

Avatar for shibuiwilliam shibuiwilliam
September 02, 2025

 生成AI時代のデータ基盤

【事業にディープダイブするデータエンジニアリングミートアップ】登壇資料
https://layerx.connpass.com/event/363618/

Avatar for shibuiwilliam

shibuiwilliam

September 02, 2025
Tweet

More Decks by shibuiwilliam

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 shibui yusuke • いろいろ → Stability AI → LayerX(いまここ)

    • LLM, 検索データ, R&Dチームのマネージャー • MLOpsコミュニティ運営 • 最近やりたいこと ⽣成AIの⽣成AI以外のエンジニアリング • Github: @shibuiwilliam • FB: yusuke.shibui • エモカレ :https://note.layerx.co.jp/n/nfaa5013d5fed 飼い猫のWilliam 11歳の誕⽣⽇!
  2. © LayerX Inc. 12 LLM/VLMによるマルチモーダルなドキュメント理解 LLM/VLMで増えるデータ { "テキスト抽出": { "セクションタイトル":

    "01 なぜスタートアップなのか", "メインタイトル": "スタートアップは、雇⽤創出にも⼤きな役割を果たして いる。", "グラフ左": { "タイトル": "⽇本企業の設⽴後年数別従業者数の純増減*", "データ": { "0〜9年": "255万⼈", "10〜19年": "▲12万⼈", "20〜29年": "▲6万⼈", "30年以上": "▲258万⼈" } }, "グラフ右": { "タイトル": "ユニコーン企業の売上⾼と従業員数の推移例", "データ": { "2015": {"売上⾼": "123億円", "従業員数": "329⼈"}, "2016": {"売上⾼": "221億円", "従業員数": "596⼈"}, "2017": {"売上⾼": "358億円", "従業員数": "1,140⼈"}, "2018": {"売上⾼": "517億円", "従業員数": "1,826⼈"} } }, "出典": { "左グラフ": "中⼩企業庁『2018年版 中⼩企業⽩書』", "右グラフ": "SPEEDA(株式会社メルカリ)" } }, "グラフの意味": { "左グラフ": "設⽴からの年数別に従業員数の純増減を⽰したもの。0〜9年の 新興企業では255万⼈の雇⽤が増加している⼀⽅で、設⽴から30年以上経つ企 業では258万⼈の雇⽤が減少している。", "右グラフ": "ユニコーン企業(例:メルカリ)の売上⾼と従業員数の推移を ⽰している。2015年から2018年の4年間で、売上⾼が約4倍、従業員数が5.6倍 に増加しており、急速な成⻑と雇⽤拡⼤を実証している。" } }
  3. © LayerX Inc. 17 LLM/VLMで増えるデータ 新たな情報抽出と⽣成が可能になる マーケット分析.pptx 複数スライドVQA Q:グローバルビジネスの成⻑に よるシリコンバレー地域の⾃然へ

    の影響を説明してください。 A:スライド1.のグラフが⽰すとお り、テック企業の拡⼤によって急 速な都市化と住宅需要の⾼まりが 発⽣しています。その結果とし て、スライド2.記載のように、⽔ 資源への圧⼒が⾼まりを⾒せてお り、農業と都市⽣活で⽔資源の競 合が発⽣しています。
  4. © LayerX Inc. 21 LLM/VLMを⽤いたワークフローを作り、各社各ユースケースの⽂書処理に対応 Ai Workforceによるドキュメント理解と整理 Ai Workforceとは {会社名:

    株式会社LLM} xxx契約書 第6条(責任の免除) 甲は、本契約に基づくサービスの提供において、故 意または重⼤な過失がない限り、いかなる間接的損 害に対しても責任を負わない。 ⼄による本サービスの利⽤に関連して発⽣したデー タの損失または損害について、甲は責任を負わな い。 会社名 株式会社LLM {責任制限条項: 間接的損害, データの損失ま たは損害} ⽂書の意味を汲み取り、 デジタル化を阻んできた⽂書 のフォーマットの違いを吸収 LLM/VLM ‧‧‧
  5. © LayerX Inc. 22 抽出したデータをAI Agentで活⽤するためにマルチモーダル‧⽣成データを管理する Ai Workforceによるドキュメント理解と整理、そして活⽤ Ai Workforceとは

    xxx契約書 第6条(責任の免除) 甲は、本契約に基づくサービスの提供において、故 意または重⼤な過失がない限り、いかなる間接的損 害に対しても責任を負わない。 ⼄による本サービスの利⽤に関連して発⽣したデー タの損失または損害について、甲は責任を負わな い。 会社名 株式会社LLM 検索 エージェント ⽣成 LLM/VLM
  6. © LayerX Inc. 25 多様な形式のデータを管理、提供する データ形式に応じた適切な管理‧保存形態がある 管理 Content analysis -

    Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ] Prompt & feedback {“communication”: [ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz LLM/VLM/RAG
  7. © LayerX Inc. 26 多様な形式のデータを管理、提供する データ形式に応じた適切な管理‧保存形態がある Prompt & feedback {“communication”:

    [ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz Content analysis - Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ] VectorDB
  8. © LayerX Inc. 27 多様な形式のデータを管理、提供する 親⼦関係を整理し、データに⼀貫性のあるIDを振る Prompt & feedback {“communication”:

    [ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz Content analysis - Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ] ID: xxxxxxxx ID: xxxxxxxx ID: xxxxxxxx Text ID: yyyyyyyy ID: xxxxxxxx Content ID: yyyyyyyy ID: xxxxxxxx Content ID: yyyyyyyy Analysis ID: zzzzzzzz
  9. © LayerX Inc. 28 多様な形式のデータを管理、提供する 親⼦関係を整理し、アクセス制御は元データから継承 Prompt & feedback {“communication”:

    [ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz Content analysis - Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ] ID: xxxxxxxx ID: xxxxxxxx ID: xxxxxxxx Text ID: yyyyyyyy ID: xxxxxxxx Content ID: yyyyyyyy ID: xxxxxxxx Content ID: yyyyyyyy Analysis ID: zzzzzzzz 全⽂検索 VectorDB VectorDB 全⽂検索
  10. © LayerX Inc. 29 多様な形式のデータを管理、提供する AI Agentを有効活⽤するためには適切なコンテキストを提供するデータ基盤が必要 Prompt & feedback

    {“communication”: [ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz Content analysis - Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ]
  11. © LayerX Inc. 30 多様な形式のデータを管理、提供する ⽤途によって異なるデータ検索、取得⽅法 Prompt & feedback {“communication”:

    [ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz Content analysis - Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ] VectorDB エージェント データ集計 全⽂検索 ベクトル検索 SQLクエリ
  12. © LayerX Inc. 33 We are hiring! AI検索エンジニア AIシニアデータエンジニア https://open.talentio.com/r/1/c/layerx/pages/109629

    https://open.talentio.com/r/1/c/layerx/pages/107758 MLOps / 機械学習基盤エンジニア https://open.talentio.com/r/1/c/layerx/pages/112898