Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI-Readyなデータ基盤を構築するメダリオンアーキテクチャ
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
R-Miura
May 20, 2026
Technology
26
0
Share
AI-Readyなデータ基盤を構築するメダリオンアーキテクチャ
2026年5月20日に開催された「Data Engineering Study #35」の登壇資料です。
R-Miura
May 20, 2026
More Decks by R-Miura
See All by R-Miura
Databricks Appsで実現する社内向けAIアプリ開発の効率化
r_miura
0
410
【Findy Tools2周年記念】2026年はAgentic DevOpsにチャレンジしよう!
r_miura
0
33
【Findy Tools AI Engineering Summit Tokyo 2025登壇資料】LLM-as-a-judgeによるAI自動監視システム
r_miura
0
55
【Findy Tools Data Engineering Summit登壇資料】非構造化データをAIで最大限活用するためのデータフロー
r_miura
0
29
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
r_miura
1
930
DSPyとMLflowでLLMアプリケーションを開発_.pdf
r_miura
0
120
DATA+AI Summitで感じたこれからのAIとの向き合い方
r_miura
0
260
Other Decks in Technology
See All in Technology
自作エディターをOSSにして分かった、一人に刺さる開発が世界を動かす理由
shinyasaita
0
130
React Compiler導入の効果と運用の工夫
kakehashi
PRO
3
300
パーソルキャリア IT/テクノロジー職向け 会社紹介資料|Company Introduction Deck
techtekt
PRO
0
250
"うちにはまだ早い"は本当? ─ 小さく始めるPlatform Engineering入門
harukasakihara
7
650
Cortex(Code) を ML モデルの 精度改善サイクルに組み込む.pdf
oimo23
0
250
Gaussian Splattingの表現力を拡張する — 高周波再構成とインタラクションへのアプローチ —
gpuunite_official
0
200
エムスリーテクノロジーズ株式会社 エンジニア向け紹介資料 / M3 Technologies Company Deck
m3_engineering
0
200
Pythonでベイズモデリング
soogie
0
160
ワールドカフェ再び、そしてゴール・ルール・ロール・ツール / World Café Revisited, and the Goals-Rules-Roles-Tools
ks91
PRO
0
190
その英語学習、AWSで代替できませんか?
suzutatsu
1
170
DI コンテナ自動生成ツールを実装してみた / intro-autodi
uhzz
0
720
ラズパイ & Picoで入門:Zephyr(RTOS)の環境構築からビルドまでの紹介
iotengineer22
0
140
Featured
See All Featured
The Curse of the Amulet
leimatthew05
1
12k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
350
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
910
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
260
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Marketing to machines
jonoalderson
1
5.3k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.1k
The Cost Of JavaScript in 2023
addyosmani
55
9.9k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
エンジニアに許された特別な時間の終わり
watany
106
240k
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
Transcript
2026/5/21 AI-Readyなデータ基盤を構築する メダリオンアーキテクチャ Copyright © V POINT MARKETING Co., Ltd.
All Rights Reserved. AI開発部 三浦 諒一 Data Engineering Study #35 非構造化データの活用事例
Copyright © V POINT MARKETING Co., Ltd. All Rights Reserved.
自己紹介 三浦 諒一 Vポイントマーケティング株式会社 AI開発 チーフAIエンジニア タスク ・AIエンジニアリング全般を担当 ・AIを活用したサービスの企画・実装 趣味 ・ゲーム (ジャンルはRPG) ・ブログを書くこと
3 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. 今日お話しすること 社員だれもがAIを活用できるようにする取り組みの一環として ローコード・ノーコードのエージェント開発ツール「Dify」を社内に展開しています。 活用が進むにつれてエージェントに与える 「データ」の品質が良くないとエージェントの回答精度が悪くなる という課題が出てきました。 今日は私たちが取り組んでいる提案書やマニュアルなどの「非構造データ」を加工し、 エージェントに提供できる仕組みをご紹介します。
4 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. Difyとは Difyはノーコード・ローコードで生成AIを組み込んだアプリケーションやAI Agentを構築できる プラットフォーム。「Knowledge Base」というドキュメント検索エンジンも搭載されていて、 LLMに外部データを参照させるRetrieval Augmented Generation(RAG)も実装できる。
5 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. メダリオンアーキテクチャとは メダリオンアーキテクチャはデータレイクハウスにおいてデータを Bronze(生データ) Silver(クレンジング済み) Gold(ビジネス活用) の3層に分けて段階的に品質を高めていく設計パターンです。 それぞれのステップで異なる専門性が必要なケースで有効です。 【出典】メダリオンアーキテクチャ(medallion architecture)|Databricks https://www.databricks.com/jp/blog/what-is-medallion-architecture
6 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. 非構造データをエージェントが扱えるようにするには? 「非構造データを格納し、効率的に処理をし、エージェントが扱える状態にする」 これを実現するために、大きく3つの要素が必要です。 非構造データを格納する場所を用意する 非構造データをAIを使って効率的に処理する データを管理しエージェントが参照可能にする ITチーム AIエンジニアリングチーム データエンジニアリングチーム 当社で該当するチーム
7 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. メダリオンアーキテクチャに当てはめる これをメダリオンアーキテクチャに当てはめると以下のように各レイヤが対応します。 非構造データを格納する場所を用意する 非構造データをAIを使って効率的に処理する データを管理しエージェントが参照可能にする ITチーム AIエンジニアリングチーム データエンジニアリングチーム 当社で該当するチーム メダリオン アーキテクチャ レイヤ Bronze Silver Gold
8 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. 前提:当社の状況 ⚫ ファイル格納・共有 SharePoint ⚫ コミュニケーションツール Microsoft Teams (チームでファイル共有するとSharePointに格納される。) 業務基盤:Microsoft365 ⚫ AIエンジニアチームはDatabricksを使っているが、 データアナリストはSnowflakeがメイン データ分析基盤:Snowflake
9 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. 非構造データ処理システム全体 現状の状況を踏まえた上で構築した非構造データを処理するシステムの全体図 Snowflake Cortex Search Refresh Microsoft Fabric Files メタ+コンテンツ データ Copy Tool Agent Managed MCP Server ・・・ SharePoint site site site Shortcut による接続 Page Image メタデータ コンテンツデータ
10 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. Fabricでの非構造データ処理の詳細:SharePointへの接続 非構造データの処理はSharePointへの接続が比較的容易なFabricで実行しています。 FabricのShortcutを利用すると、SharePoint Site上のドキュメントを 読み取り専用で読むことが可能です。 Microsoft Fabric 読み取り専用で アクセス SharePoint
11 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. Fabricでの非構造データ処理の詳細:非構造データの加工(PDF) 非構造データのうち、PDFは各ページを画像ファイル化し、画像ファイルを マルチモーダルLLMにプロンプトと合わせて渡してMarkdown形式のテキストに変換します。 PyMuPDFで 各ページを 画像化 PDF PNG LLM テキスト データ
12 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. Fabricでの非構造データ処理の詳細:非構造データの加工(PPTX etc) PPTXなどのOffice系のファイルは当初MarkItDownというPythonのライブラリを使って Markdown形式のテキストに変換していました。 しかしPDFに比べると変換精度がなかなか出ない、という課題がありました。 カスタムModule Query for Wikipedia WikipediaSearch Summarizer Search Planner User Request Summarizer Answer Query for Wikipedia WikipediaSearch Query for Wikipedia WikipediaSearch Summarizer たとえば「プログラミング言語の歴史についてまとめて」 といったリクエスト の場合、「プログラミング言語の歴史」「コンピュータ言語」「プログラミン グ言語の進化」といった多角的な観点でWikipediaから情報を収集し、 レポート に出来るフローを実現できる。 # カスタムModule フロー図解 - User Request - ユーザーがリクエストを入力する - Search Planner - 入力リクエストを受け、一つまたは複数のWikipedia検索クエリに分解 - 各クエリの流れ - Query for Wikipedia(例えば3つに分割) - 各クエリごとにWikipedia Searchを実施 - 検索結果をSummarizerで要約 - 統合 - 各Summarizerの出力を統合してAnswerとして最終出力 --- たとえば「プログラミング言語の歴史についてまとめて」というリクエストの場合: - 「プログラミング言語の歴史」 - 「コンピュータ言語」 - 「プログラミング言語の進化」 など複数の視点でWikipediaから情報を収集・要約し、統合してレポートとして出力する流れ。 --- フロー User Request → Search Planner → (複数の) Query for Wikipedia → Wikipedia Search → Summarizer → (統合) → Answer PDFにしたのち、 画像をLLMに入力してテキスト化 MarkItDownでテキスト化
13 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. Fabricでの非構造データ処理の詳細:非構造データの加工(PPTX etc) そのため、Office系のファイルも一度PDFに変換して処理する方法を検討。 当初はPythonの変換ライブラリを想定。しかし、それらがバックエンドで使用する LibreOfficeをSparkクラスタにFabricの仕様上インストールできないことが判明・・・ Fabricのコミュニティでのやり取りを見ると、Linuxのパッケージがインストールできない。 また、コメントを見る限り今後の対応もなさそうです・・・。 【出典】Enable apt install command in Fabric Notebook https://community.fabric.microsoft.com/t5/Fabric-Ideas/Enable-apt-install-command-in-Fabric-Notebook/idi-p/4512864
14 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. Fabricのコミュニティでのやり取りを見ると、Linuxのパッケージがインストールできない。 また、コメントを見る限り今後の対応もなさそうです・・・。 【出典】Enable apt install command in Fabric Notebook https://community.fabric.microsoft.com/t5/Fabric-Ideas/Enable-apt-install-command-in-Fabric-Notebook/idi-p/4512864 Fabricでの非構造データ処理の詳細:非構造データの加工(PPTX etc) そのため、Office系のファイルも一度PDFに変換して処理する方法を検討。 当初はPythonの変換ライブラリを想定。しかし、それらがバックエンドで使用する LibreOfficeをSparkクラスタにFabricの仕様上インストールできないことが判明・・・ 詰んだ・・・
15 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. Fabricでの非構造データ処理の詳細:非構造データの加工(PPTX etc) MicrosoftのGraphAPIを使うとM365のサービス上のファイルにアクセス可能。 SharePoint上のファイルもGraphAPIで取得可能で、さらに”?format=pdf”を付けて GETでリクエストを送るとPDFに変換された状態で取得可能です。 PDF PDF以外 GraphAPIで PDF変換 PDF ▼ ページ単位の 画像生成 ページ画像を LLMでテキスト化 対応しているファイル種もdoc, docx, dotx, dotm, dwg, eml, epub, htm, html, md, msg, odp, ods, odt, pps, ppsx, ppt, pptx, rtf, tif, tiff, xls, xlsm, xlsxなど、幅広く対応しています。 PPTX,DOCX etc
16 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. 抽出されたコンテンツテーブルサンプル コンテンツの内容とそのページの分類(“表紙”や”結論”など)もLLMで生成。 コンテンツ抽出時に生成した画像はSharePointに格納。 Difyでは画像URLがあると回答に画像を表示できるので、回答内容の根拠が提示しやすい。
17 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. エージェントにデータを提供する仕組み Fabricで生成されたデータをSnowflakeにコピーし、Snowflakeのテキスト検索エンジン Cortex Searchで自然言語で検索可能にします。 Snowflake Cortex Search Refresh Microsoft Fabric Files メタ+コンテンツ データ Copy Tool Agent Managed MCP Server ・・・ SharePoint site site site Shortcut による接続 Page Image メタデータ コンテンツデータ
18 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. Snowflake Cortex Search SnowflakeのCortex Searchはテーブルのテキストカラムを対象に、 埋め込みモデルによるベクトル検索とキーワード検索を組み合わせたハイブリット検索で 関連性の強いデータを検索できるサービスです。RAGのナレッジベースとして利用することが出来ます。
19 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. Snowflake Managed MCP Server Cortex SearchはAPIが提供されていますが、エージェントごとにAPIを呼び出し 解析する処理を書く負荷がDifyユーザーに発生してしまいます。 SnowflakeではManaged MCP Serverというサービスによって、 Cortex SearchをMCP Toolで提供するMCP Serverを立てることが可能です。 Cortex Search Snowflake Managed MCP Server MCP (Model Context Protocol) Agent Difyをはじめ、MCPに対応しているクライアントであればすぐにデータにアクセスが できるようになります。
20 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. まとめと今後に向けて 非構造データはどこで取り扱うか、どうやって処理をするか、どうやって提供するかを 考える必要があり、またそれらの専門性も高くなり、権限も分散しがちです。 (GraphAPI使うための設定の権限はIT基盤チーム、SnowflakeのMCPサーバーの認証周りの 設定の権限はデータエンジニアリングしか持っていない、etc) そのため、 1チームでは全体の処理フローを完結することが出来ず、関連チームとの協力が必須です。 その時の作業領域を明確化するためにもメダリオンアーキテクチャに沿って考えることは 有効だと思います。 今回はSharePointを想定してFabricを選択しましたが、 データソースが今後増えることを考えるとたとえばDatabricksでの実装も検討してきたいです。
21 Copyright © V POINT MARKETING Co., Ltd. All Rights
Reserved. 最後に テックブログを書いています! ご興味あればぜひご覧ください!