$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
Search
R-Miura
October 21, 2025
Technology
1
590
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
2025年10月20日に開催された「JEDAI Meetup! AI Readyへの道のり」の登壇資料です。
R-Miura
October 21, 2025
Tweet
Share
More Decks by R-Miura
See All by R-Miura
【Findy Tools AI Engineering Summit Tokyo 2025登壇資料】LLM-as-a-judgeによるAI自動監視システム
r_miura
0
4
【Findy Tools Data Engineering Summit登壇資料】非構造化データをAIで最大限活用するためのデータフロー
r_miura
0
2
DSPyとMLflowでLLMアプリケーションを開発_.pdf
r_miura
0
88
DATA+AI Summitで感じたこれからのAIとの向き合い方
r_miura
0
210
Other Decks in Technology
See All in Technology
ハッカソンから社内プロダクトへ AIエージェント ko☆shi 開発で学んだ4つの重要要素
leveragestech
0
160
ActiveJobUpdates
igaiga
1
320
AR Guitar: Expanding Guitar Performance from a Live House to Urban Space
ekito_station
0
220
2025年のデザインシステムとAI 活用を振り返る
leveragestech
0
240
半年で、AIゼロ知識から AI中心開発組織の変革担当に至るまで
rfdnxbro
0
140
日本Rubyの会: これまでとこれから
snoozer05
PRO
6
240
Strands Agents × インタリーブ思考 で変わるAIエージェント設計 / Strands Agents x Interleaved Thinking AI Agents
takanorig
5
2.1k
ハッカソンから社内プロダクトへ AIエージェント「ko☆shi」開発で学んだ4つの重要要素
sonoda_mj
6
1.7k
特別捜査官等研修会
nomizone
0
570
Connection-based OAuthから学ぶOAuth for AI Agents
flatt_security
0
370
Bedrock AgentCore Memoryの新機能 (Episode) を試してみた / try Bedrock AgentCore Memory Episodic functionarity
hoshi7_n
2
1.9k
MySQLのSpatial(GIS)機能をもっと充実させたい ~ MyNA望年会2025LT
sakaik
0
120
Featured
See All Featured
Unsuck your backbone
ammeep
671
58k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.8k
Optimizing for Happiness
mojombo
379
70k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
0
31
Abbi's Birthday
coloredviolet
0
3.8k
Odyssey Design
rkendrick25
PRO
0
440
How to build a perfect <img>
jonoalderson
0
4.7k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
49k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
400
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Transcript
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 1 JEDAI Meetup! AI Readyへの道のり AI-Readyを目指した非構造化データの メダリオンアーキテクチャ manabian & 三浦 諒一 ( CCCMKホールディングス株式会社 )
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 2 はじめに ◼ AI エンジニアである三浦とデータエンジニアである manabian にて共同で検討した 非構造化データにおけるメダリオンアーキテクチャについて説明します。 ◼ 社内での発表スライドに基づいた生成 AI のナレッジ活用システムのデモを提示したうえで、 データの管理方法案を共有します。サンプルコードを GitHub にて配置してあります。 GitHub へのリンク 詳細は後述
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. v 3 @manabian v 主業務 自己紹介 BI・DWH構築に関するSIベンダーにて テクニカルスペシャリスト職として、次の業務を実施。 • データエンジニアリングの実装論の整理とライブラリ開発 • データ分析基盤とアプリケーションの設計・構築に関する支援 • データ分析基盤に関する技術検証 v v 趣味 趣味がデータ分析基盤に関する調査や検証であり、 主に Qiita を中心に データ分析基盤プラットフォーム に関する記事を投稿。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 4 v v v v v v 自己紹介 三浦 諒一 CCCMKホールディングス株式会社 テクノロジー戦略本部 テックラボ チーフAIエンジニア タスク AIを活用したサービスの企画・実装 趣味 ・ゲーム(ジャンルはRPG) ・ブログを書くこと
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. CHAPTER 5 v v 社内発表スライドによる ナレッジ活用システム実装例
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 6 デモ ◼ powerpointで作成した資料から 最適なページを検索することが出来る システムをdatabricksで開発。 ◼ 検索にヒットしたページの 要約、リンク、ページの画像を表示可能。 ページの要約 リンク 画像
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 7 デモ
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 8 アーキテクチャ pptx→Markdown (MarkItDown) pptx→pdf (unoconv) pdf→png (pdf2image) create embedding volume Databricks apps vector search index delta table ◼ pptxファイルの各ページを個別のPNG形式の画像ファイルに出力し、volumeに格納(上のフロー) ◼ pptxファイルの各ページの内容をMarkdownで出力し、ページごとに行を分けてtableに格納(下のフロー) ◼ TableのMarkdownテキスト情報からembedding modelでembedding vectorを出力し、vector search index化
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 9 MarkItDown ◼ MarkItDownはMicrosoft社製のあらゆる形式のファイルをMarkdownに変換し、 LLMが利用できるようにする軽量なPythonユーティリティ。 ◼ オプションでLLMを利用することが可能で、ファイルに含まれる画像のキャプションを Markdown変換時に同時に生成することが可能。 (ただし処理時間は大幅に増加する) w/o LLM w/ LLM
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 10 MarkItDown ◼ デフォルトでは英語のキャプションが生成される。 もし日本語で生成したければカスタムプロンプトを指定することで実現可能。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. CHAPTER 11 v v 非構造化データの メダリオンアーキテクチャ
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 12 AI-Readyを目指した非構造化データの管理方法の検討が必要 引用元:What is a Medallion Architecture? ◼ AI アプリのソースとなる非構造化データの管理もデータエンジニアが積極的に関与する必要がある。 ◼ ただし、非構造化データの管理方法が体系されておらず情報源も少ないため、 どのように管理すべきかの詳細な検討が求められている。 データエンジニアの担当 AI エンジニアの担当 引用元:Unstructured Data Management at Scale | by Piethein Strengholt | Medium
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 13 非構造化データのメダリオンアーキテクチャ ◼ 具体的な議論を促進するため、非構造化データの管理フローと実装コードのレポジトリを公開。 実装コードのレポジトリ 非構造化データの管理フロー 詳細は次ページで説明
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 14 非構造化データの管理の実践 ◼ 公開されているリポジトリのコードを実行することで、生成AIアプリケーション構築に向けた Bronze からSilver、さらに、Gold までの AI-Ready なデータエンジニアリングを体験可能。 Gold レイヤー ソースレイヤー データ分析基盤におけるデータアーキテクチャ Web クローラー / Web スクレイ パー Web サイト ナレッジ サイト ・・・ エンタープライズ 検索エンジン … Vector DB Bronze レイヤー(構造化) Silver レイヤー ・・・ RDB グラフ DB ナレッジストア File Context landing Raw Files 1.データの配置 1 File Context 2 2.メタデータの取込 File Info 3 3.非構造部ファイル の基本的な処理 File Context Output File Context Error 品質 NG データ品質 チェック 品質 OK 4 4.データ品質 チェック Enriched Enriched Files 5. データの公開 5 5 Curated Curated Files 6.AIアプリでの利用 6 6 6
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 15 まとめ 具体的なAIアプリにおけるデータ管理方法を検討した結果、 実際の実装に落とし込むことができました。生成AI技術の進化は続きますが、 本発表にてAIエンジニアとデータエンジニアをつなぐ架橋を検討できました。 pptxファイルの内容がmarkdownで格納されたsilver層に該当する tableがあることで、その先のvector searchのチューニングが容易になり、 いつもよりスムーズにAIアプリケーションの開発を行うことが出来ました。 GitHub へのリンク サンプルコードは こちらから!