Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【Findy Tools Data Engineering Summit登壇資料】非構造化デー...
Search
R-Miura
December 26, 2025
0
2
【Findy Tools Data Engineering Summit登壇資料】非構造化データをAIで最大限活用するためのデータフロー
2025年11月6日に開催されたFindy Tools様主催のData Engineering SummitのLT枠での登壇資料です。
R-Miura
December 26, 2025
Tweet
Share
More Decks by R-Miura
See All by R-Miura
【Findy Tools AI Engineering Summit Tokyo 2025登壇資料】LLM-as-a-judgeによるAI自動監視システム
r_miura
0
4
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
r_miura
1
590
DSPyとMLflowでLLMアプリケーションを開発_.pdf
r_miura
0
88
DATA+AI Summitで感じたこれからのAIとの向き合い方
r_miura
0
210
Featured
See All Featured
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
89
Making the Leap to Tech Lead
cromwellryan
135
9.7k
Building AI with AI
inesmontani
PRO
1
570
GraphQLとの向き合い方2022年版
quramy
50
14k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
190
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
92
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
680
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
30
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
750
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
190
Transcript
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで最大限活用するためのデータフロー CCCMKホールディングス株式会社 テクノロジー戦略本部 チーフAIエンジニア 三浦 諒一
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. v v v v v v 自己紹介 三浦 諒一 CCCMKホールディングス株式会社 テクノロジー戦略本部 チーフAIエンジニア タスク AIを活用したサービスの企画・実装 趣味 ・ゲーム(ジャンルはRPG) ・ブログを書くこと
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. AIエンジニアが感じている課題 ビジネスで発生するデータの大部分が非構造化データと言われているが、 構造化データと比較して扱いが難しい。 データやAIを利用したアプリやシステムを開発する場合、 データをどうやって加工するかで精度が左右されるため、 トライ&エラーを繰り返す必要がある。 非構造化データを効率的に扱うために非構造化データにおける データフローが必要。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで活用するまでのフロー ▪ フォーマットが統一されていない非構造化データを以下のようなフローでAIで活用できる形に変換 Vector DB Index Markdown化 PDF PPTX Markdown Markdown Vector DB Index その他のデータ表現 (Knowledge Graph など) Azure OpenAI etc
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで活用するまでのフロー ▪ AIアプリケーション開発はAIに与えるデータの表現の仕方で試行錯誤することが多い。 ▪ あまり変化が発生しない静的な処理と変化が発生しやすい動的な処理を分割し、試行錯誤の負荷を軽減 常に固定化(静的) 精度向上のために試行錯誤が必要(動的) Vector DB Index Markdown化 PDF PPTX Markdown Markdown Vector DB Index その他のデータ表現 (Knowledge Graph など) Azure OpenAI etc
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Markdown化のアプローチ 6 ◼ MarkItDownはMicrosoft社製のあらゆる形式のファイルをMarkdownに変換し、 LLMが利用できるようにする軽量なPythonユーティリティ。 ◼ オプションでLLMを利用することが可能で、ファイルに含まれる画像のキャプションを Markdown変換時に同時に生成することが可能。 ( ただし処理時間は大幅に増加する) w/o LLM w/ LLM
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Vector DB 7 ◼ 構築のハードルは低いが、精度向上のためにChunkingの戦略や使用するEmbedding Modelなどパラメータ調整が必要。 ◼ DocumentをChunk化する際に前後のつながりが切れてしまうため局所的な情報しか利用できなくなり、全体を要約するよ うなタスクには工夫が必要。また登場人物間の関係性を表現するのが難しい。(A社の競合は?のような質問) Embedding Document Chunk Chunk Chunk + Chunk Emb Vector + Chunk Emb Vector + Chunk Emb Vector Index
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Knowldege Graphによるデータ表現 ◼ Knowledge Graphはドキュメントの中に含まれる登場人物(Entity)とEntity同士の関係性(Relationship)を ネットワークグラフで表すデータの表現方法。ドキュメント内の情報の関係性等を保持できる。 ◼ Knowledge Graphは経験やルールに基づいて構築する方法もあるが、MicrosoftのGraphRAGのようにLLMを活 用して構築するテクニックもある。 ◼ 一方Vector DBよりも構築の負荷が大きく、かつ新しい情報を追加しにくいといった点は課題。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. まとめ 非構造化データをMarkdown化した状態を保持することで、 元のデータが持つ情報を極力維持しつつ扱いやすい状態に。 AIに参照させるデータは RAGで一般的に使われているVector DBだけでなく Graphで表現するKnowledge Graphという選択も。 Markdown化したデータを起点に、開発するアプリケーションに応じて 最適なデータ形式は何かを探索していきたい。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. ブログも公開しています!