Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【Findy Tools Data Engineering Summit登壇資料】非構造化デー...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
R-Miura
December 26, 2025
0
9
【Findy Tools Data Engineering Summit登壇資料】非構造化データをAIで最大限活用するためのデータフロー
2025年11月6日に開催されたFindy Tools様主催のData Engineering SummitのLT枠での登壇資料です。
R-Miura
December 26, 2025
Tweet
Share
More Decks by R-Miura
See All by R-Miura
【Findy Tools2周年記念】2026年はAgentic DevOpsにチャレンジしよう!
r_miura
0
17
【Findy Tools AI Engineering Summit Tokyo 2025登壇資料】LLM-as-a-judgeによるAI自動監視システム
r_miura
0
11
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
r_miura
1
710
DSPyとMLflowでLLMアプリケーションを開発_.pdf
r_miura
0
99
DATA+AI Summitで感じたこれからのAIとの向き合い方
r_miura
0
220
Featured
See All Featured
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
53
Designing for Performance
lara
610
70k
The Cost Of JavaScript in 2023
addyosmani
55
9.5k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
440
Producing Creativity
orderedlist
PRO
348
40k
Designing for humans not robots
tammielis
254
26k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
460
Code Reviewing Like a Champion
maltzj
527
40k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
340
Visualization
eitanlees
150
17k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.6k
Transcript
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで最大限活用するためのデータフロー CCCMKホールディングス株式会社 テクノロジー戦略本部 チーフAIエンジニア 三浦 諒一
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. v v v v v v 自己紹介 三浦 諒一 CCCMKホールディングス株式会社 テクノロジー戦略本部 チーフAIエンジニア タスク AIを活用したサービスの企画・実装 趣味 ・ゲーム(ジャンルはRPG) ・ブログを書くこと
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. AIエンジニアが感じている課題 ビジネスで発生するデータの大部分が非構造化データと言われているが、 構造化データと比較して扱いが難しい。 データやAIを利用したアプリやシステムを開発する場合、 データをどうやって加工するかで精度が左右されるため、 トライ&エラーを繰り返す必要がある。 非構造化データを効率的に扱うために非構造化データにおける データフローが必要。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで活用するまでのフロー ▪ フォーマットが統一されていない非構造化データを以下のようなフローでAIで活用できる形に変換 Vector DB Index Markdown化 PDF PPTX Markdown Markdown Vector DB Index その他のデータ表現 (Knowledge Graph など) Azure OpenAI etc
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで活用するまでのフロー ▪ AIアプリケーション開発はAIに与えるデータの表現の仕方で試行錯誤することが多い。 ▪ あまり変化が発生しない静的な処理と変化が発生しやすい動的な処理を分割し、試行錯誤の負荷を軽減 常に固定化(静的) 精度向上のために試行錯誤が必要(動的) Vector DB Index Markdown化 PDF PPTX Markdown Markdown Vector DB Index その他のデータ表現 (Knowledge Graph など) Azure OpenAI etc
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Markdown化のアプローチ 6 ◼ MarkItDownはMicrosoft社製のあらゆる形式のファイルをMarkdownに変換し、 LLMが利用できるようにする軽量なPythonユーティリティ。 ◼ オプションでLLMを利用することが可能で、ファイルに含まれる画像のキャプションを Markdown変換時に同時に生成することが可能。 ( ただし処理時間は大幅に増加する) w/o LLM w/ LLM
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Vector DB 7 ◼ 構築のハードルは低いが、精度向上のためにChunkingの戦略や使用するEmbedding Modelなどパラメータ調整が必要。 ◼ DocumentをChunk化する際に前後のつながりが切れてしまうため局所的な情報しか利用できなくなり、全体を要約するよ うなタスクには工夫が必要。また登場人物間の関係性を表現するのが難しい。(A社の競合は?のような質問) Embedding Document Chunk Chunk Chunk + Chunk Emb Vector + Chunk Emb Vector + Chunk Emb Vector Index
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Knowldege Graphによるデータ表現 ◼ Knowledge Graphはドキュメントの中に含まれる登場人物(Entity)とEntity同士の関係性(Relationship)を ネットワークグラフで表すデータの表現方法。ドキュメント内の情報の関係性等を保持できる。 ◼ Knowledge Graphは経験やルールに基づいて構築する方法もあるが、MicrosoftのGraphRAGのようにLLMを活 用して構築するテクニックもある。 ◼ 一方Vector DBよりも構築の負荷が大きく、かつ新しい情報を追加しにくいといった点は課題。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. まとめ 非構造化データをMarkdown化した状態を保持することで、 元のデータが持つ情報を極力維持しつつ扱いやすい状態に。 AIに参照させるデータは RAGで一般的に使われているVector DBだけでなく Graphで表現するKnowledge Graphという選択も。 Markdown化したデータを起点に、開発するアプリケーションに応じて 最適なデータ形式は何かを探索していきたい。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. ブログも公開しています!