Microsoft Fabricで考える非構造データのAI活用

Microsoft MVP for Data Platform 永田亮磨 (ZEAL CORPORATION) X:
@ryomaru0825 Linkedin: ryoma-nagata-0825 Qiita: ryoma-nagata Microsoft Fabricで考える非構造データのAI活用

AGENDA  メダリオンアーキテクチャの非構造化データへの適用  AI ユースケースに対するデータストアの適切な選択  Microsoft Fabric における
AI ユースケースの構成パターン  デモ：領収書分析エージェント

メダリオンアーキテクチャ  段階的にデータを保存し、データ管理を効率化するための設計指針 Bronzeデータ（生データ） Goldデータ（最適化
） Silverデータ（信頼・利用可能） • あらゆる形式をそのまま保存する • 過去の連携結果から後続処理の再生成を可能にする • 構造化し、品質ルールを適用した利用可能な状態 • 様々な用途に汎用的に利用するための中間層 • 利用目的に合わせて最適化・整形された状態 • 消費（レポート/分析/アプリ）に合わせた特化層

非構造化データにメダリオンアーキテクチャを適用する Bronzeデータ（生） Goldデータ（最適化） Silverデータ
（信頼・利用可能）取込み・保存・識別汎用的な前処理特化・配置メタデータ生ファイル（履歴保管用） + ファイル識別子 + ファイル URL + 機密度 + ファイル分類生ファイル（提供用に最新のもの） RDB 集計・分析抽出データ + 定義された項目 (領収書→金額・日付) 検索エンジン意味や、キーワードなどの検索用の検索インデックス生ファイル（アプリ提供用）ユースケース固有の共有範囲にファイル提供メタデータ +要約・説明・文字起こし結果ルール / AI 分類 AI抽出品質チェックフォルダ移送アプリフォルダ移送個別の処理（追加AI抽出、チャンク分割、他データ結合など）ナレッジ検索スタースキーマや、ルックアップテーブルなどの分析用の表形式モデル

AI ユースケースの代表例: RAG アプリケーション  RAG: 検索によって強化された生成回答  RAGを確立させた論文ではベクターデータストアを使用した意味検索 •
CLI などによりサービス・ファイルを照合 • Web検索による調査 • データストアへのクエリｚ問い合わせの入力回答の返却入力（コンテキスト）を解釈し、検索方法に変換検索結果を使用して回答を生成業務セマンティクス入力（システムプロンプト、セマンティックレイヤー、オントロジーなどの拡張知識） AI モデルユーザー検索先 RAG アプリケーションチャットUI メモリー管理

参考）セマンティックレイヤーによるコンテキスト一元化 Bronzeデータ（生） Goldデータ（最適化） Silverデータ
（信頼・利用可能）論理層（セマンティックレイヤー）物理層（メダリオンアーキテクチャ）ビジネスの用語指標の計算式項目の関係性アプリケーション層手持ちデータ • データの利用法、意味を一元化する • 異なるアプリケーションであっても、同一の解釈をできるようにする • アプリケーションにあわせてデータモデル・データストアを最適化する • 特定の意図の元、保証されたデータとして出荷する • データを統合し、様々なシナリオで使えるように整備する • 異なるシナリオであっても一元化されたデータソースを使用して後続のシナリオのデータ品質を向上整備意味づけ消費 • 意味づけされたデータをユーザー/AI エージェントが使用する • ユーザーインターフェースを提供し、データの使用結果を表示する

RAG で対応するクエリ（問い合わせ）を分類する  AIユースケース=RAG=ベクター検索ではなく、問い合わせの内容によってデータストアが変わる  対応したいクエリに応じて、選択・併用していく必要がある集計したい例: 「今月の移動にかかった合計は？」
数値や区分などの条件で絞りたい例: 「1万円以上の領収書を見せて」キーワードや意味で探したい例: 「移動に関する領収書を探して」 RDB （大量列挙）検索エンジン RDB 検索エンジン（上位表示）

RAG の内容によるデータストア選択の重要性 – RDB vs 検索エンジン  分析中心→RDB  ダッシュボードや集計は原則
RDB で対応する必要がある。  検索中心→検索エンジン  百～数千程度の小規模で精度の出しやすいナレッジ検索であれば、 RDB上で要約や単語レベルの埋め込みを作成して対応可能だが、高精度を目指す際には検索エンジンの利用が重要となる  特にナレッジ検索シナリオでは全文検索とベクター検索のハイブリッド＋リランキング（質問との合致度）への対応が精度向上で重要となるデータストアエージェント例得意なクエリ苦手なクエリデータモデル分類意味検索の実装 ※製品依存 RDB 集計分析列集計、一致フィルタによる検索や分析曖昧な一致条件リレーショナル（表形式）ベクター列に対する近似メトリックスコアのソート検索エンジンナレッジ検索キーワード検索、意味検索厳密な列集計非リレーショナル（検索インデックス）ベクターフィールドに対する近似メトリックスコアのソート＋検索文とのリランキングによるソート • データモデルについて - Azure Architecture Center | Microsoft Learn • Microsoft Fabric 攻略ガイド 2.0 (ドラフト) - Speaker Deck

参考：検索エンジンによる検索イメージ全文検索ベクター検索特徴： - テキストを分割（トークン化）し、トークン単位でのマッチングとランキングを実行。 - キーワードや語形で検索され、一般的な検索エンジンで広く採用
参考：How full-text search works | Elastic Docs 特徴： - 格納しているデータを意味で検索する - Embedding と呼ばれる手法で、ドキュメントと質問をそれぞれベクトル形式にすることで、意味的な類似性を算出する参考：ベクトル検索 - Azure AI Search | Microsoft Learn テキスト分析基盤 / の/ 構築トークン化インデックス化「分析基盤の構築」柴犬プードル三毛猫犬の種類は？類似度で検索埋めこみを生成 Microsoft Fabric 攻略ガイド 2.0 (ドラフト) - Speaker Deck

その他のデータストア  その他にも様々なクエリ用途によりデータストアの使い分けが必要データストアエージェント例得意なクエリ苦手なクエリデータモデル分類意味検索の実装 ※製品依存
時系列DB ログ分析エージェント時間を条件にしたレコードの分析多数テーブルの結合非リレーショナル（追記型の時刻付きイベント）ベクター列に対する近似メトリックスコアのソートドキュメント製品リコメンドオブジェクト単位の引き当てドキュメント横断の集計や、多数の結合非リレーショナル（ json などの不定の階層構造）ベクタープロパティに対する近似メトリックスコアのソートグラフネットワーク分析深いリレーションシップをたどる検索表形式の集計や、全文検索非リレーショナル（ノードとエッジによる関係構造）ベクタープロパティに対する近似メトリックスコアのソート • データモデルについて - Azure Architecture Center | Microsoft Learn • Microsoft Fabric 攻略ガイド 2.0 (ドラフト) - Speaker Deck

MS 製品を使用した意味検索実装について – RDB vs 検索エンジン Microsoft 製品データモデルベクターインデックス
ベクター検索キーワード一致条件との併用リランキング機能（質問と回答の関連度分析） SQL Server Azure/Fabric SQL RDB （OLTP）ベクターデータ型の使用検索テキストを埋め込み →埋め込み同士の類似度ソート類似度ソートとWHEREを組み合わせて記述するなし Azure DB for PostgreSQL RDB （OLTP） pgvectorによる拡張検索テキストを埋め込み →埋め込み同士の類似度取得ソート類似度ソートとWHEREを組み合わせて記述するなし Fabric ウェアハウス Fabric SQL 分析エンドポイント RDB （OLAP） × × - - Fabric レイクハウス (Delta+Sparkノートブック) RDB （OLAP） × ai.similarity関数でテキスト間のベクター類似度取得類似度ソートとWHEREを組み合わせて記述するなし Azure Databricks RDB （OLAP） Vector Search Indexへの同期 Python / SQL 内の関数で検索テキスト入力引数内で指定可能引数内で指定可能（Pythonのみ） Azure AI Search 検索エンジン検索インデックス内で定義クラシック：検索リクエスト内にVectorQueriesを含めるエージェント検索：自動化構成設定のうえ、クラシック：引数で指定エージェント検索：自動化 Fabric の分析用データストアでは意味検索の充実に大きな違い

Agentic retrieval in Azure AI Search  エージェントの検索ワークフローを一本化する機能(Foundry IQの中核) 
ナレッジベースのワークフロー  クエリ計画：スペルミスの修正、クエリ対象ソースの選定、サブクエリの分割  並列クエリ実行：ナレッジソースに応じた検索を実行する  ナレッジソース：Azure AI Search内のインデックス（ハイブリッド検索）、Web・SharePointなどのリモート検索(Copilot 検索API)  回答生成：生の検索結果またはLLMによる生成回答を返却する  構成したナレッジベースはMCPツールとしてエージェントから利用可能エージェント取得の概要 - Azure AI Search | Microsoft Learn

MS 製品を使用した意味検索実装について -その他のデータストア Microsoft 製品データモデルベクターインデックスベクター検索ハイブリッド検索リランキング機能
（質問と回答の関連度分析） Azure Data Explorer Fabric イベントハウス時系列 Dynamicデータタイプの利用検索テキストを埋め込み →埋め込み同士の類似度ソート類似度ソートとWHERE を組み合わせて記述するなし Azure/Fabric CosmosDB ドキュメントベクタープロパティの使用検索テキストを埋め込み →埋め込み同士の類似度ソートハイブリッド検索用インデックスを作成するプライベートプレビュー中 Fabric Graph グラフ × × - -

マルチエージェント構成 Microsoft Fabric における AI ユースケースの構成パターンノートブックやデータフロー、ショートカット変換組み込み
AIモデル外部AIモデル取得保存強化 AI関数やAPI 呼び出し “01:00 Aが入室” “～の領収書、～円” 構造化情報やテキスト化情報非構造データ OneLake 上でのデータエンリッチメント OneLake データエージェントによるRAG データエージェント外部エージェント OneLake AI Search （クラシック検索） SQL/KQL/DAX AI Search API シングルエージェント構成 • 非構造化データの構造化（テキスト化） • 説明、分類、要約情報などのテキストデータ生成 • 自然言語を外部データソースに合わせた方法に変換して回答生成 • 現状は構造化データ分析対応がメイン • AI Search 連携による検索対応はプレビュー • 外部のエージェントやプログラムから呼び出しが可能 Foundry -> AI Search の場合は Foundry IQナレッジベースとしてエージェント検索から接続するのが主流か

デモ領収書の取込みとエージェント分析  データ：領収書ファイル 35点  目標：  領収書の仕分け（PIIラベル） 
金額情報の構造化  エージェントによる費用分析＆伝票検索領収書 (PDF,画像）データ項目：日付、金額、請求元、費用カテゴリメタデータ項目：ファイル説明文、個人情報分類マルチモーダル AI関数取込み、ベクター化データエージェントレイクハウス AI Search 移動に関連する費用を集計して移動から類推されるカテゴリ値を検索（→交通費）正確なカテゴリ値を使用して集計曖昧な検索集計SQL 回答を生成 Like ‘%移動%’ とならないように AI Searchを使用する

狙った課題  問い合わせ側の語彙と、集計対象のテーブルで設定されているカテゴリ値のギャップ  例：ユーザーは「移動」という言葉で問い合わせ -> テーブル上では
L1: 交通費 / L2: タクシーのように管理  「移動」→「交通費」のように正規のカテゴリ値へ変換したうえで集計する必要がある。  初期案：AISearch で該当レシートIDを取得→DataAgentの ID in (～)で使ってもらう  スケールしない。レシート数が多いと、SQLへのID入力がうまくいく気がしない  今回の案：集計のカテゴリマスタをAISearch に取込して正規カテゴリ変換をAI Search にまかせる  AI Search 使うほどではない構成になる気もするけど、リランキング含めた該当伝票の検索にも使える構成だからOKとする

FAQ  アクセスするエージェントの使い分けは？  集計を必要とするならデータエージェント  Foundry などの外部エージェントはデータエージェントを専門家として聞きに行く立場として利用  ナレッジ検索中心なら
Foundry 側のエージェントのみでOK  なぜデータエージェントが必要？  実行可能なSQLを検証するなど、分析を実行するための機能がビルトインされている  意味定義を再利用することができる  複数外部エージェントがデータの利用方法をそれぞれ定義した場合→解釈のゆれ  データエージェントによるデータソース説明の単一化→どの外部エージェントから依頼をうけても一致した解釈で分析  ＋セマンティックモデルやオントロジー、グラフによりデータソース側で説明を定義すると複数のデータエージェントが増える場合も対応可能  OneLake の情報をAI Searchに格納した場合にどちらのエージェントがアクセスするべき？  SQL分析に必要な情報であればデータエージェントに直接与えられるほうがよい  オーケストレーションエージェント側で把握しておくべき内容であればデータエージェントだけがアクセスできるのは不適

今後扱わなかった課題など  チャンク分割  同一画像に複数領収書が含まれる場合、複数ドキュメントとして分割する必要がある  画像を切り取るまではいかなくとも、書き起こし時点で配列化して複数レコードに分割させるなどの粒度調整が必要になる  また、その場合のID発番方法など検討事項は多い 
領収書はチャンク単位がわかりやすいが、QAや不具合対応のようなシナリオでは、長いドキュメントを扱う可能性もあるため、よりエージェントとしての責務分離が重要になりそう  Azure AI Search インデックスへの取込  SQL コネクタは使用できなかったため、サポートされているCSV連携とした。大規模データだとどうなるか、また、連携ファイルを重複して持つことになるため二重持ち問題も。

その他参考  RAG ソリューションの設計と開発 - Azure Architecture Center | Microsoft
Learn  Building a RAG application with Microsoft Fabric  Unstructured Data Management at Scale | by Piethein Strengholt | Medium  AI-Readyを目指した非構造化データのメダリオンアーキテクチャ - Speaker Deck

Thank you !

Microsoft Fabricで考える非構造データのAI活用

Microsoft Fabricで考える非構造データのAI活用

Ryoma Nagata

More Decks by Ryoma Nagata

Other Decks in Technology

Featured

Transcript

Microsoft MVP for Data Platform 永田亮磨 (ZEAL CORPORATION) X:

AGENDA  メダリオンアーキテクチャの非構造化データへの適用  AI ユースケースに対するデータストアの適切な選択  Microsoft Fabric における

メダリオンアーキテクチャ  段階的にデータを保存し、データ管理を効率化するための設計指針 Bronzeデータ（生データ） Goldデータ（最適化

非構造化データにメダリオンアーキテクチャを適用する Bronzeデータ（生） Goldデータ（最適化） Silverデータ

AI ユースケースの代表例: RAG アプリケーション  RAG: 検索によって強化された生成回答  RAGを確立させた論文ではベクターデータストアを使用した意味検索 •

参考）セマンティックレイヤーによるコンテキスト一元化 Bronzeデータ（生） Goldデータ（最適化） Silverデータ

RAG の内容によるデータストア選択の重要性 – RDB vs 検索エンジン  分析中心→RDB  ダッシュボードや集計は原則

その他のデータストア  その他にも様々なクエリ用途によりデータストアの使い分けが必要データストアエージェント例得意なクエリ苦手なクエリデータモデル分類意味検索の実装 ※製品依存

MS 製品を使用した意味検索実装について – RDB vs 検索エンジン Microsoft 製品データモデルベクターインデックス

Agentic retrieval in Azure AI Search  エージェントの検索ワークフローを一本化する機能(Foundry IQの中核) 

MS 製品を使用した意味検索実装について -その他のデータストア Microsoft 製品データモデルベクターインデックスベクター検索ハイブリッド検索リランキング機能

マルチエージェント構成 Microsoft Fabric における AI ユースケースの構成パターンノートブックやデータフロー、ショートカット変換組み込み

デモ領収書の取込みとエージェント分析  データ：領収書ファイル 35点  目標：  領収書の仕分け（PIIラベル） 

狙った課題  問い合わせ側の語彙と、集計対象のテーブルで設定されているカテゴリ値のギャップ  例：ユーザーは「移動」という言葉で問い合わせ -> テーブル上では

FAQ  アクセスするエージェントの使い分けは？  集計を必要とするならデータエージェント  Foundry などの外部エージェントはデータエージェントを専門家として聞きに行く立場として利用  ナレッジ検索中心なら

その他参考  RAG ソリューションの設計と開発 - Azure Architecture Center | Microsoft

Thank you !