Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricksを用いたセキュアなデータ基盤構築とAIプロダクトへの応用.pdf

 Databricksを用いたセキュアなデータ基盤構築とAIプロダクトへの応用.pdf

More Decks by PKSHA Technology(パークシャテクノロジー)

Other Decks in Technology

Transcript

  1. 1 © PKSHA Technology Inc. Confidential 1 © PKSHA Technology

    Inc. Confidential 第3回 Youは何しにDatabricksへ!? Databricksを⽤いた セキュアなデータ基盤構築と AIプロダクトへの応⽤ PKSHA AIヘルプデスクにおける実践事例 伊礼 恭⼠ 株式会社PKSHA Technology
  2. 2 © PKSHA Technology Inc. Confidential 伊礼 恭⼠(いれい やすし) @irys33 (株)PKSHA Technology

    AI Knowledge & Communication カンパニー Senior Software Engineer • ⾼専専攻科を卒業後、⼤⼿通信キャリアに⼊社。AIエンジニ アとして、機械学習モデルの開発からプロダクト開発まで幅 広く経験。2024年8⽉にPKSHAへ⼊社。現在、⾃社AI SaaS 「PKSHA AI ヘルプデスク」におけるドキュメント管理‧RAG 基盤「KnowledgeBase」開発チームのリーダーを担当しつ つ、新規プロダクトの「PKSHA AI コワーカー」の開発を担 当。 PROFILE
  3. 5 © PKSHA Technology Inc. Confidential PROBLEM プロダクト成⻑に伴う「データのサイロ化」 システムの独⽴化と分析の限界 独⽴したサービスアーキテクチャ:各エージェントが独⽴したコンポーネントとして開発‧運

    ⽤されている。 分断されたデータストア:3つのエージェントが、それぞれElastic Cloud, Cosmos DB, MySQL 等を独⾃に保持。 横断的なトラッキングが困難:ユーザーの「⼀連の問い合わせ体験(どこで解決したか)」を 統合して追えない。 最⼤のペイン: ⼤量の「商⽤の対話ログ」があるにも関わらず、新機能開発のための分析‧活⽤が停滞 していた。
  4. 6 © PKSHA Technology Inc. Confidential 6 © PKSHA Technology

    Inc. Confidential Databricksを⽤いた解決アプローチ
  5. 7 © PKSHA Technology Inc. Confidential ARCHITECTURE ⾼いセキュリティ要件とネットワーク制御性の両⽴ エンタープライズ⽔準のセキュリティ ‧AIヘルプデスクが扱うのは、社内機密や個⼈情報を含む「実際の対話データ」。

    ‧外部SaaSへのデータ連携は導⼊の⼤きな障壁。 Databricks採⽤の決め⼿ ‧利⽤中のAzureインフラ内で完結可能。 ‧Snowflake等の他SaaSと⽐較し、経路やネットワークポリシーを⾃社でより細かく管理でき る優位性。 ‧Pythonによる多様なデータソース(Cosmos DB、他プロダクトのDB等)の柔軟な取り込み 機能。
  6. 8 © PKSHA Technology Inc. Confidential DEEP DIVE: NETWORK 顧客データが外部に出ない「完全閉域」ネットワークの

    全体像 3つの技術的アプローチ 1. VNet Injection & No Public IP ⾃社制御下へのCompute Plane配置と外部ア クセスの遮断。 2. UDR & Azure Firewall アウトバウンド通信の完全な監視と経路制御。 3. Hub-Spoke & Private Endpoint 閉域網内での既存プロダクト環境とのセキュア な連携。
  7. 9 © PKSHA Technology Inc. Confidential DEEP DIVE: NETWORK 1.

    Compute Planeの内部配置と外部アクセスの遮断 VNet Injectionの活⽤ ‧Databricks専⽤のVNet内に、 「ホストサブネット(Control Plane通信⽤)」と「コンテナサブネット(Compute⽤)」を 分割して作成。 ‧実際のデータ処理を⾏うコンピューティングリソースを完全に⾃社の管理下に置く。 Secure Cluster Connectivity (No Public IP) ‧no_public_ip = true を設定。 ‧クラスターの各ノードにパブリックIPアドレスを⼀切割り当てず、インターネットからの直 接アクセスを物理的に不可能にする。
  8. 10 © PKSHA Technology Inc. Confidential DEEP DIVE: NETWORK 2.

    FirewallとUDRによるアウトバウンド通信の厳格な制御 UDR (User Defined Route) による強制ルーティング ‧ホストサブネットのアウトバウンド通信(0.0.0.0/0)のNext Hopを Azure Firewallに設定。 ‧すべての外部向け通信を⼀度Firewall経由に強制。 最⼩特権のアウトバウンドルール ‧Firewall上で、Databricksが稼働するために必要な通信のみを明⽰的に許可。  - 宛先: AzureDatabricks, Storage  - ポート: 443, 3306, 8443-8451 ‧これにより、意図しない外部へのデータ流出(Data Exfiltration)を防⽌。
  9. 11 © PKSHA Technology Inc. Confidential DEEP DIVE: NETWORK 3.

    Hub-Spoke構成による既存サービスとの連携 Hub-Spoke構成とVNet Peering ‧AIヘルプデスクの各サービス(コンテナやDB)が配置された既存VNetをHubとし、 DatabricksのVNetと双⽅向でPeeringを実施。 ‧これにより、インターネットを介さずに内部ネットワークのみで通信を完結。 DNSプロキシによる名前解決 ‧Databricks VNetのDNSサーバーをFirewallのPrivate IPに設定。 ‧オンプレミスや他VNetのPrivate Endpointの名前解決をシームレスに⾏い、セキュアなデー タ取得を実現。
  10. 12 © PKSHA Technology Inc. Confidential DATA GOVERNANCE SWE主体の持続可能なデータガバナンス 専任データエンジニアが不在でも運⽤が回る仕組みとして、Databricksの機能をフル活⽤。

    メダリオンアーキテクチャ Bronze(⽣データ) ‧無加⼯で保存し、トレーサビリティを確保。 Silver(クレンジング) ‧個⼈情報のマスキング処理をここで実施。 ‧開発者が安全にデータを触れる状態を作る。 Gold(ビジネス) ‧ダッシュボードやクエリ最適化済みの集計デー タ。 Unity Catalogによる権限⼀元管理 カタログ‧スキーマ‧テーブルの3層構造で権限 を厳密に制御。 【アクセス制御の実例】 ‧⽣データ(Bronze)へのアクセスは管理者の み。 ‧⼀般開発者はマスキング済みのSilver層以降の みアクセス可能。 セキュリティと利便性のトレードオフを解消。
  11. 13 © PKSHA Technology Inc. Confidential 13 © PKSHA Technology

    Inc. Confidential データ基盤がもたらしたビジネス価値
  12. 14 © PKSHA Technology Inc. Confidential BUSINESS VALUE 実データにアクセスできない「分析の壁」 ある新規機能開発の仮説

    「有⼈応答の過去ログを活⽤すれば、オペレーターの回答を補助するRAGが作 れるのではないか?」 ⽴ちはだかっていた壁 ‧仮説を検証するには、実際の商⽤データから「重複した問い合わせがどれくらいあるか」の 分析が必須。 ‧しかし、顧客データはローカルにダウンロードして分析することはセキュリティ上不可能。 ‧サイロ化された以前の環境では、この検証サイクルを回すこと⾃体が困難だった。
  13. 15 © PKSHA Technology Inc. Confidential BUSINESS VALUE 基盤を活⽤したデータドリブンな機能リリース 1.

    安全な環境でのデータ分析 ‧Databricksのノートブックを活⽤し、ローカルにデータを落とさずセキュア環境上で直接本 番ログを分析。 2. 仮説の⽴証と社内説得 ‧分析の結果、重複問い合わせの割合を定量的に可視化。 ‧「RAGを作る価値がある」という確固たるデータが開発を後押し。 3. 新機能のリリース ‧データに基づく意思決定により、スピーディに 有⼈応答補助RAG機能の「オペレータ回答⽀援エージェント」のリリースを達成。
  14. 16 © PKSHA Technology Inc. Confidential DATA DEMOCRATIZATION Databricks Genieによる「社内データ⺠主化」

    開発エンジニアだけでなく、CSやPMなどビジネスサイドにもデータ基盤を開放。 Text to SQLによる⾃律的分析 ‧SQLが書けないメンバーでも、⾃然⾔語で Databricks Genieに質問。 ‧「先⽉のXX社の問い合わせ数は?」 ‧現場が⾃らKPIを抽出し、データを分析する体制を 構築。 図解: GenieのチャットUIと 社内運⽤のイメージ
  15. 17 © PKSHA Technology Inc. Confidential SUMMARY まとめ:セキュア基盤がもたらした価値 ゼロからの完全閉域網構築 ‧Azure

    VNetとFirewallによる徹底したネットワーク制御。 ‧ソフトウェアエンジニア主導で構築‧運⽤可能なメダリオンアーキテクチャの実現。 データが繋がったことによるビジネス成果 ‧分散していたログ資産を統合したことで、 「データに基づく新機能(オペレータ回答⽀援エージェント機能)のリリース」を実現。 ‧Genieによる 「全社的なデータ⺠主化」が進み、組織全体の意思決定スピードが向上。
  16. 18 © PKSHA Technology Inc. Confidential FUTURE OUTLOOK Next Step:ビジネス拡張と新規プロダクトへの接続

    既存ビジネス:データに基づくアップセル ‧Salesforce等の営業情報とプロダクトログを統合。 ‧「FAQのみ導⼊している顧客」の躓きを可視化し、 CSやセールスが説得⼒のある追加提案を⾏う体制へ。 新規プロダクト:PKSHA AIバックオフィスへの応⽤ ‧「回答」だけでなくSaaS連携で「業務完遂」まで担う 新プロダクト(PKSAH AIコワーカー等)。 ‧このセキュアなデータ基盤を拡張し、プロセス全体の ⾃動化と従業員体験の向上を裏側から⽀えていく。 社員A 社員B 社員C 情シス部⾨に 問い合わせたい 経理‧総務部⾨に問 い合わせたい ⼈事部⾨に 問い合わせたい 問い合わせ PKSHA AI ワークマネージャー タスク依頼業務を⾃動化し、 埋もれない、必ずやりきるタ スク管理 ▪⼀括配信 ▪リマインド ▪タスク管理 PKHSA AIヘルプデスク ⼈とAIのハイブリッドで問い 合わせ対応を効率化 ▪⾃動応答 ▪ナレッジ管理 ▪有⼈応答 PKSHA AIコワーカー AIが⼈に変わって事務作業を ⾃動で実⾏ ▪処理の実⾏ ▪ワークフロー ▪外部システム連携 情シス ⼈事 経理 情シス部⾨に 問い合わせたい 経理‧総務部⾨に問 い合わせたい ⼈事部⾨に 問い合わせたい 外部システム 従業員 コーポレート部⾨ タスク依頼 業務の実⾏ PKHSA AIバックオフィス
  17. 19 © PKSHA Technology Inc. Confidential 19 © PKSHA Technology

    Inc. Confidential 詳細はテックブログへ https://voice.pkshatech.com/n/n61ea975d8c90