$30 off During Our Annual Pro Sale. View Details »

InterSystems IRIS Data Platform で高度なデータ分析のための基盤を整備しよう

InterSystems IRIS Data Platform で高度なデータ分析のための基盤を整備しよう

2020年2月13日に「DevSumi20」で発表したインターシステムズのスライドです。

InterSystemsJapan

February 13, 2020
Tweet

More Decks by InterSystemsJapan

Other Decks in Technology

Transcript

  1. InterSystems IRIS Data Platform で
    高度なデータ分析のための基盤を整備しよう
    堀田 稔
    マネージャ セールスエンジニアリング
    インターシステムズジャパン株式会社

    View Slide

  2. 今日お話しすること
     インターシステムズとその製品のご紹介
     インターオペラビリティ:データの発生源からデータを加工しデータベースに保存する
    などの流れを定義します
     ML Toolkit:Pythonのランタイムをデータプラットフォームからシームレスに利用でき
    ます
     Analytic Workflows:データ分析チームの作業を自動化します
     Integrated ML(QuickML):機械学習の知識がなくても、SQLライクな言語で機械学習を
    行うことができます

    View Slide

  3. 3
    インターシステムズ社について

    View Slide

  4. InterSystems製品の進化
    1978
    階層型データベース
    1996
    SQL オブジェクト 2003
    Interoperability
    相互運用性
    2018
    より高速に
    よりシンプルに

    View Slide

  5. Data Warehouse - Big Data – Data Lake
    Operational
    System Data
    Warehouse
    ETL Data
    Mart
    HDFS
    Hive HBase
    業務 分析
    Agility
    Operational
    System
    ETL
    ETL
    Operational
    System
    ETL
    Data
    Mart
    Data
    Mart
    ログデータ
    センサーデータ
    自然言語

    データサイロ
    スキーマレス
    Data Lake
    データガバナンス
    機械学習
    データ負債をデータ資産へ
    DataOpsエコシステム
    自動化
    オープン
    Best Of Breed
    データの質

    View Slide

  6. InterSystems IRIS Data Platform
    アーキテクチャ
    データエンジン&スクリプト
    メタデータ
    SQL OBJ Cube NLP
    JSON
    分散キャッシュ / シャーディング
    メッセージング
    BPM Rules Workflow
    データベース
    相互運用性
    スケーラビリティ
    No SQL
    埋め込みBI
    相互運用性
    オープン

    View Slide

  7. InterSystems IRIS
    データベース
    InterSystems IRIS
    相互接続性
    InterSystems IRIS
    分析
    InterSystems IRIS Data Platform
    単一でスケーラブルなプラットフォーム

    View Slide

  8. “データ分析チーム”
    Anna
    Doug
    Sofia
    Munir
    Bob
    Tom
    Eric
    データモデラー
    ディベロッパ
    データエンジニア
    データギーク
    ビジネスアナリスト
    マネージャ
    データサイエンティスト

    View Slide

  9. データ分析チーム:課題1
    • Pythonを使った数理モデル構築作業とビジネスプ
    ロセスの連携機能が足りない
    • モデリング環境からソースデータにもっと直接的に
    アクセスしたい
    • データサイエンティストが活用する
    データの準備を自動化したい

    View Slide

  10. インターオペラビリティ
    メッセージの流れを視覚的にトレース
    ビジネスプロセスの定義・実行
    ビジネスルール
    データ変換

    View Slide

  11. • InterSystem IRISからPythonとRにネイティブ
    接続
    ― コア開発: ObjectScript API
    ― ビジネスプロセス開発: インタオペラビリティ
    ― Jupyter Notebookからビジネスプロセスを編集
    可能
    • 機械学習の具体的ユースケースでの実装サン
    プルを含む
    ML Toolkit

    View Slide

  12. View Slide

  13. 開発中:Analytic Workflows
    差別化要因:
    • 一般的な機械学習技術のサポートによるツールの相互運用性 :
    ― 言語: Python, R, Spark, …
    ― フレームワーク: Sagemaker, TensorFlow, …
    • 基本的なタスクや連携の自動化:
    ― ロード, 突合, 保存, …
    • ワークフロー全体の繰り返しと監視

    View Slide

  14. 例 | 顧客解約率分析
    複雑な問題であるが、売り上げに直接インパクト
    • 顧客特化要因:
    ― プロフィール
    ― 直近のアクティビティ
    • 外部要因:
    ― 競合
    ― 経済状況
    • 季節要因
    • …
    解約率 =
    当月解約数
    総顧客数

    View Slide

  15. タスク 1 | データの準備
    Who?
    • Eric, データエンジニア
    What?
    • エンリッチされたCRMデータセット
    • 顧客サービスデータセット
    How?
    • SQL, CSV files
    • Bash scripts
    Load CRM
    Load CstSrv
    Load dgx
    JOIN

    View Slide

  16. タスク 2 | 特徴量エンジニアリング
    Who?
    • Munir, データモデラー
    What?
    • フラット化した特徴量テーブル
    How?
    • Rスクリプト
    Load CRM
    Load CstSrv
    Load dgx
    JOIN
    Feature
    Engineering

    View Slide

  17. タスク 3 | 機械学習
    Who?
    • Doug, データサイエンティスト
    What?
    • 予測モデル
    • スコア化した履歴データセット
    How?
    • Python
    ― ライブラリ: scikit.learn, matplotlib, …
    ― ツール: Jupyter
    Load CRM
    Load CstSrv
    Load dgx
    JOIN
    Feature
    Engineering
    Machine
    Learning

    View Slide

  18. タスク 4 | レポーティング
    Who?
    • Munir, データモデラー
    What?
    • アドホック分析のためのキューブ
    • 概要レポート
    How?
    • InterSystems IRIS BI
    • レポーティング技術
    Load CRM
    Load CstSrv
    Load dgx
    JOIN
    Feature
    Engineering
    Machine
    Learning
    Reporting

    View Slide

  19. タスク 5 | モデルのデプロイ
    Who?
    • Tom,ディベロッパ
    What?
    • 顧客サポートプロセスでの自動アラート
    How?
    • InterSystems IRIS インターオペラビリティ
    Load CRM
    Load CstSrv
    Load dgx
    JOIN
    Feature
    Engineering
    Machine
    Learning
    Reporting Deployment

    View Slide

  20. Analytic Workflows(分析ワークフロー) | 定義
    “分析ワークフローとは、分析プロセスを構
    成する一連のタスク”
    チャレンジ
    • 異なるタスクは異なるツールによって実装さ
    れている
    • 異なるタスクは別々のチームにより管理・監
    視されている
    • 一度だけ行うような実験環境から実用計画に
    移行する際、より複雑になる
    Load CRM
    Load CstSrv
    Load dgx
    JOIN
    Feature
    Engineering
    Machine
    Learning
    Reporting Deployment
    SQL CSV
    SQL
    SQL
    BPL

    View Slide

  21. View Slide

  22. データ分析チーム:課題2
    • データサイエンティストは機械学習のモデルを構築
    するツールに習熟しているが、それをデベロッパが
    アプリケーションにうまく組み込めない
    • 予測モデル構築のニーズが増えるが、
    データサイエンティストのリソースが
    足りない
    • 基本的な機械学習のタスクを使い慣れ
    た環境で実行できれば助かる

    View Slide

  23. モデリング/ 機械学習ツール
    (Spark, R, Tensorflow, …)
    InterSystems IRIS | PMML 統合
    R
    I S
    I
    モデル
    PMML
    PMML Class
    学習 Input
    学習 Output
    イベント

    View Slide

  24. プレビュー版 | Integrated ML(QuickML)
    データサイエンススキルが不足する中、簡単な操作で、慣れ親しんだSQL環境で、基本的
    な機械学習のタスクを実行できる実用的なツール
    • 特徴量エンジニアリングとモデル選択を自動的に行う
    • SQLオプティマイザによるパフォーマンス最適化
    CREATE MODEL PainAlert PREDICTING IsAnomaly BOOLEAN
    WITH (PainScore INT, DaysSinceOp INT,…)
    TRAIN MODEL PainAlert FROM EHR.WardPatientHistory
    WHERE DateAdmitted < ‘07/01/2019’
    SELECT PREDICT(PainAlert), EpisodeID, PatientID
    FROM EHR.WardPatients

    View Slide

  25. Information Portal Analytics Workbench Data Science Lab AI Hub
    Roles
    External
    Embedded
    InterSystems IRISを基盤とするデータ分析
    NLP
    QuickML
    AI Connectors
    PMML Support
    Analytic Workflows
    BI Connectors
    ML Toolkit
    Spark Connector
    Gateways
    UIMA
    NLP-Fx
    Available
    Imminent
    Roadmap
    Full-Stack
    Developer
    Data
    Scientist
    Manager
    Business
    Analyst
    Data
    Modeler
    Data
    Engineer
    Data
    Geek
    Reporting
    Data
    OLAP
    Search Interoperability
    Columnar
    Time Series
    Relational JSON
    Sensor
    BI
    Streaming
    Enterprise
    Architect
    DevOps
    Engineer

    View Slide

  26. クラウド提供
    Community コミュニティ(無償)
    Enterprise エンタープライズ(BYOL)
    Pay As You Go 従量課金
    Docker (OCI) コンテナフォーマットで

    View Slide

  27. IRIS QuickStartsについて
     QuickStartsは、5分で終わる InterSystems IRIS の学習コンテンツです。
     機能ごとに内容が分かれ、概要説明のための数分間のビデオと操作を体験する
    ためのサンプル提供、実行手順のガイドが付いています。
     概要ビデオの日本語字幕もあります。詳細は以下ページをご参照ください。
    https://www.intersystems.com/jp/quickstart/
     ちょっと試したい場合や、機能全般を網羅しながら体験されたい方に最適です。
    https://learning.intersystems.com/course/view.php?id=1055&ssoPass=1
    TRY IRISについて
     InterSystems 教育サービスが提供する無料のInterSystems IRIS お試し環境です。
     お名前とメールアドレスをご登録いただくだけでご利用いただけます。
     お試し環境では、QuickStarts の一部を含めたWebベースのIDEをご用意してい
    ますので、IRISをお試しいただくための特別な準備は不要です。
     TRY IRIS https://www.intersystems.com/jp/TRY
     TRY IRIS 専用WebベースのIDEの使い方は以下ページをご参照ください。
    https://00m.in/X2JYu

    View Slide

  28. 技術リソースへのリンク集
     開発者向けページ https://www.intersystems.com/jp/developing-with-intersystems-iris/
    (https://00m.in/aYWQe)
     インターシステムズFAQ https://faq.intersystems.co.jp/
     FAQ トピック一覧ページ https://www.intersystems.com/jp/support-learning/support/faq/
     Developer Community(英語) https://community.intersystems.com
    *Google翻訳版 https://bit.ly/2wh28v2
     日本語ドキュメント https://www.intersystems.com/jp/support-learning/support/document/
    (https://00m.in/8jxOn)
     TRY IRIS https://www.intersystems.com/jp/TRY
     QuickStart for InterSystems IRIS https://www.intersystems.com/jp/quickstart/
    (最新情報) https://learning.intersystems.com/course/view.php?id=1055&ssoPass=1
     オンラインラーニング(英語) https://learning.intersystems.com
     クラスルームラーニング https://www.intersystems.com/jp/support-learning/
    learning-services/classroom-learning-2/
    (https://00m.in/geQmh)

    View Slide