Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Modeler入門_20240115.pdf

mtsusheep
January 16, 2024
240

 Modeler入門_20240115.pdf

mtsusheep

January 16, 2024
Tweet

Transcript

  1. 本日の目的とゴール ▪ 目的 ▪ SPSS Modeler を使用して、どのようなデータ加工ができるかを体感する ▪ SPSS Modeler

    について “なんとなく知っている” 状態になる ▪ ゴール ▪ SPSS Modeler の基本機能が使える ▪ SPSS Modeler を使ったデータ加工およびモデル作成に触れてみる ▪ このコースを学ぶ方の前提スキル ▪ SPSS Modeler, Watson Studioを初めて利用する方 ▪ こんな方にお勧めです ▪ GUIでデータ加工や予測分析モデルの作成を実施したい方 2 ※製品機能の網羅的な学習や、機械学習/統計解析の詳細をカバーするものではありません
  2. はじめに 6 プログラミング 分析ツール 自動作成 特徴 オープンソース言語が多い 分析に必要な機能を網羅 モデルの自動作成や比較 ユーザーインター

    フェース プログラミング用インターフェース (Notebook, Studio等) GUI GUI 代表的なツール 備考 ・プログラミングスキルの習得が必要 ・ライブラリ管理が煩雑 ・直観的な操作で柔軟に分析 ・データ理解やデータ加工が容易 ・特徴量の自動生成、複数 モデルの比較が可能 ・必要なデータが1ファイルに 揃っている必要がある 処理記述が複雑 加工の自由度が少ない ▪機械学習モデルの作成に利用できるツール群 SPSS Modeler
  3. はじめに 7 データの蓄積 データの 入力 データの加工 (集計/結合 etc.) データの 理解・可視化

    モデルの 作成・評価 モデルの 展開 クレンジングや 結合に手間がかかる プログラムの再利用 や共有が難しい データの 出力 モデルを作成するまでには泥臭い作業と試行錯誤が必要 色々なモデルを試して 比較するのは大変 ▪一般的なデータ分析の作業ステップ
  4. はじめに ▪SPSS Modelerの提供形態 – 従来型のDesktop版と、IBM Cloud版が存在 – 画面レイアウトやノード形状など、一部差異があるが、基本的な機能は概ね同様 – Desktop版

    ⇔ Cloud版の間は、ストリームファイル(.str)を使った移行が可能 (※) (※) カスタムSQLや一部のデータ・ファイル・タイプなど、Cloud版でサポートされていない機能も存在する 8 •Desktop版 •Cloud版 (IBM Cloud上でCP4DaaSとして提供) 本日はこちらを中心に紹介
  5. ▪(参考) SPSS Modeler Desktop版の構成 – 処理対象量に応じ、Client Onlyでも構成可能 – Modeler Server以降を構成する場合、Clientは分析指示のみ

    ✓ 分析量/頻度 の増大 ✓ 分析対象領域の拡大 ✓ ログ出力 ✓ バッチスケジューリング ✓ リアルタイム・スコアリング ✓ 分析資産管理 ✓ 機密保護対策(IT統制) ✓ 分析モデル構築 ✓ アナリスト育成 ✓ 標準化プロセス定義 Modeler Client Modeler Client + Server Modeler Client + Server + 運用管理CADS SPSS Modeler Client <データ・マイニング・デスクトップ・ツール> SPSS Modeler Server<データ・マイニング・サーバー> SPSS CADS (Collaboration and Deployment Services) <スコアリング運用サーバー> 9 はじめに
  6. はじめに ▪SPSS Modeler(IBM Cloud版)の構成 –IBM Cloud内 Watson Studioの一部として使用 10 Watson

    Studio IBM Cloud Watson Studio: 複数ユーザーが共同でデータ分析を行なうための 様々な機能を有する分析プラットフォーム 起動時にリソースサイズを指定
  7. ▪SPSS Modeler(IBM Cloud版)の構成 – 「Project」にデータやModeler Flowといったアセット(資産)を登録し、それを使用 はじめに 11 ユーザーA ユーザーB

    ユーザーC Watson Studio Project-1 (所有者:Aさん) SPSS Modeler Data file DB, Storage Project-2 (所有者:Bさん) SPSS Modeler Data Connection ICOS
  8. SQLプッシュバック:大量データ処理の効率化 (Desktop版/Cloud版共通) ▪DBが得意な処理(抽出/加工/結合/集計)をSQLの条件にしてDBで実行 ▪これにより、メモリに乗り切らない大量データを高速に、効率よく実施することが可能 GUIで作った処理を自でSQL化できため、大量データの処理が可能です SELECT T2. au_lname AS C0,

    T2. au_fname AS C1, SUM({fn CONVERT(T0. ytd_sales ,SQL_BIGINT)}) AS C2 FROM dbo . titles T0, dbo . titleauthor T1, dbo . authors T2 WHERE (T0. title_id = T1. title_id ) AND (T1. au_id = T2. au_id ) GROUP BY T2. au_lname ,T2. au_fnam SQLを自動発行(プッシュ) DBに最適な処理を指示 DBがデータ抽出か加工、 マージや集計を高速に実行 Modelerでできること以外の 処理を残しプロセスに戻す はじめに
  9. ・・・ データの入力 ・・・ データの加工 Modeler にデータを入力 レコード(行)の選択、結合、追加など フィールド(列)の選択、作成、置換など データをグラフィカルに表示 モデル作成、アルゴリズム実行

    データやモデルに関する情報の表示 外部へデータを出力 ・・・ モデルの作成 ・・・ 作成されたモデル・ナゲット ・・・ データ出力や可視化 自然言語テキストの分析 例 アイコン概要 SPSS Modelerの基本操作 ノード・パレットには、様々な機能を実行するノードが含まれる カテゴリーごとに、ノードの色/形が異なる
  10. SPSS Modelerの基本操作 リンク元ノードから 矢印をドラッグ リンク先ノード上で離す リンクをマウスオーバーし 右クリック 「Delete」を選択 リンクの作成: リンクの削除:

    リンクの変更(ノードを挿入): 挿入したいノードを つかんでドラッグ 挿入したい場所のリンクが 青色になった状態で離す ノードが挿入された リンクが作成された リンクが削除された
  11. モデルの作成 ローンの与信予測モデル例 23 ▪顧客情報から貸倒リスクの判定モデルを構築 申請 No. 年齢 収入 負債額 勤続

    年数 貸倒 与信額 00001 25 1000万 0 3 なし 500万 00002 40 400万 100 25 あり ー | | | 10000 45 800万 0 20 なし 600万 モデル作成 (学習) 予測モデル 説明変数 目的変数 年齢や収入などをもとに、 与信可否を判定 担当者 個人ローン申込 貸倒が発生しそうなので、 貸出しできない。 申請 No. 年齢 収入 負債額 勤続 年数 81631 25 560万 100 5
  12. モデルの作成 24 変数名 内容 備考 年齢 顧客の年齢 20-56 教育 最終学歴

    (数字が高いほど高学歴) 1, 2, 3, 4, 5 雇用 勤続年数 0-33 居住年数 現住所への居住年数 0-34 収入 月収 単位:万円 負債比 月収に対する負債の割合 単位:パーセント クレジット負債 クレジットカードによる負債額(月) 単位:万円 その他負債 クレジットカード以外の負債額(月) 単位:万円 不履行 ローン不履行(貸し倒れ)の実績 ★目的変数 (予測したいターゲット列) 今回利用するサンプルデータの変数定義は以下の通りです。
  13. モデルの作成 「タイプ」ノードでは、フィールド(列)のプロパティーを指定できます。 ▪ 「教育」列の指標を順序型に変更 ▪ 「不履行」列の指標をフラグ型に変更、ターゲット列に変更 29 : ダブルクリック 値を読み込む

    「教育」列の指標 を順序型にする ローン不履行の発生が 予測対象のため、ロールを 「ターゲット」とする 「不履行」のデータ型を フラグ型にする 「保存」
  14. Tech Dojo 2021 39 免責事項 IBM Developer Dojoは、IBM Cloudを主とした技術情報をお伝えする目的で開催しています。 講師や運営スタッフにより、開催毎に最適と判断した内容でお届けしています。

    現在、ハンズオンを伴う講義はお客様の費用負担がない環境と手順でご案内しています。 講義終了後、不要となったサービスはお客様ご自身で削除をお願いいたします。 クレジットカードの登録を伴わないLiteアカウントでは、費用は一切発生しませんが、クレ ジットカードをご登録いただいているお客様はご注意ください。 本資料の記載内容は可能な限り正確を期しておりますが、正式なレビューを受けておらず、当 資料に記載された内容にを保証するものではありません。また、記載されている内容が将来的 に変更になる可能性もございます点を何卒ご了承ください。 本日はご参加いただき、誠にありがとうございました。
  15. (補足) プロジェクトの「環境」タブ、「アクセス制御」タブ 42 コラボレーターの設定 に使用します CUH(※)時間の確認 に使用できます ※CUH(Capacity Unit Hour):

    Modeler Flowなどの各種ランタイム を動かすことで消費されていきます。 無償枠(10CUH)に達した場合は、 翌月までModelerやRefineryなどを 使用できないため、ご注意下さい。
  16. 取引先_ID 従業員数 月間購入数 0003 $null$ 35 0012 420 45 0019

    $null$ 25 0021 1,200 30 0027 $null$ 25 (補足) Merge(レコード結合)のJoin 取引先_ID 従業員数 0004 180 0012 420 0021 1,200 0034 390 取引先_ID 月間購入数 0003 35 0012 45 0019 25 0021 30 0027 25 取引先_ID 従業員数 月間購入数 0012 420 45 0021 1,200 30 取引先_ID 従業員数 月間購入数 0004 180 $null$ 0012 420 45 0021 1,200 30 0034 390 $null$ 取引先_ID 従業員数 月間購入数 0003 $null$ 35 0004 180 $null$ 0012 420 45 0019 $null$ 25 0021 1,200 30 0027 $null$ 25 0034 390 $null$ Left outer join Right outer join Inner join Full outer join
  17. (補足) 一般的なデータ分析までの流れ ▪CRISP-DMの例 44 ビジネスの理解 (Business Understanding) データの理解 (Data Understanding)

    データの準備 (Preparation) モデル作成 (Modeling) 評価 (Evaluation) 展開 (Deployment) データの意味を理解し、 傾向を把握 データクレンジング、 新しいカラムの生成 機械学習モデル の作成