Modeler入門_20240115.pdf

by mtsusheep

Slide 1

Slide 1 text

Tech Dojo 2021 1 2024/01/15 GUIで始めるデータ分析プログラム不要で大量データ加工 SPSS Modeler 超入門

Slide 2

Slide 2 text

本日の目的とゴール ▪ 目的 ▪ SPSS Modeler を使用して、どのようなデータ加工ができるかを体感する ▪ SPSS Modeler について “なんとなく知っている” 状態になる ▪ ゴール ▪ SPSS Modeler の基本機能が使える ▪ SPSS Modeler を使ったデータ加工およびモデル作成に触れてみる ▪ このコースを学ぶ方の前提スキル ▪ SPSS Modeler, Watson Studioを初めて利用する方 ▪ こんな方にお勧めです ▪ GUIでデータ加工や予測分析モデルの作成を実施したい方 2 ※製品機能の網羅的な学習や、機械学習/統計解析の詳細をカバーするものではありません

Slide 3

Slide 3 text

GUIで始めるデータ分析 – 直感的なインターフェースで操作 – アイコンを繋げた「ストリーム」として視覚的に処理フローを管理 – 処理の流れが分かりやすく、ノウハウの共有や引継ぎがしやすい – 処理の一部をコピー、分岐させて試行錯誤することも可能 3

Slide 4

Slide 4 text

Agenda 4 • • • • • • •

Slide 5

Slide 5 text

はじめに ▪SPSS Modeler とは –データマイニングや機械学習のフレームワークを提供 –データ取り込みから解析まで一気通貫で実施 5 データの入力データの加工 (集計/結合etc.) データの理解・可視化モデルの作成・評価データの出力モデルの展開データの蓄積

Slide 6

Slide 6 text

はじめに 6 プログラミング分析ツール自動作成特徴オープンソース言語が多い分析に必要な機能を網羅モデルの自動作成や比較ユーザーインターフェースプログラミング用インターフェース (Notebook, Studio等) GUI GUI 代表的なツール備考・プログラミングスキルの習得が必要・ライブラリ管理が煩雑・直観的な操作で柔軟に分析・データ理解やデータ加工が容易・特徴量の自動生成、複数モデルの比較が可能・必要なデータが1ファイルに揃っている必要がある処理記述が複雑加工の自由度が少ない ▪機械学習モデルの作成に利用できるツール群 SPSS Modeler

Slide 7

Slide 7 text

はじめに 7 データの蓄積データの入力データの加工 (集計/結合 etc.) データの理解・可視化モデルの作成・評価モデルの展開クレンジングや結合に手間がかかるプログラムの再利用や共有が難しいデータの出力モデルを作成するまでには泥臭い作業と試行錯誤が必要色々なモデルを試して比較するのは大変 ▪一般的なデータ分析の作業ステップ

Slide 8

Slide 8 text

はじめに ▪SPSS Modelerの提供形態 – 従来型のDesktop版と、IBM Cloud版が存在 – 画面レイアウトやノード形状など、一部差異があるが、基本的な機能は概ね同様 – Desktop版 ⇔ Cloud版の間は、ストリームファイル(.str)を使った移行が可能 (※) (※) カスタムSQLや一部のデータ・ファイル・タイプなど、Cloud版でサポートされていない機能も存在する 8 ●Desktop版 ●Cloud版 (IBM Cloud上でCP4DaaSとして提供) 本日はこちらを中心に紹介

Slide 9

Slide 9 text

▪(参考) SPSS Modeler Desktop版の構成 – 処理対象量に応じ、Client Onlyでも構成可能 – Modeler Server以降を構成する場合、Clientは分析指示のみ ✓ 分析量／頻度の増大 ✓ 分析対象領域の拡大 ✓ ログ出力 ✓ バッチスケジューリング ✓ リアルタイム・スコアリング ✓ 分析資産管理 ✓ 機密保護対策(IT統制) ✓ 分析モデル構築 ✓ アナリスト育成 ✓ 標準化プロセス定義 Modeler Client Modeler Client + Server Modeler Client + Server + 運用管理CADS SPSS Modeler Client <データ･マイニング・デスクトップ・ツール> SPSS Modeler Server<データ･マイニング・サーバー> SPSS CADS (Collaboration and Deployment Services) <スコアリング運用サーバー> 9 はじめに

Slide 10

Slide 10 text

はじめに ▪SPSS Modeler(IBM Cloud版)の構成 –IBM Cloud内 Watson Studioの一部として使用 10 Watson Studio IBM Cloud Watson Studio: 複数ユーザーが共同でデータ分析を行なうための様々な機能を有する分析プラットフォーム起動時にリソースサイズを指定

Slide 11

Slide 11 text

▪SPSS Modeler(IBM Cloud版)の構成 – 「Project」にデータやModeler Flowといったアセット(資産)を登録し、それを使用はじめに 11 ユーザーA ユーザーB ユーザーC Watson Studio Project-1 (所有者:Aさん) SPSS Modeler Data file DB, Storage Project-2 (所有者:Bさん) SPSS Modeler Data Connection ICOS

Slide 12

Slide 12 text

SQLプッシュバック：大量データ処理の効率化 (Desktop版/Cloud版共通) ▪DBが得意な処理（抽出/加工/結合/集計）をSQLの条件にしてDBで実行 ▪これにより、メモリに乗り切らない大量データを高速に、効率よく実施することが可能 GUIで作った処理を自でSQL化できため、大量データの処理が可能です SELECT T2. au_lname AS C0, T2. au_fname AS C1, SUM({fn CONVERT(T0. ytd_sales ,SQL_BIGINT)}) AS C2 FROM dbo . titles T0, dbo . titleauthor T1, dbo . authors T2 WHERE (T0. title_id = T1. title_id ) AND (T1. au_id = T2. au_id ) GROUP BY T2. au_lname ,T2. au_fnam SQLを自動発行（プッシュ） DBに最適な処理を指示 DBがデータ抽出か加工、マージや集計を高速に実行 Modelerでできること以外の処理を残しプロセスに戻すはじめに

Slide 13

Slide 13 text

Agenda 13 • • • • • • •

Slide 14

Slide 14 text

ストリーム領域/キャンバス (ここで処理を編集する) アウトプットのリスト (実行結果の確認に使用) データ (データアップロードに使用) ※画面右側は、必要に応じノードの詳細設定などを行うペインが開閉するノード・パレット (各種処理をここから選択) ノード・プロパティ (ノードの詳細を設定) 画面インターフェース SPSS Modelerの基本操作

Slide 15

Slide 15 text

・・・データの入力・・・データの加工 Modeler にデータを入力レコード(行)の選択、結合、追加などフィールド(列)の選択、作成、置換などデータをグラフィカルに表示モデル作成、アルゴリズム実行データやモデルに関する情報の表示外部へデータを出力・・・モデルの作成・・・作成されたモデル・ナゲット・・・データ出力や可視化自然言語テキストの分析例アイコン概要 SPSS Modelerの基本操作ノード・パレットには、様々な機能を実行するノードが含まれるカテゴリーごとに、ノードの色/形が異なる

Slide 16

Slide 16 text

出力 (ターミナル・ノード) モデル作成集計・結合・加工入力ストリームは基本的にデータ入力ノードから始まり、結合や分岐をしながら処理が続く。ターミナル・ノード (グラフや出力)の後ろにはノードを追加できない。丸四角六角五角五角

Slide 17

Slide 17 text

SPSS Modelerの基本操作任意の場所にノードを配置この方法では、自動的にノード間のリンクも作成されるノードの追加(方法2)：キャンバス上のノードが選択された状態(点線)で必要なノードをダブルクリックこの例では「データ資産」が選択され点線になっている状態でダブルクリックノードの追加(方法1)：ノードパレットから必要なノードをドラッグ＆ドロップあるいは

Slide 18

Slide 18 text

SPSS Modelerの基本操作リンク元ノードから矢印をドラッグリンク先ノード上で離すリンクをマウスオーバーし右クリック「Delete」を選択リンクの作成：リンクの削除：リンクの変更(ノードを挿入)：挿入したいノードをつかんでドラッグ挿入したい場所のリンクが青色になった状態で離すノードが挿入されたリンクが作成されたリンクが削除された

Slide 19

Slide 19 text

SPSS Modelerの基本操作データのプレビュー：該当のノードから出力されるデータをサンプリング表示する。処理の正しさを確認する意図で使用。対象ノードを右クリックし「データのプレビュー」を選択

Slide 20

Slide 20 text

SPSS Modelerの基本操作ノードの実行(Run)：対象ノードを右クリックし Runを選択画面右側にOutput用のペインが自動的に表示される目のアイコンをクリックする (最新の実行結果は一番上に表示される) 実行結果が表示される

Slide 21

Slide 21 text

SPSS Modelerの基本操作コメントの挿入：キャンバス上の何もない箇所を右クリック →“New comment”を選択ダブルクリックして任意の文字を記入

Slide 22

Slide 22 text

Agenda 22 • • • • • • •

Slide 23

Slide 23 text

モデルの作成ローンの与信予測モデル例 23 ▪顧客情報から貸倒リスクの判定モデルを構築申請 No. 年齢収入負債額勤続年数貸倒与信額 00001 25 1000万 0 3 なし 500万 00002 40 400万 100 25 ありー｜｜｜ 10000 45 800万 0 20 なし 600万モデル作成 (学習) 予測モデル説明変数目的変数年齢や収入などをもとに、与信可否を判定担当者個人ローン申込貸倒が発生しそうなので、貸出しできない。申請 No. 年齢収入負債額勤続年数 81631 25 560万 100 5

Slide 24

Slide 24 text

モデルの作成 24 変数名内容備考年齢顧客の年齢 20-56 教育最終学歴 (数字が高いほど高学歴) 1, 2, 3, 4, 5 雇用勤続年数 0-33 居住年数現住所への居住年数 0-34 収入月収単位：万円負債比月収に対する負債の割合単位：パーセントクレジット負債クレジットカードによる負債額(月) 単位：万円その他負債クレジットカード以外の負債額(月) 単位：万円不履行ローン不履行(貸し倒れ)の実績 ★目的変数 (予測したいターゲット列) 今回利用するサンプルデータの変数定義は以下の通りです。

Slide 25

Slide 25 text

モデルの作成今回は決定木分析を使用します。 – 樹木が枝分かれするような形で表現 – 結果の解釈がしやすく、よく利用される 25 購入した購入しない購入しない購入した 3回未満 3回以上 25歳未満 25歳以上年齢来店回数

Slide 26

Slide 26 text

決定木分析処理イメージステップ１ある変数の条件で分割する購入する購入しない 25歳未満 25歳以上年齢 26 年齢来店回数 25歳モデルの作成

Slide 27

Slide 27 text

決定木分析処理イメージステップ２さらに別の条件で分類する 27 購入する購入しない 3回未満 3回以上年齢来店回数 25歳未満 25歳以上年齢来店回数 3回 25歳モデルの作成

Slide 28

Slide 28 text

モデルの作成各ノードの詳細設定を行ないます。ノードをダブルクリックすると、詳細設定画面が開きます。設定後は「保存」を選択します。 28 ダブルクリック「保存」

Slide 29

Slide 29 text

モデルの作成「タイプ」ノードでは、フィールド(列)のプロパティーを指定できます。 ▪ 「教育」列の指標を順序型に変更 ▪ 「不履行」列の指標をフラグ型に変更、ターゲット列に変更 29 ：ダブルクリック値を読み込む「教育」列の指標を順序型にするローン不履行の発生が予測対象のため、ロールを「ターゲット」とする「不履行」のデータ型をフラグ型にする「保存」

Slide 30

Slide 30 text

モデルの作成データの概要を把握するため、データ検査ノードを接続して実行します。 30 右クリックし、「実行」右側ペインから該当の出力を選択「不履行」列が以下を含むことがわかったら「×」で閉じる・有効列700 ・ヌル値150

Slide 31

Slide 31 text

モデルの作成ヌル値の含まれる行を削除します。 31 ダブルクリック「不履行 = '$nulls$'」と入力「保存」「検証」

Slide 32

Slide 32 text

モデルの作成各ノードの詳細設定を行ないます。 32 ダブルクリック既に指定したロール(入力/ ターゲット)を使用する今回はツリーの深さを3とする

Slide 33

Slide 33 text

モデルの作成 33 モデルを作成します。モデルが正常に作成されると、モデルナゲット(茶色いアイコン)が作成されます。モデルナゲットは、モデル作成の結果を示すルールや式のセットです。ノードを右クリックし「実行」を選択 (ノードのメニューでなく、このボタンでストリーム全体を実行しても良い) 自動で追加される

Slide 34

Slide 34 text

モデルの作成 34 モデルナゲットをクリックして、「モデルの表示」を選択します。これにより、重要度の高い変数や、モデルの形を確認することができます。ツリー構造での表現重要度が高いと判断された順に変数を表示

Slide 35

Slide 35 text

モデルの作成モデルの精度を確認するため、モデルナゲットに精度分析ノードを接続します。精度分析ノードを右クリックし、実行します。 35

Slide 36

Slide 36 text

モデルの作成 36 精度分析結果を確認します。右側ペインから該当の出力を選択正解率を確認

Slide 37

Slide 37 text

SPSS Modelerは、データ分析を始めたい方に必要な機能が揃っています。まとめ 37 プログラミングは必要ありません分析初心者や業務担当者でもアイコンをつなぐだけで直感的に操作できます。データ理解やデータ加工を手助けします必要な部品を選択するだけで、データ結合や集計などの準備作業が実施できます。処理の流れが分かりやすく、ノウハウの共有や引継ぎが容易です。処理の流れやモデルの効果の理解が深まりますどのデータを使い、どのような流れで、どんな結果が得られたかを視覚的に理解できます。モデルを業務に活かす際の理解度や説明力が強化されます。

Slide 38

Slide 38 text

◼

Slide 39

Slide 39 text

Tech Dojo 2021 39 免責事項 IBM Developer Dojoは、IBM Cloudを主とした技術情報をお伝えする目的で開催しています。講師や運営スタッフにより、開催毎に最適と判断した内容でお届けしています。現在、ハンズオンを伴う講義はお客様の費用負担がない環境と手順でご案内しています。講義終了後、不要となったサービスはお客様ご自身で削除をお願いいたします。クレジットカードの登録を伴わないLiteアカウントでは、費用は一切発生しませんが、クレジットカードをご登録いただいているお客様はご注意ください。本資料の記載内容は可能な限り正確を期しておりますが、正式なレビューを受けておらず、当資料に記載された内容にを保証するものではありません。また、記載されている内容が将来的に変更になる可能性もございます点を何卒ご了承ください。本日はご参加いただき、誠にありがとうございました。

Slide 40

Slide 40 text

40 付録

Slide 41

Slide 41 text

スケジュール実行も可能 ⚫ 自動実行する時間を指定し、簡単なバッチ処理を行うことが可能です。

Slide 42

Slide 42 text

(補足) プロジェクトの「環境」タブ、「アクセス制御」タブ 42 コラボレーターの設定に使用します CUH(※)時間の確認に使用できます ※CUH(Capacity Unit Hour)： Modeler Flowなどの各種ランタイムを動かすことで消費されていきます。無償枠(10CUH)に達した場合は、翌月までModelerやRefineryなどを使用できないため、ご注意下さい。

Slide 43

Slide 43 text

取引先_ID 従業員数月間購入数 0003 $null$ 35 0012 420 45 0019 $null$ 25 0021 1,200 30 0027 $null$ 25 (補足) Merge(レコード結合)のJoin 取引先_ID 従業員数 0004 180 0012 420 0021 1,200 0034 390 取引先_ID 月間購入数 0003 35 0012 45 0019 25 0021 30 0027 25 取引先_ID 従業員数月間購入数 0012 420 45 0021 1,200 30 取引先_ID 従業員数月間購入数 0004 180 $null$ 0012 420 45 0021 1,200 30 0034 390 $null$ 取引先_ID 従業員数月間購入数 0003 $null$ 35 0004 180 $null$ 0012 420 45 0019 $null$ 25 0021 1,200 30 0027 $null$ 25 0034 390 $null$ Left outer join Right outer join Inner join Full outer join

Slide 44

Slide 44 text

(補足) 一般的なデータ分析までの流れ ▪CRISP-DMの例 44 ビジネスの理解 (Business Understanding) データの理解 (Data Understanding) データの準備 (Preparation) モデル作成 (Modeling) 評価 (Evaluation) 展開 (Deployment) データの意味を理解し、傾向を把握データクレンジング、新しいカラムの生成機械学習モデルの作成