Slide 1

Slide 1 text

Tech Dojo 2021 1 2024/01/15 GUIで始めるデータ分析 プログラム不要で大量データ加工 SPSS Modeler 超入門

Slide 2

Slide 2 text

本日の目的とゴール ▪ 目的 ▪ SPSS Modeler を使用して、どのようなデータ加工ができるかを体感する ▪ SPSS Modeler について “なんとなく知っている” 状態になる ▪ ゴール ▪ SPSS Modeler の基本機能が使える ▪ SPSS Modeler を使ったデータ加工およびモデル作成に触れてみる ▪ このコースを学ぶ方の前提スキル ▪ SPSS Modeler, Watson Studioを初めて利用する方 ▪ こんな方にお勧めです ▪ GUIでデータ加工や予測分析モデルの作成を実施したい方 2 ※製品機能の網羅的な学習や、機械学習/統計解析の詳細をカバーするものではありません

Slide 3

Slide 3 text

GUIで始めるデータ分析 – 直感的なインターフェースで操作 – アイコンを繋げた「ストリーム」として視覚的に処理フローを管理 – 処理の流れが分かりやすく、ノウハウの共有や引継ぎがしやすい – 処理の一部をコピー、分岐させて試行錯誤することも可能 3

Slide 4

Slide 4 text

Agenda 4 • • • • • • •

Slide 5

Slide 5 text

はじめに ▪SPSS Modeler とは –データマイニングや機械学習のフレームワークを提供 –データ取り込みから解析まで一気通貫で実施 5 データの入力 データの加工 (集計/結合etc.) データの 理解・可視化 モデルの 作成・評価 データの出力 モデルの展開 データの蓄積

Slide 6

Slide 6 text

はじめに 6 プログラミング 分析ツール 自動作成 特徴 オープンソース言語が多い 分析に必要な機能を網羅 モデルの自動作成や比較 ユーザーインター フェース プログラミング用インターフェース (Notebook, Studio等) GUI GUI 代表的なツール 備考 ・プログラミングスキルの習得が必要 ・ライブラリ管理が煩雑 ・直観的な操作で柔軟に分析 ・データ理解やデータ加工が容易 ・特徴量の自動生成、複数 モデルの比較が可能 ・必要なデータが1ファイルに 揃っている必要がある 処理記述が複雑 加工の自由度が少ない ▪機械学習モデルの作成に利用できるツール群 SPSS Modeler

Slide 7

Slide 7 text

はじめに 7 データの蓄積 データの 入力 データの加工 (集計/結合 etc.) データの 理解・可視化 モデルの 作成・評価 モデルの 展開 クレンジングや 結合に手間がかかる プログラムの再利用 や共有が難しい データの 出力 モデルを作成するまでには泥臭い作業と試行錯誤が必要 色々なモデルを試して 比較するのは大変 ▪一般的なデータ分析の作業ステップ

Slide 8

Slide 8 text

はじめに ▪SPSS Modelerの提供形態 – 従来型のDesktop版と、IBM Cloud版が存在 – 画面レイアウトやノード形状など、一部差異があるが、基本的な機能は概ね同様 – Desktop版 ⇔ Cloud版の間は、ストリームファイル(.str)を使った移行が可能 (※) (※) カスタムSQLや一部のデータ・ファイル・タイプなど、Cloud版でサポートされていない機能も存在する 8 ●Desktop版 ●Cloud版 (IBM Cloud上でCP4DaaSとして提供) 本日はこちらを中心に紹介

Slide 9

Slide 9 text

▪(参考) SPSS Modeler Desktop版の構成 – 処理対象量に応じ、Client Onlyでも構成可能 – Modeler Server以降を構成する場合、Clientは分析指示のみ ✓ 分析量/頻度 の増大 ✓ 分析対象領域の拡大 ✓ ログ出力 ✓ バッチスケジューリング ✓ リアルタイム・スコアリング ✓ 分析資産管理 ✓ 機密保護対策(IT統制) ✓ 分析モデル構築 ✓ アナリスト育成 ✓ 標準化プロセス定義 Modeler Client Modeler Client + Server Modeler Client + Server + 運用管理CADS SPSS Modeler Client <データ・マイニング・デスクトップ・ツール> SPSS Modeler Server<データ・マイニング・サーバー> SPSS CADS (Collaboration and Deployment Services) <スコアリング運用サーバー> 9 はじめに

Slide 10

Slide 10 text

はじめに ▪SPSS Modeler(IBM Cloud版)の構成 –IBM Cloud内 Watson Studioの一部として使用 10 Watson Studio IBM Cloud Watson Studio: 複数ユーザーが共同でデータ分析を行なうための 様々な機能を有する分析プラットフォーム 起動時にリソースサイズを指定

Slide 11

Slide 11 text

▪SPSS Modeler(IBM Cloud版)の構成 – 「Project」にデータやModeler Flowといったアセット(資産)を登録し、それを使用 はじめに 11 ユーザーA ユーザーB ユーザーC Watson Studio Project-1 (所有者:Aさん) SPSS Modeler Data file DB, Storage Project-2 (所有者:Bさん) SPSS Modeler Data Connection ICOS

Slide 12

Slide 12 text

SQLプッシュバック:大量データ処理の効率化 (Desktop版/Cloud版共通) ▪DBが得意な処理(抽出/加工/結合/集計)をSQLの条件にしてDBで実行 ▪これにより、メモリに乗り切らない大量データを高速に、効率よく実施することが可能 GUIで作った処理を自でSQL化できため、大量データの処理が可能です SELECT T2. au_lname AS C0, T2. au_fname AS C1, SUM({fn CONVERT(T0. ytd_sales ,SQL_BIGINT)}) AS C2 FROM dbo . titles T0, dbo . titleauthor T1, dbo . authors T2 WHERE (T0. title_id = T1. title_id ) AND (T1. au_id = T2. au_id ) GROUP BY T2. au_lname ,T2. au_fnam SQLを自動発行(プッシュ) DBに最適な処理を指示 DBがデータ抽出か加工、 マージや集計を高速に実行 Modelerでできること以外の 処理を残しプロセスに戻す はじめに

Slide 13

Slide 13 text

Agenda 13 • • • • • • •

Slide 14

Slide 14 text

ストリーム領域/キャンバス (ここで処理を編集する) アウトプットのリスト (実行結果の確認に使用) データ (データアップロードに使用) ※画面右側は、必要に応じノードの詳細設定などを行うペインが開閉する ノード・パレット (各種処理をここから選択) ノード・プロパティ (ノードの詳細を設定) 画面インターフェース SPSS Modelerの基本操作

Slide 15

Slide 15 text

・・・ データの入力 ・・・ データの加工 Modeler にデータを入力 レコード(行)の選択、結合、追加など フィールド(列)の選択、作成、置換など データをグラフィカルに表示 モデル作成、アルゴリズム実行 データやモデルに関する情報の表示 外部へデータを出力 ・・・ モデルの作成 ・・・ 作成されたモデル・ナゲット ・・・ データ出力や可視化 自然言語テキストの分析 例 アイコン概要 SPSS Modelerの基本操作 ノード・パレットには、様々な機能を実行するノードが含まれる カテゴリーごとに、ノードの色/形が異なる

Slide 16

Slide 16 text

出力 (ターミナル・ノード) モデル作成 集計・結合・加工 入力 ストリームは基本的にデータ入力ノードから始まり、結合や分岐をしながら処理が続く。ターミナル・ノード (グラフや出力)の後ろにはノードを追加できない。 丸 四角 六角 五角 五角

Slide 17

Slide 17 text

SPSS Modelerの基本操作 任意の場所に ノードを配置 この方法では、自動的にノード 間のリンクも作成される ノードの追加(方法2): キャンバス上のノードが選択された状態(点線)で必要な ノードをダブルクリック この例では「データ資産」 が選択され点線になって いる状態でダブルクリック ノードの追加(方法1): ノードパレットから必要なノードをドラッグ&ドロップ あるいは

Slide 18

Slide 18 text

SPSS Modelerの基本操作 リンク元ノードから 矢印をドラッグ リンク先ノード上で離す リンクをマウスオーバーし 右クリック 「Delete」を選択 リンクの作成: リンクの削除: リンクの変更(ノードを挿入): 挿入したいノードを つかんでドラッグ 挿入したい場所のリンクが 青色になった状態で離す ノードが挿入された リンクが作成された リンクが削除された

Slide 19

Slide 19 text

SPSS Modelerの基本操作 データのプレビュー: 該当のノードから出力されるデータをサンプリング表示する。処理の正しさを確認する意図で使用。 対象ノードを右クリックし 「データのプレビュー」を選択

Slide 20

Slide 20 text

SPSS Modelerの基本操作 ノードの実行(Run): 対象ノードを右クリックし Runを選択 画面右側にOutput用のペイン が自動的に表示される 目のアイコンをクリックする (最新の実行結果は一番上 に表示される) 実行結果が表示される

Slide 21

Slide 21 text

SPSS Modelerの基本操作 コメントの挿入: キャンバス上の何もない箇所を右クリック →“New comment”を選択 ダブルクリックして任意の文字を記入

Slide 22

Slide 22 text

Agenda 22 • • • • • • •

Slide 23

Slide 23 text

モデルの作成 ローンの与信予測モデル例 23 ▪顧客情報から貸倒リスクの判定モデルを構築 申請 No. 年齢 収入 負債額 勤続 年数 貸倒 与信額 00001 25 1000万 0 3 なし 500万 00002 40 400万 100 25 あり ー | | | 10000 45 800万 0 20 なし 600万 モデル作成 (学習) 予測モデル 説明変数 目的変数 年齢や収入などをもとに、 与信可否を判定 担当者 個人ローン申込 貸倒が発生しそうなので、 貸出しできない。 申請 No. 年齢 収入 負債額 勤続 年数 81631 25 560万 100 5

Slide 24

Slide 24 text

モデルの作成 24 変数名 内容 備考 年齢 顧客の年齢 20-56 教育 最終学歴 (数字が高いほど高学歴) 1, 2, 3, 4, 5 雇用 勤続年数 0-33 居住年数 現住所への居住年数 0-34 収入 月収 単位:万円 負債比 月収に対する負債の割合 単位:パーセント クレジット負債 クレジットカードによる負債額(月) 単位:万円 その他負債 クレジットカード以外の負債額(月) 単位:万円 不履行 ローン不履行(貸し倒れ)の実績 ★目的変数 (予測したいターゲット列) 今回利用するサンプルデータの変数定義は以下の通りです。

Slide 25

Slide 25 text

モデルの作成 今回は決定木分析を使用します。 – 樹木が枝分かれするような形で表現 – 結果の解釈がしやすく、よく利用される 25 購入した 購入しない 購入しない 購入した 3回未満 3回以上 25歳未満 25歳以上 年齢 来店 回数

Slide 26

Slide 26 text

決定木分析処理イメージ ステップ1 ある変数の条件で分割する 購入する 購入しない 25歳未満 25歳以上 年齢 26 年齢 来店 回数 25歳 モデルの作成

Slide 27

Slide 27 text

決定木分析処理イメージ ステップ2 さらに別の条件で分類する 27 購入する 購入しない 3回未満 3回以上 年齢 来店 回数 25歳未満 25歳以上 年齢 来店 回数 3回 25歳 モデルの作成

Slide 28

Slide 28 text

モデルの作成 各ノードの詳細設定を行ないます。 ノードをダブルクリックすると、詳細設定画面が開きます。設定後は「保存」を選択します。 28 ダブルクリック 「保存」

Slide 29

Slide 29 text

モデルの作成 「タイプ」ノードでは、フィールド(列)のプロパティーを指定できます。 ▪ 「教育」列の指標を順序型に変更 ▪ 「不履行」列の指標をフラグ型に変更、ターゲット列に変更 29 : ダブルクリック 値を読み込む 「教育」列の指標 を順序型にする ローン不履行の発生が 予測対象のため、ロールを 「ターゲット」とする 「不履行」のデータ型を フラグ型にする 「保存」

Slide 30

Slide 30 text

モデルの作成 データの概要を把握するため、データ検査ノードを接続して実行します。 30 右クリックし、 「実行」 右側ペインから 該当の出力を 選択 「不履行」列が以下を含むこと がわかったら「×」で閉じる ・有効列700 ・ヌル値150

Slide 31

Slide 31 text

モデルの作成 ヌル値の含まれる行を削除します。 31 ダブルクリック 「不履行 = '$nulls$'」と入力 「保存」 「検証」

Slide 32

Slide 32 text

モデルの作成 各ノードの詳細設定を行ないます。 32 ダブルクリック 既に指定したロール(入力/ ターゲット)を使用する 今回はツリーの 深さを3とする

Slide 33

Slide 33 text

モデルの作成 33 モデルを作成します。 モデルが正常に作成されると、モデルナゲット(茶色いアイコン)が作成されます。 モデルナゲットは、モデル作成の結果を示すルールや式のセットです。 ノードを右クリックし 「実行」を選択 (ノードのメニューで なく、このボタンで ストリーム全体を実 行しても良い) 自動で追加される

Slide 34

Slide 34 text

モデルの作成 34 モデルナゲットをクリックして、「モデルの表示」を選択します。 これにより、重要度の高い変数や、モデルの形を確認することができます。 ツリー構造での表現 重要度が高いと判断された 順に変数を表示

Slide 35

Slide 35 text

モデルの作成 モデルの精度を確認するため、モデルナゲットに精度分析ノードを接続します。 精度分析ノードを右クリックし、実行します。 35

Slide 36

Slide 36 text

モデルの作成 36 精度分析結果を確認します。 右側ペインから 該当の出力を 選択 正解率を確認

Slide 37

Slide 37 text

SPSS Modelerは、データ分析を始めたい方に必要な機能が揃っています。 まとめ 37 プログラミングは必要ありません 分析初心者や業務担当者でもアイコンをつなぐだけで直感的に操作できます。 データ理解やデータ加工を手助けします 必要な部品を選択するだけで、データ結合や集計などの準備作業が実施できます。 処理の流れが分かりやすく、ノウハウの共有や引継ぎが容易です。 処理の流れやモデルの効果の理解が深まります どのデータを使い、どのような流れで、どんな結果が得られたかを視覚的に理解できます。 モデルを業務に活かす際の理解度や説明力が強化されます。

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Tech Dojo 2021 39 免責事項 IBM Developer Dojoは、IBM Cloudを主とした技術情報をお伝えする目的で開催しています。 講師や運営スタッフにより、開催毎に最適と判断した内容でお届けしています。 現在、ハンズオンを伴う講義はお客様の費用負担がない環境と手順でご案内しています。 講義終了後、不要となったサービスはお客様ご自身で削除をお願いいたします。 クレジットカードの登録を伴わないLiteアカウントでは、費用は一切発生しませんが、クレ ジットカードをご登録いただいているお客様はご注意ください。 本資料の記載内容は可能な限り正確を期しておりますが、正式なレビューを受けておらず、当 資料に記載された内容にを保証するものではありません。また、記載されている内容が将来的 に変更になる可能性もございます点を何卒ご了承ください。 本日はご参加いただき、誠にありがとうございました。

Slide 40

Slide 40 text

40 付録

Slide 41

Slide 41 text

スケジュール実行も可能 ⚫ 自動実行する時間を指定し、簡単なバッチ処理を行うことが可能です。

Slide 42

Slide 42 text

(補足) プロジェクトの「環境」タブ、「アクセス制御」タブ 42 コラボレーターの設定 に使用します CUH(※)時間の確認 に使用できます ※CUH(Capacity Unit Hour): Modeler Flowなどの各種ランタイム を動かすことで消費されていきます。 無償枠(10CUH)に達した場合は、 翌月までModelerやRefineryなどを 使用できないため、ご注意下さい。

Slide 43

Slide 43 text

取引先_ID 従業員数 月間購入数 0003 $null$ 35 0012 420 45 0019 $null$ 25 0021 1,200 30 0027 $null$ 25 (補足) Merge(レコード結合)のJoin 取引先_ID 従業員数 0004 180 0012 420 0021 1,200 0034 390 取引先_ID 月間購入数 0003 35 0012 45 0019 25 0021 30 0027 25 取引先_ID 従業員数 月間購入数 0012 420 45 0021 1,200 30 取引先_ID 従業員数 月間購入数 0004 180 $null$ 0012 420 45 0021 1,200 30 0034 390 $null$ 取引先_ID 従業員数 月間購入数 0003 $null$ 35 0004 180 $null$ 0012 420 45 0019 $null$ 25 0021 1,200 30 0027 $null$ 25 0034 390 $null$ Left outer join Right outer join Inner join Full outer join

Slide 44

Slide 44 text

(補足) 一般的なデータ分析までの流れ ▪CRISP-DMの例 44 ビジネスの理解 (Business Understanding) データの理解 (Data Understanding) データの準備 (Preparation) モデル作成 (Modeling) 評価 (Evaluation) 展開 (Deployment) データの意味を理解し、 傾向を把握 データクレンジング、 新しいカラムの生成 機械学習モデル の作成