Data Mining Competition

SAS校園資料採礦競賽

報告大綱 ü  命題 ü  時窗切割 ü  目標客群輪廓分析 ü  模型分群 ü 
S.E.M.M.A. ü  結論

命題一大型金控公司經過幾年的積極擴展、爭取新顧客與擴大市場佔有率,在房貸業務上呈現質量俱佳的成長,為因應日益增長的龐大暴險資產,並有效管理資產組合風險,因此銀行管理階層針對房貸客群,訂定下列風險管理目標: ϖ 應用既有房貸顧客基礎,建置房貸顧客進件違約風險預測模型. ϖ 協助作為授信准駁、風險訂價及資產組合風險監控. ϖ
進而能在考量違約風險下挖掘潛在商機,提升客戶貢獻度. 既有顧客資料分析建置違約風險預測模型投入現有顧客資料模型試算現有顧客風險高低處理流程 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群 ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論

目標客群輪廓分析 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論我們小組，以「性別」作為分類群組，搭配各項直觀重要變數，進行客戶的基本敘述性統計分析。根據歷史資料初步分析，玉山未來的目標客群可能平均為-「38歲」，「育有1子」，抵押房屋總值平均為「950萬」且貸款成數為「74%」的客戶，且平均借款期間為「17.8年」。

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論單以「女性」為分類基準探討。玉山未來的女性目標客群可能平均為-「40歲」，「育有1子女」，抵押房屋總值平均為「786萬」且貸款成數為「70%」的客戶，且借款期間平均為「17年」。

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論單以「男性」為分類基準。玉山未來的男性目標客群可能平均為-「39歲」，「育有1子女」，抵押房屋總值平均為「818萬」且貸款成數為「68%」的客戶，且借款期間平均為「16.33年」。

目標客群輪廓分析-極值發現 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論以「OLTV VS. 性別」為例-貸款成數極低，不合常理

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論以「年齡 VS.女性」為例-發現不合法定貸款年齡者

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論資料檢視描述性統計進行基本分析極值發現資料整理

目標客群輪廓分析-資料整理欄名稱說明整理方式 B0003 年齡選取20~65之合法貸款年齡，刪除其餘極值 B0006 年資「年齡」-「年資」大於或等於15方納入考量
B0016 OLTV 「貸款成數」>1.2者逕自剔除 B0010 & B0016 房屋總值 & OLTV 「房屋總值」 X 「OLTV」=0 一併剔除 B0009 ＆ B0017 職業＆償還來源職業別為「無業」，但償還來源為「薪資收入」與「執行業務收入」者，一併剔除刪除極值，釐清可用資訊 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群 ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論

時窗切割 1.總體經濟因素 2.抽樣時窗(Sample Windows)選自2006年始乃因有較高的違約比例. 3.我們團隊以「進件時間點」當作抽樣時窗的起點. 4.觀察時窗（Performance Windows)根據相關研究文獻，訂定兩年為佳. Sample
Windows 抽樣時窗 Performance Windows 觀察時窗 GOODs / BADs 進件時點 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群 ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論

時窗切割-總體經濟原因 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 2002 2003 2004 2005 2006 2007 2008 2009 2010 百分比 5.26 3.67 6.19 4.7 5.44 5.98 0.73 -1.81 10.76 -4 -2 0 2 4 6 8 10 12 百分比經濟成長率 2002 2003 2004 2005 2006 2007 2008 2009 2010 百分比 2.17 3.91 8.39 5.96 2.16 3.18 0.01 -6.18 15.69 -10 -5 0 5 10 15 20 百分比平均每人所得年增率（名目值）資料來源：中央銀行

時窗切割-總體經濟原因 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論資料來源：中央銀行 2002 2003 2004 2005 2006 2007 2008 2009 2010 百分比 -1.23 3.16 9.38 10.5 9.06 8.14 4.12 3.62 10.26 -2 0 2 4 6 8 10 12 百分比全體銀行放款餘額年增率- 中長期擔保品放款 2002 2003 2004 2005 2006 2007 2008 2009 2010 購置住宅貸款 5.52 9.78 14.6 12.68 8.86 5.47 1.82 5 6.07 房屋修繕貸款 -10.94 -0.76 2.95 2.95 8.81 4.66 -5.17 -4.31 -18.84 -30 -20 -10 0 10 20 百分比消費者購置住宅貸款與房屋修繕貸款年增率對照圖

2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
進階切割出部分可用變數 Sample Windows Performance Windows Sample Windows Performance Windows Sample Windows Performance Windows Sample Windows Performance Windows Sample Windows Performance Windows Sample Windows Performance Windows 刪除06年前之變數時窗切割 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群 ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論

模型分群 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論「借款期限」，「OLTV」，「目前顧客形態」作為分群 -違約可能為「低」，「中」，「高」的判斷變數

模型分群-違約可能為「低」的分群 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論消費型靜止型預借消費違約可能為「低」的分群分群變數判斷標準目前顧客型態循環型佔較大比例借款期間主要百分比低於平均（圖中紅框） OLTV 主要百分比低於平均（圖中紅框）

模型分群-違約可能為「中」的分群 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論靜止型預借消費違約可能為「中」的分群分群變數判斷標準目前顧客型態消費型取代循環型佔較大比例借款期間主要百分比始高於平均（圖中紅框） OLTV 主要百分比始高於平均（圖中紅框）

模型分群-違約可能為「高」的分群 ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論靜止型預借消費違約可能為「高」的分群分群變數判斷標準目前顧客型態循環型客戶最多借款期間 N/A OLTV 主要百分比高於平均甚多（圖中紅框）消費型靜止型預借消費

S.E.M.M.A-SAMPLE ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論根據時窗切割完後的樣本選擇，我們發現，如是違約者的比例極低，將無法如實反應現實情形。違約無違約 2006年以降違約註記百分比

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論為了克服此情況，我們使用「過度取樣」與「分層抽樣」來重新調配樣本，使違約 : 沒違約=20% : 80% 2006 年沒有違約之所有樣本 2006年沒有違有違約之部分樣本 2006年違約之所有樣本全取 2006年違約之所有樣本教育程度性別顧客型態分層抽樣暨過度取樣過度取樣合成新樣本在「分層抽樣」部分，選用「教育程度」，「性別」以及「顧客形態」作為抽樣變數

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論處理完抽樣方式後，我們進行資料切割。根據文獻，我們將樣本以7:3的比例，適當切割為「訓練組」以及「驗證組」。樣本處理的動作便告一段落。

S.E.M.M.A-EXPLORE ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論我們首先使用Variable Clustering將變數分群，企圖找出每一群集的代表性風險因素。

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論我們接著Interactive Binning節點進行觀察，發現變數的違約趨勢。

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論變數的Gini值越好，代表其區別好壞的能力越好，為一重要觀察指標

S.E.M.M.A-MODIFY ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論觀察完變數後，我們開始對其進行一連串的處理流程。首先為 Replacement-將資料中的極端值改為Missing Value以便後面Impute 的補值程序。

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論我們利用Tree Method為類別變數進行補值，用Distribution Method 為連續變數進行補值的動作。

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論透過Interactive Binning的觀察，我們把重要變數切割與分組後，使得我們能計算WOE/IV來挑選需要的變數。

S.E.M.M.A-MODEL ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論在MODEL部分我們會使用四種模型來建模並加以比較，分別是「Decision Tree」，「Neural Network」，「Logistic Regression」，以及「AutoNeural」。

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論我們第一個使用的為「Decision Tree」

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論我們亦使用了「AutoNeuro」

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論也使用了「Neural Network」

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論在進行吉斯回歸前，我們小組進行了變數的篩選，順序如下： 1.在Interactive Binning觀察之後，Gini值25以上者進入變數考量範圍。 2.再者，將Variable Clustering觀察中，各分群最具代表性者納入範圍。 3.對於Interval Variable，我們使用 R-Square 尋找意義相近的變數，並使用Gini值作為選擇標準。 4.對於Class Variable，我們使用Chi-Square做初步篩選，再以IV值作為最終選擇標準。

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論「解釋變數」與「目標函數」間的圖型-以「年齡，性別」為例

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論「解釋變數」與「目標函數」間的圖型-以「教育程度，婚姻」為例

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 Main Class Variables： B0002_3 年齡X性別 B0004_7 婚姻X教育程度 B0005 行業別 B0013 縣市別 B0016 OLTV B0024 查詢月前六個月平均循環掛帳比 B0030 全體金融機構前六個月平均循環信用筆數 B0033 全體金融機構查詢月前六個月平均循環掛帳次數比 B0053 查詢月前三個月被查詢為Ｂ（授信）總次數 B0058 查詢月前三個月被查詢項目為Ｋ（信用卡）銀行數 B0093 房貸定約筆數 B0114 中期信用放款往來銀行數

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 Interval Variables： B0027 查詢月前六個月平均循環餘額佔應付帳款比率 B0029 全體金融機構前一個月循環信用筆數 B0044 全體金融機構查詢月前六個預借現金筆數不為零的月數 B0021 全體金融機構前六個月平均循環金額 B0037 全體金融機構前十二個月平均預借現金額總和 B0050 全體金融機構前一個月應付帳款總額 B0104 全體金融機構查詢月前一個月信用額度筆數 B0081 近十二個月總無擔保訂約授信金額 B0084 近十二個月新增總無擔保授信餘額 B0101 全體金融機構查詢月前一月無擔保放款，加現金卡放款，加信用卡循環餘額，加未到期分期償還貸付 B0117 近十二個月新增總中期信用放款訂約金額

ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 l  我們這組所選取的23個變數，除了夠過IV值，GINI係數值，以及群集分析篩選的方式，也考慮了該變數之風險意涵使得模型更為精準 l  若為連續變數，因其本身已量化，只需經過log轉換即可依原始資料之實際數字輸入模型 l  若為離散型變數則將樣本原始資料予以分類，並按不同分類賦予一數值而將之量化

S.E.M.M.A-ASSESS ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論入選變數解釋：經過觀察，我們不僅透過量化的方式（例如 Chi –Squared Test），也透過質化的方式去考慮變數，舉以下變數為例： 1. 婚姻Ｘ教育程度：我們將婚姻狀況與教育程度進行分組配對，可明顯看出，若教育程度越低落，同時婚姻狀況為未婚時，其房貸違約風險乃為高危險群 2. ＯＬＴＶ：依一般授信風險評估原則，貸款成數越高者因其投入自備款低，若遇景氣下滑，擔保品之價值貶損，借款人保有單品之意願降低，成為不良戶之機率較成數低者高 3.意義相似之變數（例如，最近3個月與6個月循環銀行家數），則挑選IV較高者作為代表

S.E.M.M.A-ASSESS ü  命題 ü  目標客群輪廓分析 ü  時窗切割 ü  模型分群
ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論我們決定採用邏輯斯回歸進行我們模型的分析

Data Mining Competition

Data Mining Competition

Other Decks in Business

Featured

Transcript