Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Mining Competition

Data Mining Competition

This is a competition mutually held by SAS and E.SUN FHC in Taiwan.
Given enormous data, participants have to use data mining method to build a model which lays an strong emphasis on the variables in order to avoid or reduce the defaulting rate.

Nai-Chuan Hsu

June 26, 2014
Tweet

Other Decks in Business

Transcript

  1. 命題 一大型金控公司經過幾年的積極擴展、爭取新顧客與擴 大市場佔有率,在房貸業務上呈現質量俱佳的成長,為因應 日益增長的龐大暴險資產,並有效管理資產組合風險,因此 銀行管理階層針對房貸客群,訂定下列風險管理目標: ϖ 應用既有房貸顧客基礎,建置房貸顧客進件違約風險預測模型. ϖ 協助作為授信准駁、風險訂價及資產組合風險監控. ϖ

    進而能在考量違約風險下挖掘潛在商機,提升客戶貢獻度. 既有顧客資 料分析 建置違約風 險預測模型 投入現有顧 客資料 模型試算現 有顧客風險 高低 處理流程 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群 ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論
  2. 目標客群輪廓分析 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 我們小組,以「性別」作為分類群組,搭配各項直觀重要變數,進行 客戶的基本敘述性統計分析。 根據歷史資料初步分析,玉山未來的目標客群可能平均為-「38歲」, 「育有1子」,抵押房屋總值平均為「950萬」且貸款成數為「74%」 的客戶,且平均借款期間為「17.8年」。
  3. 目標客群輪廓分析 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 單以「女性」為分類基準探討。 玉山未來的女性目標客群可能平均為-「40歲」,「育有1子女」, 抵押房屋總值平均為「786萬」且貸款成數為「70%」的客戶,且 借款期間平均為「17年」。
  4. 目標客群輪廓分析 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 單以「男性」為分類基準。 玉山未來的男性目標客群可能平均為-「39歲」,「育有1子女」, 抵押房屋總值平均為「818萬」且貸款成數為「68%」的客戶,且 借款期間平均為「16.33年」。
  5. 目標客群輪廓分析-極值發現 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 以「OLTV VS. 性別」為例-貸款成數極低,不合常理
  6. 目標客群輪廓分析-極值發現 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 以「年齡 VS.女性」為例-發現不合法定貸款年齡者
  7. 目標客群輪廓分析-極值發現 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 資料檢視 描述性統計進行基本分析 極值發現 資料整理
  8. 目標客群輪廓分析-資料整理 欄名稱 說明 整理方式 B0003 年齡 選取20~65之合法貸款年齡,刪除其餘極值 B0006 年資 「年齡」-「年資」大於或等於15方納入考量

    B0016 OLTV 「貸款成數」>1.2者逕自剔除 B0010 & B0016 房屋總值 & OLTV 「房屋總值」 X 「OLTV」=0 一併剔除 B0009 & B0017 職業 & 償還來源 職業別為「無業」,但償還來源為「薪資收 入」與「執行業務收入」者,一併剔除 刪除極值,釐清可用資訊 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群 ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論
  9. 時窗切割 1.總體經濟因素 2.抽樣時窗(Sample Windows)選自2006年始乃因有較高的違約 比例. 3.我們團隊以「進件時間點」當作抽樣時窗的起點. 4.觀察時窗(Performance Windows)根據相關研究文獻,訂定 兩年為佳. Sample

    Windows 抽樣時窗 Performance Windows 觀察時窗 GOODs / BADs 進件時點 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群 ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論
  10. 時窗切割-總體經濟原因 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 2002 2003 2004 2005 2006 2007 2008 2009 2010 百分比 5.26 3.67 6.19 4.7 5.44 5.98 0.73 -1.81 10.76 -4 -2 0 2 4 6 8 10 12 百分比 經濟成長率 2002 2003 2004 2005 2006 2007 2008 2009 2010 百分比 2.17 3.91 8.39 5.96 2.16 3.18 0.01 -6.18 15.69 -10 -5 0 5 10 15 20 百分比 平均每人所得年增率(名目值) 資料來源:中央銀行
  11. 時窗切割-總體經濟原因 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 資料來源:中央銀行 2002 2003 2004 2005 2006 2007 2008 2009 2010 百分比 -1.23 3.16 9.38 10.5 9.06 8.14 4.12 3.62 10.26 -2 0 2 4 6 8 10 12 百分比 全體銀行放款餘額年增率- 中長期擔保品放款 2002 2003 2004 2005 2006 2007 2008 2009 2010 購置住宅貸款 5.52 9.78 14.6 12.68 8.86 5.47 1.82 5 6.07 房屋修繕貸款 -10.94 -0.76 2.95 2.95 8.81 4.66 -5.17 -4.31 -18.84 -30 -20 -10 0 10 20 百分比 消費者購置住宅貸款 與 房屋修繕貸款年增率 對照圖
  12. 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013

    進階切割出部分可用變數 Sample Windows  Performance Windows Sample Windows  Performance Windows Sample Windows  Performance Windows Sample Windows  Performance Windows Sample Windows  Performance Windows Sample Windows  Performance Windows 刪除06年 前之變數 時窗切割 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群 ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論
  13. 模型分群 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 「借款期限」,「OLTV」,「目前顧客形態」作為分群 -違約可能為「低」,「中」,「高」的判斷變數
  14. 模型分群-違約可能為「低」的分群 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 消費型 靜止型 預借消費 違約可能為「低」的分群 分群變數 判斷標準 目前顧客型態 循環型佔較大比例 借款期間 主要百分比低於平均(圖中紅框) OLTV 主要百分比低於平均(圖中紅框)
  15. 模型分群-違約可能為「中」的分群 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 靜止型 預借消費 違約可能為「中」的分群 分群變數 判斷標準 目前顧客型態 消費型取代循環型佔較大比例 借款期間 主要百分比始高於平均(圖中紅框) OLTV 主要百分比始高於平均(圖中紅框)
  16. 模型分群-違約可能為「高」的分群 ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 靜止型 預借消費 違約可能為「高」的分群 分群變數 判斷標準 目前顧客型態 循環型客戶最多 借款期間 N/A OLTV 主要百分比高於平均甚多(圖中紅框) 消費型 靜止型 預借消費
  17. S.E.M.M.A-SAMPLE ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 根據時窗切割完後的樣本選擇,我們發現,如是違約者 的比例極低,將無法如實反應現實情形。 違約 無違約 2006年以降違約註記百分比
  18. S.E.M.M.A-SAMPLE ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 為了克服此情況,我們使用「過度取樣」與「分層抽樣」來重新調配 樣本,使違約 : 沒違約=20% : 80% 2006 年沒有違 約之所有樣本 2006年沒 有違 有違約之 部分樣本 2006年 違約之 所有樣 本 全取 2006年 違約之 所有樣 本 教育程 度 性別 顧客型 態 分層抽樣暨過度取樣 過度取樣 合成新樣本 在「分層抽樣」部分,選用「教育程度」,「性別」以及「顧客形態」 作為抽樣變數
  19. S.E.M.M.A-SAMPLE ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 處理完抽樣方式後,我們進行資料切割。根據文獻,我們將樣本 以7:3的比例,適當切割為「訓練組」以及「驗證組」。樣本處理 的動作便告一段落。
  20. S.E.M.M.A-EXPLORE ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 我們首先使用Variable Clustering將變數分群,企圖找出每一群集 的代表性風險因素。 
  21. S.E.M.M.A-EXPLORE ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 我們首先使用Variable Clustering將變數分群,企圖找出每一群集 的代表性風險因素。 
  22. S.E.M.M.A-EXPLORE ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 我們接著Interactive Binning節點進行觀察,發現變數的違約趨勢。
  23. S.E.M.M.A-EXPLORE ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 變數的Gini值越好,代表其區別好壞的能力越好,為一重要觀察指標
  24. S.E.M.M.A-MODIFY ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 觀察完變數後,我們開始對其進行一連串的處理流程。首先為 Replacement-將資料中的極端值改為Missing Value以便後面Impute 的補值程序。 
  25. S.E.M.M.A-MODIFY ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 我們利用Tree Method為類別變數進行補值,用Distribution Method 為連續變數進行補值的動作。
  26. S.E.M.M.A-MODIFY ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 透過Interactive Binning的觀察,我們把重要變數切割與分 組後,使得我們能計算WOE/IV來挑選需要的變數。
  27. S.E.M.M.A-MODEL ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 在MODEL部分我們會使用四種模型來建模並加以比較,分別是 「Decision Tree」,「Neural Network」,「Logistic Regression」, 以及「AutoNeural」。
  28. S.E.M.M.A-MODEL ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 我們第一個使用的為「Decision Tree」
  29. S.E.M.M.A-MODEL ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 我們亦使用了「AutoNeuro」
  30. S.E.M.M.A-MODEL ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 也使用了「Neural Network」
  31. S.E.M.M.A-MODEL ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 在進行吉斯回歸前,我們小組進行了變數的篩選,順序如下: 1.在Interactive Binning觀察之後,Gini值25以上者進入變數考量範圍。 2.再者,將Variable Clustering觀察中,各分群最具代表性者納入範圍。 3.對於Interval Variable,我們使用 R-Square 尋找意義相近的變數, 並使用Gini值作為選擇標準。 4.對於Class Variable,我們使用Chi-Square做初步篩選,再以IV值作 為最終選擇標準。
  32. S.E.M.M.A-MODEL ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 「解釋變數」與「目標函數」間的圖型-以「年齡,性別」為例
  33. S.E.M.M.A-MODEL ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 「解釋變數」與「目標函數」間的圖型-以「教育程度,婚姻」為例
  34. S.E.M.M.A-MODEL ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 Main Class Variables: B0002_3 年齡X性別 B0004_7 婚姻X教育程度 B0005 行業別 B0013 縣市別 B0016 OLTV B0024 查詢月前六個月平均循環掛帳比  B0030 全體金融機構前六個月平均循環信用筆數 B0033 全體金融機構查詢月前六個月平均循環掛帳次數比 B0053 查詢月前三個月被查詢為B(授信)總次數 B0058 查詢月前三個月被查詢項目為K(信用卡)銀行數 B0093 房貸定約筆數 B0114 中期信用放款往來銀行數
  35. S.E.M.M.A-MODEL ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 Interval Variables: B0027 查詢月前六個月平均循環餘額佔應付帳款比率 B0029 全體金融機構前一個月循環信用筆數 B0044 全體金融機構查詢月前六個預借現金筆數不為零的月數 B0021 全體金融機構前六個月平均循環金額 B0037 全體金融機構前十二個月平均預借現金額總和 B0050 全體金融機構前一個月應付帳款總額 B0104 全體金融機構查詢月前一個月信用額度筆數 B0081 近十二個月總無擔保訂約授信金額 B0084 近十二個月新增總無擔保授信餘額 B0101 全體金融機構查詢月前一月無擔保放款,加現金卡放款,加信用卡循環餘額,加 未到期分期償還貸付 B0117 近十二個月新增總中期信用放款訂約金額
  36. S.E.M.M.A-MODEL ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 l  我們這組所選取的23個變數,除了夠過IV值,GINI係 數值,以及群集分析篩選的方式,也考慮了該變數之 風險意涵使得模型更為精準 l  若為連續變數,因其本身已量化,只需經過log轉換即 可依原始資料之實際數字輸入模型 l  若為離散型變數則將樣本原始資料予以分類,並按不 同分類賦予一數值而將之量化
  37. S.E.M.M.A-ASSESS ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 入選變數解釋:經過觀察,我們不僅透過量化的方式(例如 Chi –Squared Test),也透過質化的方式去考慮變數,舉以下 變數為例: 1. 婚姻X教育程度:我們將婚姻狀況與教育程度進行分組配對, 可明顯看出,若教育程度越低落,同時婚姻狀況為未婚時,其 房貸違約風險乃為高危險群 2. OLTV:依一般授信風險評估原則,貸款成數越高者因其 投入自備款低,若遇景氣下滑,擔保品之價值貶損,借款人保 有單品之意願降低,成為不良戶之機率較成數低者高 3.意義相似之變數(例如,最近3個月與6個月循環銀行家數), 則挑選IV較高者作為代表
  38. S.E.M.M.A-ASSESS ü  命題 ü  目標客群 輪廓分析 ü  時窗切割 ü  模型分群

    ü  S.E.M.M.A Sample Explore Modify Model Assess ü  結論 我們決定採用邏輯斯回歸進行我們模型的分析
  39. Q&A