Slide 1

Slide 1 text

1 © CTBC 陳皓遠 運⽤⾮監督式學習技 法打造⾵險警⽰系統 以國際貿易作業場景為例 中國信託商業銀⾏ 數據暨科技研發處

Slide 2

Slide 2 text

2 © CTBC

Slide 3

Slide 3 text

3 © CTBC 中信AI的研發策略 打 造 垂直式 AI 規 劃 ⼈機協作 行銷溝通 流程優化 風險控管 更低的成本和更好的效果去賦能業務,應⽤橫跨 銀⾏中後台 及 ⾦控⼦公司。 面 向 指 標 戰 術 創新經營模式 提升作業效率 提⾼內控效能

Slide 4

Slide 4 text

4 © CTBC 掌握關鍵技術以 垂直式 AI (Vertical AI) 打造解決⽅案 • 通⽤的AI 技術⾨檻不再⾼不可攀(公共財) • 個別場景的應⽤有差異性、資料來源有專屬性、內容有保密性 理 由 專屬或機敏資料 AI 技術核⼼ 完整的產品 專屬領域的知識 垂直式 AI 實 踐 方 法

Slide 5

Slide 5 text

5 © CTBC 規劃落地於既有流程以 ⼈機協作 創造商業價值 產 業 落 地 案 例 • 機器在 有限的問題內 表現近乎⼈類,但終究不是⼈類 理 由 • 將⼈從 可取代性⾼ 的勞務中解除,創造更⾼品質的 修正與決策成果 機器負責分析資料歸納結論,⼈類根據機器的結論進⾏決策與調整 程式設計 中⽂輸⼊ 垃圾郵件偵測

Slide 6

Slide 6 text

6 © CTBC • 以 免標記⼯程 的解決⽅案先⾏,規劃 ⼈幾協作 落地,先確定運營模式 • 將 標記⼯程隱⾝於業務執⾏,引⼊合適的監督式學習,持續最佳化解決⽅案 1 2 數據 演算法 落地場景 ⾮監督式學習 監督式學習 ⼈ 機 協 作 垂 直 式 A I 標 記 數 據 無 標 記 數 據 ⾼ 品 質 的 標 記 資 料 1 2 中信AI的運營模式 將⼈產⽣的決策 回饋 給機器,建⽴ ML Pipeline 持續最佳化模型效能

Slide 7

Slide 7 text

7 © CTBC

Slide 8

Slide 8 text

8 © CTBC q 探索與定義問題 • 設計與實踐解決⽅案 • 成果展⽰ ⾵險警⽰系統的規劃與實踐

Slide 9

Slide 9 text

9 © CTBC 進⼝託收:國際貿易場景孕育出的企業⾦融服務 代收銀⾏ 扮演銀貨兩訖的⾓⾊,依據 託收指⽰ 向進⼝商提⽰單據並收取貨款與費⽤ 6 付 款 / 承 兌 出 ⼝ 商 進 ⼝ 商 託 收 銀 ⾏ 代 收 銀 ⾏ ( 本 ⾏ ) 船 公 司 1 買賣契約成⽴ 4 寄發提單、 託收指⽰ 及所需單據 9 進帳通知 5 提 ⽰ 單 據 7 交 付 單 據 2 交 運 貨 物 取 得 提 單 8 憑 單 提 貨 10 付 款 3 託 收 委 託 交 付 提 單

Slide 10

Slide 10 text

10 © CTBC 確保業務執⾏依照 託收指⽰ 是作業⾵險管控的關鍵議題 規劃 ⼆道防線 阻絕作業⾵險,但存在 ⾼⼈⼒資本消耗 的挑戰 ⼆ 道 防 線 ⼆ 道 防 線 ⽰ 意 與 挑 戰 • 建 ⽴ ⾵ 險 警 ⽰ 機 制 , 主 管 審 閱 託 收 ⾏ 之 訊 息 , ⽰ 警 可 疑 交 易 之 ⾏ 為 • 定 期 的 教 育 訓 練 及 政 令 宣 導 , 確 保 同 仁 依 據 託 收 指 ⽰ 執 ⾏ 業 務 一道防線 Ø 不得憑客⼾要求或業 務指⽰逕⾏交付單據 Ø 更改 託收指⽰ 須經 由 主管會議 決⾏ … Ø 更改 託收指⽰ 需納 ⼊ AML/SAR 評估 規範與⽇俱增 二道防線 ⼈⼯審閱 XX萬 年訊息量 訊息數量龐⼤、⽬的多元

Slide 11

Slide 11 text

11 © CTBC ⾵險警⽰機制智慧化 是提升效能的關鍵步驟 將訊息審閱導⼊ Risk-based approach,以 ⼈機協作 拉升效率與強化效能 • 同仁依據⾵險分決定 審閱順序,對於疑似⾼⾵險的訊息投注較多的資源 • 打造 ⾵險警⽰系統 將訊息賦予 ⾵險分 與 ⾵險特徵 • 同仁依據 ⾵險特徵標註 的⽂句所在區域,可快速將⽬光移⾄對應的訊息區塊 ⾵ 險 警 ⽰ 系 統 託收⾏訊息 1 託收⾏訊息 4 託收⾏訊息 5 托收⾏訊息 6 託收⾏訊息 2 託收⾏訊息 3 託收⾏訊息 1 託收⾏訊息 4 託收⾏訊息 5 托收⾏訊息 6 託收⾏訊息 2 託收⾏訊息 3 90 70 30 20 10 5 原始訊息 原始訊息+標註 ⾵險特徵 ⾵險分 ⼈ ⼯ 審 閱 順 序 Excel 檔案 Excel 檔案 將 智 慧 化 ⽅ 案 落 地 既 有 流 程 特 點

Slide 12

Slide 12 text

12 © CTBC • 探索與定義問題 q 設計與實踐解決⽅案 • 成果展⽰ ⾵險警⽰系統的規劃與實踐

Slide 13

Slide 13 text

13 © CTBC 四步驟打造 低成本 且 ⾼解釋性 的⾵險警⽰系統 基於專家經驗搭配 NLP 技術 建⽴特徵,運⽤ ⾮監督式學習 的異常檢測演算法 偵測⾵險事件 將訊息根據語意抽取特徵用向量表示 預測風險事件的機率 Copula-based Outlier Detection COPOD [ICDM 2020] TF-IDF 異常檢測演算法 3 ⾵ 險 警 ⽰ 系 統 業務經驗 0 業 務 專 家 • 特徵 ⾼解釋性 • 無需 標記⼯程 ⽬ 的 特 ⾊ • 數據特性 發覺潛藏樣態 • 專家經驗 識別已知樣態 正 規 表 達 式 託 收 ⾏ 訊 息 數據清理 詞形還原 詞性標記 特徵向量化 2 預處理與特徵擷取 1

Slide 14

Slide 14 text

14 © CTBC 將領域專家經驗以 正規表達式 描述 0 業 務 專 家 正 規 表 達 式 理 由 ⽰ 意 圖 訊 息 中 會 看 到 以 D E A L 或 A C T 為 動 詞 為 開 頭 , 接 著 會 看 到 I N A C C O R D A N C E W I T H 這 個 ⽚ 語 , 最 後 會 ⽤ S A N C T I O N L A W S 結 束 句 ⼦ , 這 就 是 要 抓 出 來 的 訊 息 \ b ( ? : D E A L | A C T ) ( ? : [ \ w \ . \ - , ( ) \ / ] + \ s ) { 0 , 3 } I N A C C O R D A N C E W I T H ( ? : [ \ w \ . \ - , ( ) \ / ] + \ s ) { 0 , 1 5 } S A N C T I O N S L A W S \ . ? \ b • Rule-based ⼿法在 特定領域 能貢獻極佳的效能 • 在⾃然語⾔中最直觀且簡單的 Rule-based 規則就是 正規表達式 (並⾮唯⼀) 步 驟 • 將領域專家描述的若⼲則經驗法則轉化成對應的 正規表達式,⽤ 表⽰ 𝑅𝐸!,..,$,..

Slide 15

Slide 15 text

15 © CTBC 以 正規表達式 匹配⽂字訊息,標⽰出精準特徵樣態 1 數據清理 原 始 託 收 ⾏ 訊 息 XXX WILL ACT IN ACCORDANCE WITH ANY APPLICABLE XXX/YYY OR ZZZZZZZZ, WWWWW SANCTIONS LAWS. WE WERE IN THE PROCESSING OF COMMUNICATING WITH THE REMITTING BANK OF … 步 驟 ⽰ 意 圖 XXX WILL {RE 1} WE WERE IN THE PROCESS OF COMMUNICATING WITH THE REMITTING BANK FOR THE ADDITIONAL DOCUMENTS THAT HAVE BEEN REQUESTED. … 清 理 後 託 收 ⾏ 訊 息 1 𝑅𝐸!,..,$,.. • 將託收⾏訊息⽤ 進⾏數據清理,將命中的字串做正規化表⽰

Slide 16

Slide 16 text

16 © CTBC 以 NLP技法 清理與標記⽂字,提取出語意特徵 1 清 理 後 託 收 ⾏ 訊 息 ⽰ 意 圖 XXX WILL {RE 1} WE WERE IN THE PROCESS OF COMMUNICATING WITH THE REMITTING BANK FOR THE ADDITIONAL DOCUMENTS THAT HAVE BEEN REQUESTED. 詞性標記(POS Tagging) 詞型還原(Lemmatization) XXX WILL {RE 1} WE BE IN THE PROCESS OF COMMUNICATE WITH THE REMITTING BANK FOR THE ADDITIONAL DOCUMENT THAT HAVE BE REQUEST . 1 {RE 1} we(NOUN) be(VERB) communicate(VERB) bank(NOUN) document(NOUN) have(VERB) be(VERB) request(VERB) 詞 彙 特 徵 集 步 驟 • 將清理後的託收⾏訊息進⾏ 特徵詞彙 擷取,特徵詞彙之集合以 表⽰ 𝑑 !,..,%,.. 𝐷

Slide 17

Slide 17 text

17 © CTBC … … … … … … … … … … 𝑡!"#(%) 𝑡' 𝑡( 𝑑 ) 𝑑 ( 𝑑 !"#(*) 以 TF-IDF 演算法 轉化向量形式,試圖發掘潛藏樣態 2 2 ⽰ 意 圖 • 計算 詞彙 在 整體訊息集 中的出現逆頻率,以 表⽰ 步 驟 • 計算 詞彙 在 個別訊息 中的出現頻率,以 表⽰ 𝑡𝑓$,% 𝑖𝑑𝑓$ 𝑡' 𝑡𝑓𝑖𝑑𝑓$,% = 𝑡𝑓$,% × 𝑖𝑑𝑓$ 𝑑 ) 𝐷 𝑡' • 計算 詞彙 的 𝑡' 𝑡𝑓𝑖𝑑𝑓$,% {RE 1} we(NOUN) be(VERB) communicate(VERB) bank(NOUN) document(NOUN) have(VERB) be(VERB) request(VERB) 詞 彙 特 徵 集 向 量 集 RE 1 bank fraud … … have 0.6 0.3 0 0.01 … …

Slide 18

Slide 18 text

18 © CTBC 利⽤ 異常檢測演算法(COPOD) 建⽴⾵險警⽰模型 3 理 由 • 正常與異常的數據 共存於資料集且 無標記 資訊存在其中 • 運⽤ ⾮監督式學習 於資料集中發現與 ⼤部分對象不同的對象(發現離群點) • 假設描述⾵險事件的 ⽤字遣詞 有 獨特性 且並 不好發於正常訊息 中 模 型 選 擇 COPOD iForest OCSVM 正負數據共存 特徵解釋性 無需超參數 … … … …

Slide 19

Slide 19 text

19 © CTBC 以 Empirical CDF 計算 尾端概率 ,將此概率視為 ⾵險分 的指標 3 𝑡𝑓𝑖𝑑𝑓 (詞彙 𝑡' ) 值 % of vectors (samples) 50% 0% 100% Empirical Culmulative Distribution Function (ECDF) 訊息向量 (𝑡! , … , 𝑡" , … , ) 0.0 0.9 0.5 0.232 12% 尾端概率(tail probability) 𝑒𝑚𝑝𝑖𝑟𝑖𝑐𝑎𝑙 𝐶𝐷𝐹(𝑡) = 1 𝑛 9 '+, # ∏ 𝑡' < 𝑡

Slide 20

Slide 20 text

20 © CTBC 以 Dimensional Outlier Graph 選取事件的 可解釋⾵險特徵 3 RE 1 bank fraud … … have Dimension of vector Dimension outlier score 0 10 20 30 Dimensional Outlier Graph Contamination rate line

Slide 21

Slide 21 text

21 © CTBC 異常檢測演算法 3 特徵向量化 2 預處理與特徵擷取 1 運⽤開放原始碼實作解決⽅案 spaCy xlswritter pandas pyOD sklearn

Slide 22

Slide 22 text

22 © CTBC • 探索與定義問題 • 設計與實踐解決⽅案 • 成果展⽰ ⾵險警⽰系統的規劃與實踐

Slide 23

Slide 23 text

23 © CTBC 中分群 ⾼分群 低分群 6xxx 筆 ⾵險分 由⾼⾄低 標 注 ⾵ 險 特 徵 之 訊 息 FAILURE TO PROVIDE THE REQUESTED INFORMATION BY (APRIL X, 20XX) MAY RESULT IN THE FUNDS BEING REJECTED OR BLOCKED BY XXXX. WE RESERVE THE RIGHT TO CLAIM THE DELAY PAYMENT INTEREST. REGARDS RE 2 RESERVE RIGHT CLAIM 效度與解釋性驗證 以2021-02 的 6xxx 筆 訊息為數據 2x 筆 3x 筆 • ⾼分群 訊息數量佔據整體訊息 0.4% • 基於專家經驗的已知樣態(正則表達式) 特徵只顯⽰在⾼分群中

Slide 24

Slide 24 text

24 © CTBC ⾵險分 由⾼⾄低 XXXX IS REQUIRED TO IMPLEMENT CERTAIN MEASURES TO PREVENT MONEY LAUNDERING AND TRANSFERS. THIS ENQUIRY IS MADE AS A PRECAUTION IN THE INTERESTS OF FRAUD PREVENTION AND OUR MUTUAL PROTECTION WE ALSO RESERVE THE RIGHT FOR OTHER DISCREPANCY,IF ANY. RESERVE LAUNDERING FRAUD 標 注 ⾵ 險 特 徵 之 訊 息 效度與解釋性驗證 以2021-02 的 6xxx 筆 訊息為數據 • 中分群 訊息數量佔據整體訊息 0.73% • 基於數據特性的潛藏樣態 特徵⼤量顯⽰在中分群中 中分群 ⾼分群 低分群 6xxx 筆 2x 筆 3x 筆 RIGHT

Slide 25

Slide 25 text

25 © CTBC 效度與解釋性驗證 2021-02 的 6xxx 筆 訊息為數據 ⾵險分 由⾼⾄低 XXXXXXX CLAIMS FOR CNYYYY.YY BEING THEIR PAYFULL CHGS THEREFORE,PLS FORWARD US FOR CNYXXX.XX QUOTING OUR ABOVE REF PLEASE AVOID ALL POSSIBLE DUPLICATION AND RESPOND TO THE ATTENTION OF THE UNDERSIGNED. CLAIMS 標 注 ⾵ 險 特 徵 之 訊 息 • 低分群 訊息數量佔據整體訊息約當 99% • 基於數據特性的潛藏樣態 特徵少量顯⽰在低分群中 中分群 ⾼分群 低分群 6xxx 筆 2x 筆 3x 筆

Slide 26

Slide 26 text

26 © CTBC 監督式學習 ⼈ 機 協 作 標 記 數 據 ⾼ 品 質 的 標 記 資 料 • 全 新 的 兩 階 段 式 訓 練 ⽅ 式 • ⼀ 個 通 ⽤ 模 型 , ⽤ 在 不 同 任 務 • 以 ⾃ 監 督 式 進 ⾏ 模 型 預 訓 練 • 以 監 督 式 進 ⾏ 遷 移 學 習 BERT Bidirectional Encoder Representations from Transformers FNN + Softmax ⽂本分類 任務類型 模型架構 + 運⽤ 監督式學習 搭配 標記數據 尋求更佳的解決⽅案 以通⽤的模型架構,⽤深度學習嘗試 預處理、特徵⼯程 與 模型設計 的步驟

Slide 27

Slide 27 text

27 © CTBC

Slide 28

Slide 28 text

28 © CTBC 回顧與結語 • 不要完全依赖模型,導⼊ ⼈機協作 機制建⽴ ML Pipeline 持續最佳化模型效能 • 尋求 最簡單的⽅法,解決 最重要的問題 落地實踐 • 場景探索能⼒ 與 領域知識學習⼒ 是專案執⾏的重要養分 問題探索 • 領域專家經驗總結下來的⼈⼯規則 是極其珍貴的資源,應設法融⼊解決⽅案之中 解決⽅案 • 導⼊ 開放源碼 與 社群資源 ⽀援專案的概念驗證進⽽實作落地 完整的專案涵蓋問題探索、解決⽅案、落地實踐三個⾯向

Slide 29

Slide 29 text

29 © CTBC QA時間