Upgrade to Pro — share decks privately, control downloads, hide ads and more …

運用非監督式學習技法打造風險警示系統:以國際貿易作業場景為例

 運用非監督式學習技法打造風險警示系統:以國際貿易作業場景為例

建構風險警示機制去降低作業風險一直是金融機構營運的關鍵議題,所謂的作業風險是指因內部作業及人員之失誤,所造成損失之風險。本演講以國貿作業為場景,分享如何以數據科技打造低成本且高解釋性的風險警示系統。我們以國貿業務中頻繁往來的文本內容為資料,搭配自然語言處理與基於無監督式學習的異常檢測演算法,辨識出潛藏著風險事件的往來訊息,協助作業單位在不擴增胃納量的前提下,實現強化作業效能的願景。

circlelychen

October 23, 2021
Tweet

More Decks by circlelychen

Other Decks in Technology

Transcript

  1. 3 © CTBC 中信AI的研發策略 打 造 垂直式 AI 規 劃

    ⼈機協作 行銷溝通 流程優化 風險控管 更低的成本和更好的效果去賦能業務,應⽤橫跨 銀⾏中後台 及 ⾦控⼦公司。 面 向 指 標 戰 術 創新經營模式 提升作業效率 提⾼內控效能
  2. 4 © CTBC 掌握關鍵技術以 垂直式 AI (Vertical AI) 打造解決⽅案 •

    通⽤的AI 技術⾨檻不再⾼不可攀(公共財) • 個別場景的應⽤有差異性、資料來源有專屬性、內容有保密性 理 由 專屬或機敏資料 AI 技術核⼼ 完整的產品 專屬領域的知識 垂直式 AI 實 踐 方 法
  3. 5 © CTBC 規劃落地於既有流程以 ⼈機協作 創造商業價值 產 業 落 地

    案 例 • 機器在 有限的問題內 表現近乎⼈類,但終究不是⼈類 理 由 • 將⼈從 可取代性⾼ 的勞務中解除,創造更⾼品質的 修正與決策成果 機器負責分析資料歸納結論,⼈類根據機器的結論進⾏決策與調整 程式設計 中⽂輸⼊ 垃圾郵件偵測
  4. 6 © CTBC • 以 免標記⼯程 的解決⽅案先⾏,規劃 ⼈幾協作 落地,先確定運營模式 •

    將 標記⼯程隱⾝於業務執⾏,引⼊合適的監督式學習,持續最佳化解決⽅案 1 2 數據 演算法 落地場景 ⾮監督式學習 監督式學習 ⼈ 機 協 作 垂 直 式 A I 標 記 數 據 無 標 記 數 據 ⾼ 品 質 的 標 記 資 料 1 2 中信AI的運營模式 將⼈產⽣的決策 回饋 給機器,建⽴ ML Pipeline 持續最佳化模型效能
  5. 9 © CTBC 進⼝託收:國際貿易場景孕育出的企業⾦融服務 代收銀⾏ 扮演銀貨兩訖的⾓⾊,依據 託收指⽰ 向進⼝商提⽰單據並收取貨款與費⽤ 6 付

    款 / 承 兌 出 ⼝ 商 進 ⼝ 商 託 收 銀 ⾏ 代 收 銀 ⾏ ( 本 ⾏ ) 船 公 司 1 買賣契約成⽴ 4 寄發提單、 託收指⽰ 及所需單據 9 進帳通知 5 提 ⽰ 單 據 7 交 付 單 據 2 交 運 貨 物 取 得 提 單 8 憑 單 提 貨 10 付 款 3 託 收 委 託 交 付 提 單
  6. 10 © CTBC 確保業務執⾏依照 託收指⽰ 是作業⾵險管控的關鍵議題 規劃 ⼆道防線 阻絕作業⾵險,但存在 ⾼⼈⼒資本消耗

    的挑戰 ⼆ 道 防 線 ⼆ 道 防 線 ⽰ 意 與 挑 戰 • 建 ⽴ ⾵ 險 警 ⽰ 機 制 , 主 管 審 閱 託 收 ⾏ 之 訊 息 , ⽰ 警 可 疑 交 易 之 ⾏ 為 • 定 期 的 教 育 訓 練 及 政 令 宣 導 , 確 保 同 仁 依 據 託 收 指 ⽰ 執 ⾏ 業 務 一道防線 Ø 不得憑客⼾要求或業 務指⽰逕⾏交付單據 Ø 更改 託收指⽰ 須經 由 主管會議 決⾏ … Ø 更改 託收指⽰ 需納 ⼊ AML/SAR 評估 規範與⽇俱增 二道防線 ⼈⼯審閱 XX萬 年訊息量 訊息數量龐⼤、⽬的多元
  7. 11 © CTBC ⾵險警⽰機制智慧化 是提升效能的關鍵步驟 將訊息審閱導⼊ Risk-based approach,以 ⼈機協作 拉升效率與強化效能

    • 同仁依據⾵險分決定 審閱順序,對於疑似⾼⾵險的訊息投注較多的資源 • 打造 ⾵險警⽰系統 將訊息賦予 ⾵險分 與 ⾵險特徵 • 同仁依據 ⾵險特徵標註 的⽂句所在區域,可快速將⽬光移⾄對應的訊息區塊 ⾵ 險 警 ⽰ 系 統 託收⾏訊息 1 託收⾏訊息 4 託收⾏訊息 5 托收⾏訊息 6 託收⾏訊息 2 託收⾏訊息 3 託收⾏訊息 1 託收⾏訊息 4 託收⾏訊息 5 托收⾏訊息 6 託收⾏訊息 2 託收⾏訊息 3 90 70 30 20 10 5 原始訊息 原始訊息+標註 ⾵險特徵 ⾵險分 ⼈ ⼯ 審 閱 順 序 Excel 檔案 Excel 檔案 將 智 慧 化 ⽅ 案 落 地 既 有 流 程 特 點
  8. 13 © CTBC 四步驟打造 低成本 且 ⾼解釋性 的⾵險警⽰系統 基於專家經驗搭配 NLP

    技術 建⽴特徵,運⽤ ⾮監督式學習 的異常檢測演算法 偵測⾵險事件 將訊息根據語意抽取特徵用向量表示 預測風險事件的機率 Copula-based Outlier Detection COPOD [ICDM 2020] TF-IDF 異常檢測演算法 3 ⾵ 險 警 ⽰ 系 統 業務經驗 0 業 務 專 家 • 特徵 ⾼解釋性 • 無需 標記⼯程 ⽬ 的 特 ⾊ • 數據特性 發覺潛藏樣態 • 專家經驗 識別已知樣態 正 規 表 達 式 託 收 ⾏ 訊 息 數據清理 詞形還原 詞性標記 特徵向量化 2 預處理與特徵擷取 1
  9. 14 © CTBC 將領域專家經驗以 正規表達式 描述 0 業 務 專

    家 正 規 表 達 式 理 由 ⽰ 意 圖 訊 息 中 會 看 到 以 D E A L 或 A C T 為 動 詞 為 開 頭 , 接 著 會 看 到 I N A C C O R D A N C E W I T H 這 個 ⽚ 語 , 最 後 會 ⽤ S A N C T I O N L A W S 結 束 句 ⼦ , 這 就 是 要 抓 出 來 的 訊 息 \ b ( ? : D E A L | A C T ) ( ? : [ \ w \ . \ - , ( ) \ / ] + \ s ) { 0 , 3 } I N A C C O R D A N C E W I T H ( ? : [ \ w \ . \ - , ( ) \ / ] + \ s ) { 0 , 1 5 } S A N C T I O N S L A W S \ . ? \ b • Rule-based ⼿法在 特定領域 能貢獻極佳的效能 • 在⾃然語⾔中最直觀且簡單的 Rule-based 規則就是 正規表達式 (並⾮唯⼀) 步 驟 • 將領域專家描述的若⼲則經驗法則轉化成對應的 正規表達式,⽤ 表⽰ 𝑅𝐸!,..,$,..
  10. 15 © CTBC 以 正規表達式 匹配⽂字訊息,標⽰出精準特徵樣態 1 數據清理 原 始

    託 收 ⾏ 訊 息 XXX WILL ACT IN ACCORDANCE WITH ANY APPLICABLE XXX/YYY OR ZZZZZZZZ, WWWWW SANCTIONS LAWS. WE WERE IN THE PROCESSING OF COMMUNICATING WITH THE REMITTING BANK OF … 步 驟 ⽰ 意 圖 XXX WILL {RE 1} WE WERE IN THE PROCESS OF COMMUNICATING WITH THE REMITTING BANK FOR THE ADDITIONAL DOCUMENTS THAT HAVE BEEN REQUESTED. … 清 理 後 託 收 ⾏ 訊 息 1 𝑅𝐸!,..,$,.. • 將託收⾏訊息⽤ 進⾏數據清理,將命中的字串做正規化表⽰
  11. 16 © CTBC 以 NLP技法 清理與標記⽂字,提取出語意特徵 1 清 理 後

    託 收 ⾏ 訊 息 ⽰ 意 圖 XXX WILL {RE 1} WE WERE IN THE PROCESS OF COMMUNICATING WITH THE REMITTING BANK FOR THE ADDITIONAL DOCUMENTS THAT HAVE BEEN REQUESTED. 詞性標記(POS Tagging) 詞型還原(Lemmatization) XXX WILL {RE 1} WE BE IN THE PROCESS OF COMMUNICATE WITH THE REMITTING BANK FOR THE ADDITIONAL DOCUMENT THAT HAVE BE REQUEST . 1 {RE 1} we(NOUN) be(VERB) communicate(VERB) bank(NOUN) document(NOUN) have(VERB) be(VERB) request(VERB) 詞 彙 特 徵 集 步 驟 • 將清理後的託收⾏訊息進⾏ 特徵詞彙 擷取,特徵詞彙之集合以 表⽰ 𝑑 !,..,%,.. 𝐷
  12. 17 © CTBC … … … … … … …

    … … … 𝑡!"#(%) 𝑡' 𝑡( 𝑑 ) 𝑑 ( 𝑑 !"#(*) 以 TF-IDF 演算法 轉化向量形式,試圖發掘潛藏樣態 2 2 ⽰ 意 圖 • 計算 詞彙 在 整體訊息集 中的出現逆頻率,以 表⽰ 步 驟 • 計算 詞彙 在 個別訊息 中的出現頻率,以 表⽰ 𝑡𝑓$,% 𝑖𝑑𝑓$ 𝑡' 𝑡𝑓𝑖𝑑𝑓$,% = 𝑡𝑓$,% × 𝑖𝑑𝑓$ 𝑑 ) 𝐷 𝑡' • 計算 詞彙 的 𝑡' 𝑡𝑓𝑖𝑑𝑓$,% {RE 1} we(NOUN) be(VERB) communicate(VERB) bank(NOUN) document(NOUN) have(VERB) be(VERB) request(VERB) 詞 彙 特 徵 集 向 量 集 RE 1 bank fraud … … have 0.6 0.3 0 0.01 … …
  13. 18 © CTBC 利⽤ 異常檢測演算法(COPOD) 建⽴⾵險警⽰模型 3 理 由 •

    正常與異常的數據 共存於資料集且 無標記 資訊存在其中 • 運⽤ ⾮監督式學習 於資料集中發現與 ⼤部分對象不同的對象(發現離群點) • 假設描述⾵險事件的 ⽤字遣詞 有 獨特性 且並 不好發於正常訊息 中 模 型 選 擇 COPOD iForest OCSVM 正負數據共存 特徵解釋性 無需超參數 … … … …
  14. 19 © CTBC 以 Empirical CDF 計算 尾端概率 ,將此概率視為 ⾵險分

    的指標 3 𝑡𝑓𝑖𝑑𝑓 (詞彙 𝑡' ) 值 % of vectors (samples) 50% 0% 100% Empirical Culmulative Distribution Function (ECDF) 訊息向量 (𝑡! , … , 𝑡" , … , ) 0.0 0.9 0.5 0.232 12% 尾端概率(tail probability) 𝑒𝑚𝑝𝑖𝑟𝑖𝑐𝑎𝑙 𝐶𝐷𝐹(𝑡) = 1 𝑛 9 '+, # ∏ 𝑡' < 𝑡
  15. 20 © CTBC 以 Dimensional Outlier Graph 選取事件的 可解釋⾵險特徵 3

    RE 1 bank fraud … … have Dimension of vector Dimension outlier score 0 10 20 30 Dimensional Outlier Graph Contamination rate line
  16. 23 © CTBC 中分群 ⾼分群 低分群 6xxx 筆 ⾵險分 由⾼⾄低

    標 注 ⾵ 險 特 徵 之 訊 息 FAILURE TO PROVIDE THE REQUESTED INFORMATION BY (APRIL X, 20XX) MAY RESULT IN THE FUNDS BEING REJECTED OR BLOCKED BY XXXX. WE RESERVE THE RIGHT TO CLAIM THE DELAY PAYMENT INTEREST. REGARDS RE 2 RESERVE RIGHT CLAIM 效度與解釋性驗證 以2021-02 的 6xxx 筆 訊息為數據 2x 筆 3x 筆 • ⾼分群 訊息數量佔據整體訊息 0.4% • 基於專家經驗的已知樣態(正則表達式) 特徵只顯⽰在⾼分群中
  17. 24 © CTBC ⾵險分 由⾼⾄低 XXXX IS REQUIRED TO IMPLEMENT

    CERTAIN MEASURES TO PREVENT MONEY LAUNDERING AND TRANSFERS. THIS ENQUIRY IS MADE AS A PRECAUTION IN THE INTERESTS OF FRAUD PREVENTION AND OUR MUTUAL PROTECTION WE ALSO RESERVE THE RIGHT FOR OTHER DISCREPANCY,IF ANY. RESERVE LAUNDERING FRAUD 標 注 ⾵ 險 特 徵 之 訊 息 效度與解釋性驗證 以2021-02 的 6xxx 筆 訊息為數據 • 中分群 訊息數量佔據整體訊息 0.73% • 基於數據特性的潛藏樣態 特徵⼤量顯⽰在中分群中 中分群 ⾼分群 低分群 6xxx 筆 2x 筆 3x 筆 RIGHT
  18. 25 © CTBC 效度與解釋性驗證 2021-02 的 6xxx 筆 訊息為數據 ⾵險分

    由⾼⾄低 XXXXXXX CLAIMS FOR CNYYYY.YY BEING THEIR PAYFULL CHGS THEREFORE,PLS FORWARD US FOR CNYXXX.XX QUOTING OUR ABOVE REF PLEASE AVOID ALL POSSIBLE DUPLICATION AND RESPOND TO THE ATTENTION OF THE UNDERSIGNED. CLAIMS 標 注 ⾵ 險 特 徵 之 訊 息 • 低分群 訊息數量佔據整體訊息約當 99% • 基於數據特性的潛藏樣態 特徵少量顯⽰在低分群中 中分群 ⾼分群 低分群 6xxx 筆 2x 筆 3x 筆
  19. 26 © CTBC 監督式學習 ⼈ 機 協 作 標 記

    數 據 ⾼ 品 質 的 標 記 資 料 • 全 新 的 兩 階 段 式 訓 練 ⽅ 式 • ⼀ 個 通 ⽤ 模 型 , ⽤ 在 不 同 任 務 • 以 ⾃ 監 督 式 進 ⾏ 模 型 預 訓 練 • 以 監 督 式 進 ⾏ 遷 移 學 習 BERT Bidirectional Encoder Representations from Transformers FNN + Softmax ⽂本分類 任務類型 模型架構 + 運⽤ 監督式學習 搭配 標記數據 尋求更佳的解決⽅案 以通⽤的模型架構,⽤深度學習嘗試 預處理、特徵⼯程 與 模型設計 的步驟
  20. 28 © CTBC 回顧與結語 • 不要完全依赖模型,導⼊ ⼈機協作 機制建⽴ ML Pipeline

    持續最佳化模型效能 • 尋求 最簡單的⽅法,解決 最重要的問題 落地實踐 • 場景探索能⼒ 與 領域知識學習⼒ 是專案執⾏的重要養分 問題探索 • 領域專家經驗總結下來的⼈⼯規則 是極其珍貴的資源,應設法融⼊解決⽅案之中 解決⽅案 • 導⼊ 開放源碼 與 社群資源 ⽀援專案的概念驗證進⽽實作落地 完整的專案涵蓋問題探索、解決⽅案、落地實踐三個⾯向