Upgrade to Pro — share decks privately, control downloads, hide ads and more …

應用自然語言處理於金融業KYC之創新實踐

 應用自然語言處理於金融業KYC之創新實踐

circlelychen

October 25, 2020
Tweet

More Decks by circlelychen

Other Decks in Technology

Transcript

  1. 3 ⽬標設定 希 望 今 ⽇ 的 經驗分享 能 讓

    各 位 產 ⽣ 思維的改變 付 出 具體的⾏動
  2. 4

  3. 6 策略是 “Strategy is a deliberate search for a plan

    of action that will develop a business‘s competitive advantage and compound it.” Bruce Henderson, The Origin of Strategy, 1989/11 資料來源: https://hbr.org/1989/11/the-origin-of-strategy 謹慎尋求⼀項⾏動計畫,⽤以發展企業的競爭優勢
  4. 8 策略思考的原則 在 巢 狀 結 構 中 願 景

    有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織
  5. 9 策略思考的原則 在 巢 狀 結 構 中 願 景

    有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 運⽤ … ⼈⼯智慧等優勢, 開發及掌握核⼼技術,加速 推動產業及經濟的數位轉 型。 ~ 蔡英⽂ 中華⺠國國慶演說 2020/10
  6. 10 策略思考的原則 在 巢 狀 結 構 中 願 景

    有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 以分⾏服務、作業流程數 位化、⾦融服務智能化、 跨業策略合作四⼤策略,打 造 「 無 所 不 在 、 無 時 不 在」的銀⾏服務。 ~ 陳總經理 佳⽂ 天下經濟論壇 2019/1
  7. 11 策略思考的原則 在 巢 狀 結 構 中 願 景

    有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 聚焦4⼤AI場景,分別為⾏ 銷溝通、客⼾體驗、流程優 化、⾵險控管。 ~ 王處⻑ 俊權 數據暨科技研發處 2020/10
  8. 12 中信AI團隊的策略 掌握關鍵技術以 垂直式 AI (Vertical AI) 驅動⾦融場景下的數位轉型 • 中信為⾦融專業公司,既有業務場景適合⽤AI技術來強化經營

    • 通⽤的AI 技術⾨檻不再⾼不可攀 • 個別場景的應⽤有差異性、資料來源有專屬性、內容有保密性 理 由 行銷溝通 流程優化 風險控管 專屬或機敏資料 AI 技術核⼼ 完整的產品 專屬領域的知識 垂直式 AI 實 踐 方 法
  9. 14 洗錢防制作業(AML/KYC) 為⾦融業的關鍵場景 2012.12 2016.8 2016.11 • 漠視鉅額交易⾵險未申報 • 實際查核不確實

    兆豐銀 (57億) • 無視警告、忽視可疑 交易 匯豐 (570億) • 掩蓋可疑交易 中國農業銀⾏(68億) 2014.8 2016.10 • 無視警告、未加以改善 渣打(90億+暫停業務) • 持續和嚴重缺乏認識 瑞⼠安勤私⼈銀⾏(關閉業務) • 違反洗錢防制法的裁罰⾦額嚴重侵蝕獲利 • 因應法令遵循,商業銀⾏業務承作多半需要經過 AML/KYC 的檢核
  10. 15 姓名檢核的效能 為AML/KYC的關鍵議題 CDD盡職調查 CDC名單掃描(姓名檢核) SAR交易監控 法⾦ 個⾦ 觀 察

    發 現 單⼀CDC案件連 結負⾯新聞⾼達 672則 CDC案件觸及 負⾯新聞判讀 22K 件/⽉ • CDC 名單掃描(姓名檢核)為 AML/KYC 的必要流程 • 負⾯新聞判讀為 CDC 名單掃描(姓名檢核)的主要⼿段 角 色 • 負⾯新聞判讀耗時、費⼒、⼈⼯易判讀錯誤,造成經營⾵險 挑 戰
  11. 16 新聞閱讀智能化 為強化姓名檢核效能的關鍵步驟 負⾯新聞判讀執⾏原貌 洗 錢 防 治 系 統

    AML/KYC 審 查 ⼈ 員 瀏 覽 器 提 供 負 ⾯ 新 聞 連 結 清 單 依 序 ⽤ 瀏 覽 器 擊 點 閱 讀 痛 點 • 連結充斥事件相同的報導,差異僅來⾃不同媒體 • 無其他資訊協助初篩分群 • 網⾴需依序⼈⼯開啟且載⼊時間冗⻑(平均3秒/篇) • 無標⽰客⼾與新聞內容的關聯性 需 求 • 提取關鍵資訊加快閱讀速度與閱讀品質 • 以事件的發⽣時間來排序 • 以事件為主體的閱讀體驗 • ⾃動事先抓取所有新聞
  12. 18 閱讀智能化規劃三個步驟實踐與驗證可⾏性 Modeling NLP Core  : DBOW model Clustering

    BIRCH: Balanced Iterative Reducing and Clustering Using Hierarchies •    •   •   •    • Markov bi-gram model • Bayesian classifier • Context-Rule   ). "& $ # ').+ - ,!*/% Y!xo4<€ 2Ze p'…j_ =X5El0 +Y!,/j_ -†qˆi %#. c76)o* €lYD.b YP@Zep' …A`C (J U:d xo'…pZeN&3 V?fL2nSB znSW&4OZe' …M{x…… _ =|5El0+r a]-k8\„xw‚ ƒA`C^_ (Q; $HRGlhg:z tyj_ K~-†%# drh76xwW" Ts}3> d Im 9 x1wN8&u ?V16SB z6S {xv‡W&4O3950€ [F‡{xpZeW&4 O23618€@ Pre-processing NLP Core ) )( 1 2 3
  13. 19 ⾃然語⾔處理 (NLP) 擷取⽂本特徵 1 法院前祕書長林錫 山(見圖,本報資 料照片)涉收回扣 貪瀆案,台北地方 法院昨日審結,合

    議庭認定林利用職 權壟斷立法院電腦 資訊採購業務,圖 利廠商收回扣,犯 行敗壞官箴、重創 公務員的廉潔形 象,依收取回扣等 8罪將他判刑16 年,褫奪公權6 年,沒收已繳犯罪 所得3950萬元,並 追繳沒收來源不明 犯罪所得2億3618 萬多元。 新聞 自然語言處理 語意分析與實體擷取 語 言 專 家 規 則 篩 選 語意⾓⾊ 實體識別 指代消解 斷詞 詞性標記 詞幹提取 特徵 林錫山 回扣 貪瀆案 地方法院 圖利 判刑 褫奪公權 追繳不明犯罪所得 CKIPTAGGER NLTK spaCy • 由命名實體識別、語意⾓⾊標記、…等擷取標記 • 領域專家協作產出特徵
  14. 20 將特徵轉成向量 2 文本嵌入模型 特性與優勢 特徵 林錫山 回扣 貪瀆案 地方法院

    圖利 判刑 褫奪公權 追繳不明犯罪所得 ... 向量 0.453 0.789 0.786 • 由 Tomas Mikolov 於2013年提出 • 類神經網路的模型 • 把⽂本映射到有限維度的向量空間 • 向量間的距離反映出語意相似度 gensim • ⾃監督式學習的⽂本嵌⼊ (Doc2Vec) 模型
  15. 22 個⾦ OP 姓名檢核啟動 業務驅動之KYC流程 負面新聞聚類任務啟動 1 2 3 Ø

    洗錢防制系 統根據道瓊 ⿊名單啟動 掃描程序 Ø 道瓊名單命 中即發起姓 名檢核程序 Ø 姓名檢核程 序啟動負 ⾯新聞聚 類任務    • 新聞分群 – 減少重複閱讀 • 關鍵訊息標注 – 加速文本審閱 洗 錢 防 治 系 統 Ø 貿易融資 Ø 徵信 Ø 進出⼝ Ø 跨⾏匯款 Ø 保單承作 Ø 開⼾ Ø 額度控管 Ø … 法⾦ OP ⾦交 OP ⾵險 OP 櫃員 ARM/RM 理專 即時KYC 批次KYC Ø 定期審核 負⾯新聞閱讀系統落地規劃 • 洗錢防治系統每次送⼊⼀群新聞連結清單,智能閱讀系統回覆⼀個網⾴連結 • 基於 Client-Server 架構使⽤ Restful API 與洗錢防制系統介接
  16. 23 負⾯新聞閱讀系統功能設計 I. 核⼼系統串接 III.前台OP查看結果 II. 後台IT監控與BI需求 洗 錢 防

    治 系 統 新 聞 閱 讀 核 ⼼ 系 統 IT⼈ 員 新 聞 閱 讀 後 台 系 統 AML/KYC 審 查 ⼈ 員 新 聞 閱 讀 前 台 系 統
  17. 30 負⾯新聞閱讀服務展⽰ 相 同 主題聚類 ⼈ 、 事 件 、

    地 點 關鍵標註 由 近 ⾄ 遠 的 時序排列
  18. 31 負⾯新聞閱讀服務效能展現 • 姓名檢核量成 ⻑ 4倍 、 新聞涵蓋率達 85% 1.4萬

    篇 / ⽉ 14% Phase 1 傳統人工 閱讀 2019 Q3 定期審查啟用 2019 Q4 海外分行啟用 2020 Q1 即時姓名檢核 2020 Q2 簡體中文新聞支援 9K / ⽉ 35.5K / ⽉ 7.4萬 篇 / ⽉ 額度控管 貿易融資 定期審查 跨⾏匯款 保單承作 進出⼝ 開⼾ 徵信 聚類服務涵蓋 85% 道瓊負⾯新聞 業務 場景 姓名 檢核量 新聞 涵蓋率 繁體中⽂、英⽂ 繁體中⽂、英⽂、簡體中⽂ 語系 14% 71% Phase 1 Phase 2 傳統人工 閱讀 定期審查
  19. 32 負⾯新聞閱讀專案之創新科研成果 論⽂⼊選於國際頂級AI學術 會議( IJCAI 2019)專題研討 會 論 ⽂ 發

    表 2019.8 取得⼀新型專利(2019)與 ⼀發明專利(2020) 專 利 申 請 ⾃建科技強化⾵險管控提報 Gartner Eye on Innovation Award 2019獲獎 Gartner ⾦ 融 創 新 獎 專利取得 獎項獲選 論文發表 2019.10 2020.5
  20. 33 結語 • 策略規劃願景要與巢狀結構的上位⼀致,戰術要因地制宜有差異化 • 有效導⼊開放源碼與社群資源⽀援專案的概念驗證進⽽實作落地 • ⽤商業思維闡述效益 • 關鍵的場景、關鍵的議題

    • 完整的專案涵蓋問題探索、解決⽅案驗證、落地實踐與維護三個⾯向 • 適切的⽅法、合理的機制 • 有限的資源、可控的時程 • 思考及佈局專案執⾏以外的外部效益,擴⼤效益⾯與提升團隊話語權