Slide 1

Slide 1 text

1 應⽤⾃然語⾔處理於⾦融業 KYC之創新實踐 陳皓遠 中國信託商業銀⾏ 數據暨科技研發處

Slide 2

Slide 2 text

2 2014 2010 2018 關於我

Slide 3

Slide 3 text

3 ⽬標設定 希 望 今 ⽇ 的 經驗分享 能 讓 各 位 產 ⽣ 思維的改變 付 出 具體的⾏動

Slide 4

Slide 4 text

4

Slide 5

Slide 5 text

5 q 策略思考的原則 q 中信AI研發專案的策略 創新中隱含的策略

Slide 6

Slide 6 text

6 策略是 “Strategy is a deliberate search for a plan of action that will develop a business‘s competitive advantage and compound it.” Bruce Henderson, The Origin of Strategy, 1989/11 資料來源: https://hbr.org/1989/11/the-origin-of-strategy 謹慎尋求⼀項⾏動計畫,⽤以發展企業的競爭優勢

Slide 7

Slide 7 text

8 策略思考的原則 在 巢 狀 結 構 中 願 景 有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織

Slide 8

Slide 8 text

9 策略思考的原則 在 巢 狀 結 構 中 願 景 有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 運⽤ … ⼈⼯智慧等優勢, 開發及掌握核⼼技術,加速 推動產業及經濟的數位轉 型。 ~ 蔡英⽂ 中華⺠國國慶演說 2020/10

Slide 9

Slide 9 text

10 策略思考的原則 在 巢 狀 結 構 中 願 景 有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 以分⾏服務、作業流程數 位化、⾦融服務智能化、 跨業策略合作四⼤策略,打 造 「 無 所 不 在 、 無 時 不 在」的銀⾏服務。 ~ 陳總經理 佳⽂ 天下經濟論壇 2019/1

Slide 10

Slide 10 text

11 策略思考的原則 在 巢 狀 結 構 中 願 景 有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 聚焦4⼤AI場景,分別為⾏ 銷溝通、客⼾體驗、流程優 化、⾵險控管。 ~ 王處⻑ 俊權 數據暨科技研發處 2020/10

Slide 11

Slide 11 text

12 中信AI團隊的策略 掌握關鍵技術以 垂直式 AI (Vertical AI) 驅動⾦融場景下的數位轉型 • 中信為⾦融專業公司,既有業務場景適合⽤AI技術來強化經營 • 通⽤的AI 技術⾨檻不再⾼不可攀 • 個別場景的應⽤有差異性、資料來源有專屬性、內容有保密性 理 由 行銷溝通 流程優化 風險控管 專屬或機敏資料 AI 技術核⼼ 完整的產品 專屬領域的知識 垂直式 AI 實 踐 方 法

Slide 12

Slide 12 text

13 q 探索與定義問題 • 解決⽅案之實踐 • 成果展現 KYC的創新規劃與實踐

Slide 13

Slide 13 text

14 洗錢防制作業(AML/KYC) 為⾦融業的關鍵場景 2012.12 2016.8 2016.11 • 漠視鉅額交易⾵險未申報 • 實際查核不確實 兆豐銀 (57億) • 無視警告、忽視可疑 交易 匯豐 (570億) • 掩蓋可疑交易 中國農業銀⾏(68億) 2014.8 2016.10 • 無視警告、未加以改善 渣打(90億+暫停業務) • 持續和嚴重缺乏認識 瑞⼠安勤私⼈銀⾏(關閉業務) • 違反洗錢防制法的裁罰⾦額嚴重侵蝕獲利 • 因應法令遵循,商業銀⾏業務承作多半需要經過 AML/KYC 的檢核

Slide 14

Slide 14 text

15 姓名檢核的效能 為AML/KYC的關鍵議題 CDD盡職調查 CDC名單掃描(姓名檢核) SAR交易監控 法⾦ 個⾦ 觀 察 發 現 單⼀CDC案件連 結負⾯新聞⾼達 672則 CDC案件觸及 負⾯新聞判讀 22K 件/⽉ • CDC 名單掃描(姓名檢核)為 AML/KYC 的必要流程 • 負⾯新聞判讀為 CDC 名單掃描(姓名檢核)的主要⼿段 角 色 • 負⾯新聞判讀耗時、費⼒、⼈⼯易判讀錯誤,造成經營⾵險 挑 戰

Slide 15

Slide 15 text

16 新聞閱讀智能化 為強化姓名檢核效能的關鍵步驟 負⾯新聞判讀執⾏原貌 洗 錢 防 治 系 統 AML/KYC 審 查 ⼈ 員 瀏 覽 器 提 供 負 ⾯ 新 聞 連 結 清 單 依 序 ⽤ 瀏 覽 器 擊 點 閱 讀 痛 點 • 連結充斥事件相同的報導,差異僅來⾃不同媒體 • 無其他資訊協助初篩分群 • 網⾴需依序⼈⼯開啟且載⼊時間冗⻑(平均3秒/篇) • 無標⽰客⼾與新聞內容的關聯性 需 求 • 提取關鍵資訊加快閱讀速度與閱讀品質 • 以事件的發⽣時間來排序 • 以事件為主體的閱讀體驗 • ⾃動事先抓取所有新聞

Slide 16

Slide 16 text

17 • 探索與定義問題 q 解決⽅案之實踐 q 演算法設計與可⾏性驗證 q 系統設計與落地整合 • 成果展現 KYC的創新規劃與實踐

Slide 17

Slide 17 text

18 閱讀智能化規劃三個步驟實踐與驗證可⾏性 Modeling NLP Core : DBOW model Clustering BIRCH: Balanced Iterative Reducing and Clustering Using Hierarchies • • • • • Markov bi-gram model • Bayesian classifier • Context-Rule ). "&$ # ').+ - ,!*/% Y!xo4<€ 2Ze p'…j_=X5El0 +Y!,/j_-†qˆi %#. c76)o* €lYD.b YP@Zep' …A`C(J U:d xo'…pZeN&3 V?fL2nSB znSW&4OZe' …M{x…… _=|5El0+r a]-k8\„xw‚ ƒA`C^_(Q; $HRGlhg:z tyj_K~-†%# drh76xwW" Ts}3> dIm 9 x1wN8&u ?V16SB z6S {xv‡W&4O3950€ [F‡{xpZeW&4 O23618€@ Pre-processing NLP Core ) )( 1 2 3

Slide 18

Slide 18 text

19 ⾃然語⾔處理 (NLP) 擷取⽂本特徵 1 法院前祕書長林錫 山(見圖,本報資 料照片)涉收回扣 貪瀆案,台北地方 法院昨日審結,合 議庭認定林利用職 權壟斷立法院電腦 資訊採購業務,圖 利廠商收回扣,犯 行敗壞官箴、重創 公務員的廉潔形 象,依收取回扣等 8罪將他判刑16 年,褫奪公權6 年,沒收已繳犯罪 所得3950萬元,並 追繳沒收來源不明 犯罪所得2億3618 萬多元。 新聞 自然語言處理 語意分析與實體擷取 語 言 專 家 規 則 篩 選 語意⾓⾊ 實體識別 指代消解 斷詞 詞性標記 詞幹提取 特徵 林錫山 回扣 貪瀆案 地方法院 圖利 判刑 褫奪公權 追繳不明犯罪所得 CKIPTAGGER NLTK spaCy • 由命名實體識別、語意⾓⾊標記、…等擷取標記 • 領域專家協作產出特徵

Slide 19

Slide 19 text

20 將特徵轉成向量 2 文本嵌入模型 特性與優勢 特徵 林錫山 回扣 貪瀆案 地方法院 圖利 判刑 褫奪公權 追繳不明犯罪所得 ... 向量 0.453 0.789 0.786 • 由 Tomas Mikolov 於2013年提出 • 類神經網路的模型 • 把⽂本映射到有限維度的向量空間 • 向量間的距離反映出語意相似度 gensim • ⾃監督式學習的⽂本嵌⼊ (Doc2Vec) 模型

Slide 20

Slide 20 text

21 相似向量結集成群 3 • 平均側影法 (Average silhouette method) • ⾮監督式分層聚類演算法BIRCH metasploit scikit-learn

Slide 21

Slide 21 text

22 個⾦ OP 姓名檢核啟動 業務驅動之KYC流程 負面新聞聚類任務啟動 1 2 3 Ø 洗錢防制系 統根據道瓊 ⿊名單啟動 掃描程序 Ø 道瓊名單命 中即發起姓 名檢核程序 Ø 姓名檢核程 序啟動負 ⾯新聞聚 類任務 • 新聞分群 – 減少重複閱讀 • 關鍵訊息標注 – 加速文本審閱 洗 錢 防 治 系 統 Ø 貿易融資 Ø 徵信 Ø 進出⼝ Ø 跨⾏匯款 Ø 保單承作 Ø 開⼾ Ø 額度控管 Ø … 法⾦ OP ⾦交 OP ⾵險 OP 櫃員 ARM/RM 理專 即時KYC 批次KYC Ø 定期審核 負⾯新聞閱讀系統落地規劃 • 洗錢防治系統每次送⼊⼀群新聞連結清單,智能閱讀系統回覆⼀個網⾴連結 • 基於 Client-Server 架構使⽤ Restful API 與洗錢防制系統介接

Slide 22

Slide 22 text

23 負⾯新聞閱讀系統功能設計 I. 核⼼系統串接 III.前台OP查看結果 II. 後台IT監控與BI需求 洗 錢 防 治 系 統 新 聞 閱 讀 核 ⼼ 系 統 IT⼈ 員 新 聞 閱 讀 後 台 系 統 AML/KYC 審 查 ⼈ 員 新 聞 閱 讀 前 台 系 統

Slide 23

Slide 23 text

24 負⾯新聞閱讀系統涉及元件

Slide 24

Slide 24 text

25 負⾯新聞閱讀系統設計與實作 (I) • 提供 Asynchronous API 給予洗錢防治系統啟動新聞閱讀任務 目 的 Restful API Service

Slide 25

Slide 25 text

26 負⾯新聞閱讀系統設計與實作 (I) • 利⽤Callback 機制通知洗錢防治系統新聞閱讀任務完成 目 的 Worker Daemon

Slide 26

Slide 26 text

27 負⾯新聞閱讀系統設計與實作 (II) • 前端⾴⾯給予OP查看新聞閱讀結果 目 的

Slide 27

Slide 27 text

28 負⾯新聞閱讀系統設計與實作 (III) • 後台系統給予IT監控與執⾏BI需求 目 的

Slide 28

Slide 28 text

29 • 問題探索與定義問題 • 解決⽅案之實踐 q 成果展現 q 系統展⽰ q 效益揭露 q 科研成就 KYC的創新規劃與實踐

Slide 29

Slide 29 text

30 負⾯新聞閱讀服務展⽰ 相 同 主題聚類 ⼈ 、 事 件 、 地 點 關鍵標註 由 近 ⾄ 遠 的 時序排列

Slide 30

Slide 30 text

31 負⾯新聞閱讀服務效能展現 • 姓名檢核量成 ⻑ 4倍 、 新聞涵蓋率達 85% 1.4萬 篇 / ⽉ 14% Phase 1 傳統人工 閱讀 2019 Q3 定期審查啟用 2019 Q4 海外分行啟用 2020 Q1 即時姓名檢核 2020 Q2 簡體中文新聞支援 9K / ⽉ 35.5K / ⽉ 7.4萬 篇 / ⽉ 額度控管 貿易融資 定期審查 跨⾏匯款 保單承作 進出⼝ 開⼾ 徵信 聚類服務涵蓋 85% 道瓊負⾯新聞 業務 場景 姓名 檢核量 新聞 涵蓋率 繁體中⽂、英⽂ 繁體中⽂、英⽂、簡體中⽂ 語系 14% 71% Phase 1 Phase 2 傳統人工 閱讀 定期審查

Slide 31

Slide 31 text

32 負⾯新聞閱讀專案之創新科研成果 論⽂⼊選於國際頂級AI學術 會議( IJCAI 2019)專題研討 會 論 ⽂ 發 表 2019.8 取得⼀新型專利(2019)與 ⼀發明專利(2020) 專 利 申 請 ⾃建科技強化⾵險管控提報 Gartner Eye on Innovation Award 2019獲獎 Gartner ⾦ 融 創 新 獎 專利取得 獎項獲選 論文發表 2019.10 2020.5

Slide 32

Slide 32 text

33 結語 • 策略規劃願景要與巢狀結構的上位⼀致,戰術要因地制宜有差異化 • 有效導⼊開放源碼與社群資源⽀援專案的概念驗證進⽽實作落地 • ⽤商業思維闡述效益 • 關鍵的場景、關鍵的議題 • 完整的專案涵蓋問題探索、解決⽅案驗證、落地實踐與維護三個⾯向 • 適切的⽅法、合理的機制 • 有限的資源、可控的時程 • 思考及佈局專案執⾏以外的外部效益,擴⼤效益⾯與提升團隊話語權

Slide 33

Slide 33 text

34 QA時間