Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
應用自然語言處理於金融業KYC之創新實踐
Search
circlelychen
October 25, 2020
Technology
980
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
應用自然語言處理於金融業KYC之創新實踐
circlelychen
October 25, 2020
More Decks by circlelychen
See All by circlelychen
運用非監督式學習技法打造風險警示系統:以國際貿易作業場景為例
circlelychen
0
290
Build Mandarin AI Conversational Agent with Rasa
circlelychen
0
330
打造面向金融場景的中文自然語言理解引擎
circlelychen
0
200
Other Decks in Technology
See All in Technology
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
1k
GitHub Copilot 最新アップデート – 「一歩先」の実践活用術
moulongzhang
2
340
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
1k
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
300
失敗を資産に変えるClaude Code
shinyasaita
0
650
フロンティアAIのゲート化と地政学リスク
nagatsu
0
140
【NRUG vol.18】KubernetesにおけるNew Relicデータ取得量削減の考え方
nrug_member
0
110
【NRUG vol.18】なぜ多くのオブザーバビリティ導入は失敗するのか
nrug_member
0
130
新しいUbuntu/GNOMEが使いたいからXからWaylandへ移行頑張ってるの巻 2026-06-20
nobutomurata
0
100
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
200個のGitHubリポジトリを横断調査したかった
icck
0
130
ルールやカスタム機能、どう活かす?ハンズオンで体感するIBM Bobの出力コントロール
muehara
1
160
Featured
See All Featured
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
Balancing Empowerment & Direction
lara
6
1.2k
Become a Pro
speakerdeck
PRO
31
6k
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
Making the Leap to Tech Lead
cromwellryan
135
9.9k
Being A Developer After 40
akosma
91
590k
A better future with KSS
kneath
240
18k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
400
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
2k
Transcript
1 應⽤⾃然語⾔處理於⾦融業 KYC之創新實踐 陳皓遠 中國信託商業銀⾏ 數據暨科技研發處
2 2014 2010 2018 關於我
3 ⽬標設定 希 望 今 ⽇ 的 經驗分享 能 讓
各 位 產 ⽣ 思維的改變 付 出 具體的⾏動
4
5 q 策略思考的原則 q 中信AI研發專案的策略 創新中隱含的策略
6 策略是 “Strategy is a deliberate search for a plan
of action that will develop a business‘s competitive advantage and compound it.” Bruce Henderson, The Origin of Strategy, 1989/11 資料來源: https://hbr.org/1989/11/the-origin-of-strategy 謹慎尋求⼀項⾏動計畫,⽤以發展企業的競爭優勢
8 策略思考的原則 在 巢 狀 結 構 中 願 景
有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織
9 策略思考的原則 在 巢 狀 結 構 中 願 景
有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 運⽤ … ⼈⼯智慧等優勢, 開發及掌握核⼼技術,加速 推動產業及經濟的數位轉 型。 ~ 蔡英⽂ 中華⺠國國慶演說 2020/10
10 策略思考的原則 在 巢 狀 結 構 中 願 景
有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 以分⾏服務、作業流程數 位化、⾦融服務智能化、 跨業策略合作四⼤策略,打 造 「 無 所 不 在 、 無 時 不 在」的銀⾏服務。 ~ 陳總經理 佳⽂ 天下經濟論壇 2019/1
11 策略思考的原則 在 巢 狀 結 構 中 願 景
有 ⼀致性 戰 術 要 差異性 戰術 願景 國家 產業 公司 組織 聚焦4⼤AI場景,分別為⾏ 銷溝通、客⼾體驗、流程優 化、⾵險控管。 ~ 王處⻑ 俊權 數據暨科技研發處 2020/10
12 中信AI團隊的策略 掌握關鍵技術以 垂直式 AI (Vertical AI) 驅動⾦融場景下的數位轉型 • 中信為⾦融專業公司,既有業務場景適合⽤AI技術來強化經營
• 通⽤的AI 技術⾨檻不再⾼不可攀 • 個別場景的應⽤有差異性、資料來源有專屬性、內容有保密性 理 由 行銷溝通 流程優化 風險控管 專屬或機敏資料 AI 技術核⼼ 完整的產品 專屬領域的知識 垂直式 AI 實 踐 方 法
13 q 探索與定義問題 • 解決⽅案之實踐 • 成果展現 KYC的創新規劃與實踐
14 洗錢防制作業(AML/KYC) 為⾦融業的關鍵場景 2012.12 2016.8 2016.11 • 漠視鉅額交易⾵險未申報 • 實際查核不確實
兆豐銀 (57億) • 無視警告、忽視可疑 交易 匯豐 (570億) • 掩蓋可疑交易 中國農業銀⾏(68億) 2014.8 2016.10 • 無視警告、未加以改善 渣打(90億+暫停業務) • 持續和嚴重缺乏認識 瑞⼠安勤私⼈銀⾏(關閉業務) • 違反洗錢防制法的裁罰⾦額嚴重侵蝕獲利 • 因應法令遵循,商業銀⾏業務承作多半需要經過 AML/KYC 的檢核
15 姓名檢核的效能 為AML/KYC的關鍵議題 CDD盡職調查 CDC名單掃描(姓名檢核) SAR交易監控 法⾦ 個⾦ 觀 察
發 現 單⼀CDC案件連 結負⾯新聞⾼達 672則 CDC案件觸及 負⾯新聞判讀 22K 件/⽉ • CDC 名單掃描(姓名檢核)為 AML/KYC 的必要流程 • 負⾯新聞判讀為 CDC 名單掃描(姓名檢核)的主要⼿段 角 色 • 負⾯新聞判讀耗時、費⼒、⼈⼯易判讀錯誤,造成經營⾵險 挑 戰
16 新聞閱讀智能化 為強化姓名檢核效能的關鍵步驟 負⾯新聞判讀執⾏原貌 洗 錢 防 治 系 統
AML/KYC 審 查 ⼈ 員 瀏 覽 器 提 供 負 ⾯ 新 聞 連 結 清 單 依 序 ⽤ 瀏 覽 器 擊 點 閱 讀 痛 點 • 連結充斥事件相同的報導,差異僅來⾃不同媒體 • 無其他資訊協助初篩分群 • 網⾴需依序⼈⼯開啟且載⼊時間冗⻑(平均3秒/篇) • 無標⽰客⼾與新聞內容的關聯性 需 求 • 提取關鍵資訊加快閱讀速度與閱讀品質 • 以事件的發⽣時間來排序 • 以事件為主體的閱讀體驗 • ⾃動事先抓取所有新聞
17 • 探索與定義問題 q 解決⽅案之實踐 q 演算法設計與可⾏性驗證 q 系統設計與落地整合 •
成果展現 KYC的創新規劃與實踐
18 閱讀智能化規劃三個步驟實踐與驗證可⾏性 Modeling NLP Core : DBOW model Clustering
BIRCH: Balanced Iterative Reducing and Clustering Using Hierarchies • • • • • Markov bi-gram model • Bayesian classifier • Context-Rule ). "& $ # ').+ - ,!*/% Y!xo4< 2Ze p' j_ =X5El0 +Y!,/j_ -qi %#. c76)o* lYD.b YP@Zep' A`C (J U:d xo' pZeN&3 V?fL2nSB znSW&4OZe' M{x…… _ =|5El0+r a]-k8\xw A`C^_ (Q; $HRGlhg:z tyj_ K~-%# drh76xwW" Ts}3> d Im 9 x1wN8&u ?V16SB z6S {xvW&4O3950 [F{xpZeW&4 O23618@ Pre-processing NLP Core ) )( 1 2 3
19 ⾃然語⾔處理 (NLP) 擷取⽂本特徵 1 法院前祕書長林錫 山(見圖,本報資 料照片)涉收回扣 貪瀆案,台北地方 法院昨日審結,合
議庭認定林利用職 權壟斷立法院電腦 資訊採購業務,圖 利廠商收回扣,犯 行敗壞官箴、重創 公務員的廉潔形 象,依收取回扣等 8罪將他判刑16 年,褫奪公權6 年,沒收已繳犯罪 所得3950萬元,並 追繳沒收來源不明 犯罪所得2億3618 萬多元。 新聞 自然語言處理 語意分析與實體擷取 語 言 專 家 規 則 篩 選 語意⾓⾊ 實體識別 指代消解 斷詞 詞性標記 詞幹提取 特徵 林錫山 回扣 貪瀆案 地方法院 圖利 判刑 褫奪公權 追繳不明犯罪所得 CKIPTAGGER NLTK spaCy • 由命名實體識別、語意⾓⾊標記、…等擷取標記 • 領域專家協作產出特徵
20 將特徵轉成向量 2 文本嵌入模型 特性與優勢 特徵 林錫山 回扣 貪瀆案 地方法院
圖利 判刑 褫奪公權 追繳不明犯罪所得 ... 向量 0.453 0.789 0.786 • 由 Tomas Mikolov 於2013年提出 • 類神經網路的模型 • 把⽂本映射到有限維度的向量空間 • 向量間的距離反映出語意相似度 gensim • ⾃監督式學習的⽂本嵌⼊ (Doc2Vec) 模型
21 相似向量結集成群 3 • 平均側影法 (Average silhouette method) • ⾮監督式分層聚類演算法BIRCH
metasploit scikit-learn
22 個⾦ OP 姓名檢核啟動 業務驅動之KYC流程 負面新聞聚類任務啟動 1 2 3 Ø
洗錢防制系 統根據道瓊 ⿊名單啟動 掃描程序 Ø 道瓊名單命 中即發起姓 名檢核程序 Ø 姓名檢核程 序啟動負 ⾯新聞聚 類任務 • 新聞分群 – 減少重複閱讀 • 關鍵訊息標注 – 加速文本審閱 洗 錢 防 治 系 統 Ø 貿易融資 Ø 徵信 Ø 進出⼝ Ø 跨⾏匯款 Ø 保單承作 Ø 開⼾ Ø 額度控管 Ø … 法⾦ OP ⾦交 OP ⾵險 OP 櫃員 ARM/RM 理專 即時KYC 批次KYC Ø 定期審核 負⾯新聞閱讀系統落地規劃 • 洗錢防治系統每次送⼊⼀群新聞連結清單,智能閱讀系統回覆⼀個網⾴連結 • 基於 Client-Server 架構使⽤ Restful API 與洗錢防制系統介接
23 負⾯新聞閱讀系統功能設計 I. 核⼼系統串接 III.前台OP查看結果 II. 後台IT監控與BI需求 洗 錢 防
治 系 統 新 聞 閱 讀 核 ⼼ 系 統 IT⼈ 員 新 聞 閱 讀 後 台 系 統 AML/KYC 審 查 ⼈ 員 新 聞 閱 讀 前 台 系 統
24 負⾯新聞閱讀系統涉及元件
25 負⾯新聞閱讀系統設計與實作 (I) • 提供 Asynchronous API 給予洗錢防治系統啟動新聞閱讀任務 目 的
Restful API Service
26 負⾯新聞閱讀系統設計與實作 (I) • 利⽤Callback 機制通知洗錢防治系統新聞閱讀任務完成 目 的 Worker Daemon
27 負⾯新聞閱讀系統設計與實作 (II) • 前端⾴⾯給予OP查看新聞閱讀結果 目 的
28 負⾯新聞閱讀系統設計與實作 (III) • 後台系統給予IT監控與執⾏BI需求 目 的
29 • 問題探索與定義問題 • 解決⽅案之實踐 q 成果展現 q 系統展⽰ q
效益揭露 q 科研成就 KYC的創新規劃與實踐
30 負⾯新聞閱讀服務展⽰ 相 同 主題聚類 ⼈ 、 事 件 、
地 點 關鍵標註 由 近 ⾄ 遠 的 時序排列
31 負⾯新聞閱讀服務效能展現 • 姓名檢核量成 ⻑ 4倍 、 新聞涵蓋率達 85% 1.4萬
篇 / ⽉ 14% Phase 1 傳統人工 閱讀 2019 Q3 定期審查啟用 2019 Q4 海外分行啟用 2020 Q1 即時姓名檢核 2020 Q2 簡體中文新聞支援 9K / ⽉ 35.5K / ⽉ 7.4萬 篇 / ⽉ 額度控管 貿易融資 定期審查 跨⾏匯款 保單承作 進出⼝ 開⼾ 徵信 聚類服務涵蓋 85% 道瓊負⾯新聞 業務 場景 姓名 檢核量 新聞 涵蓋率 繁體中⽂、英⽂ 繁體中⽂、英⽂、簡體中⽂ 語系 14% 71% Phase 1 Phase 2 傳統人工 閱讀 定期審查
32 負⾯新聞閱讀專案之創新科研成果 論⽂⼊選於國際頂級AI學術 會議( IJCAI 2019)專題研討 會 論 ⽂ 發
表 2019.8 取得⼀新型專利(2019)與 ⼀發明專利(2020) 專 利 申 請 ⾃建科技強化⾵險管控提報 Gartner Eye on Innovation Award 2019獲獎 Gartner ⾦ 融 創 新 獎 專利取得 獎項獲選 論文發表 2019.10 2020.5
33 結語 • 策略規劃願景要與巢狀結構的上位⼀致,戰術要因地制宜有差異化 • 有效導⼊開放源碼與社群資源⽀援專案的概念驗證進⽽實作落地 • ⽤商業思維闡述效益 • 關鍵的場景、關鍵的議題
• 完整的專案涵蓋問題探索、解決⽅案驗證、落地實踐與維護三個⾯向 • 適切的⽅法、合理的機制 • 有限的資源、可控的時程 • 思考及佈局專案執⾏以外的外部效益,擴⼤效益⾯與提升團隊話語權
34 QA時間