應用監管科技構建智能制裁掃描系統分析
一、挑戰及機遇
對于大型金融機構而言,傳統的制裁掃描系統不但難以有效應對日益加強的監管力度以及金融機構自身業務增長帶來的挑戰,系統本身還存在著高誤中率和高維護成本的問題。
01挑戰
(1)高誤中率
為了應對全球嚴格的監管要求,金融機構過往都致力于建設具有較高偵測能力的制裁掃描系統。近年來,系統的整體偵測能力的確有顯著提升,但隨之而來的問題是高誤中率,其后果不僅是浪費了人力資源,更影響了業務的正常開展和客戶關系的穩定延續。
(2)高維護成本
很多傳統的制裁掃描系統,當初設計時考慮到業務人員使用便捷性的要求,在功能實現上運用了底層算法和業務規則相結合的雙重架構。但在實際使用中,業務人員往往僅通過業務規則來調整系統的偵測預期和運行效率,卻對底層算法的功能和應用知之甚少。因此,業務人員在使用系統時往往只依賴后置規則對誤中問題進行定期檢驗和手工維護,這不僅增加了維護成本,也造成不必要的工作負擔。
02 機遇
上述問題催生了建設智能化制裁掃描系統的需求,其帶來的效果提升主要體現在以下幾個方面:
(1)智能化制裁掃描系統將優化現有掃描流程并提高整體工作效率
以交易制裁掃描為例,傳統制裁掃描系統其工作流程分為掃描、分析、補充信息、得出結論四個主要步驟,即金融機構將SWIFT信息和客戶信息錄入制裁掃描系統后,將命中結果傳輸至案件管理系統做進一步的分析處理。受制于數據信息有限性,偵查人員需要從金融機構內部的上游系統和外部渠道收集更多的數據,對真實/錯誤命中情況進行判斷。而智能化制裁掃描系統其工作流程恰好相反,為特征數據準備、掃描、智能分析、得出結論四個主要步驟,這些特征數據包括制裁名單本身的類別、案件管理系統偵查人員對真實/錯誤命中情況的判定結果、客戶與交易的基本信息數據、其他非結構性數據等。
(2)傳統制裁掃描系統的核心技術可以完全做到自主研發,這為金融機構自主開發智能化制裁掃描系統奠定了基礎
傳統制裁掃描系統出于對專有技術的保護,數據的透明度和充分性不足以支持命中結果分析。這也成為升級改造傳統制裁掃描系統,添加機器學習功能的阻礙因素。為了使機器學習達到最佳效果,系統間的數據調用必須透明且充分,相關問題我們會在隨后章節展開描述。隨著國內從業人員在制裁掃描領域專業技能的積累,傳統制裁掃描系統的核心技術可以完全做到自主研發,這為金融機構自主開發智能化制裁掃描系統奠定了基礎。智能化制裁掃描系統在數據架構和業務功能上的設計較傳統制裁掃描系統都更為靈活和高效。
(3)機器學習算法在智能化制裁掃描系統中的運用是一大技術創新
機器學習算法在智能化制裁掃描系統中的運用是一大技術創新,這是傳統制裁掃描系統無法比擬的。其應用將改變現有的業務管控流程:業務規則的更新轉變為特征數據的收集;業務規定期審閱驗證轉變為高頻的線上動態模型監測。與此同時,技術人員和業務合規專家的緊密合作將變得尤為重要。
二、構建智能掃描系統的必要條件
結合本團隊數年來服務于金融機構的項目經驗,我們認為建設智能化制裁掃描系統需具備如下必要條件:
01在團隊組成上
金融機構合規部門除需配備制裁專家外,還需配備熟悉機器學習算法的技術專家。原因如下:首先,只有在技術層面對傳統制裁掃描系統有透徹的了解,才能把現有底層算法的輸出,轉化為特征數據,作為機器學習的輸入。其次,只有系統性掌握機器學習算法,才能向業務人員提出更有針對性的特征數據需求,以用于機器學習算法訓練,并追溯機器學習效果未達預期的原因,以提出算法優化建議。
02在命中判斷上
傳統制裁掃描系統可用于命中判斷的字段很少,主要基于名字的模糊匹配和其他輔助字段,如生日、證件信息等的條件匹配。與傳統制裁掃描系統不同,智能化制裁掃描系統依賴大量、多維的數據為機器學習的命中判斷提供支持。在數據范圍上,制裁名單、命中特征以及人工甄別信息,均可被加工處理成機器學習所需的特征數據,數據格式可包含但不限于文本、圖像等。
03在業務功能上
智能化制裁掃描系統相較傳統制裁掃描系統也有很大的提升。傳統系統依賴于業務規則的設置,而業務規則的更新在很大程度上依賴于廠商對產品的持續迭代。由于金融機構各不相同的業務特征,產生了很多定制化的開發的需求,這就導致了定期改造升級制裁掃描系統的需要。相比較而言,智能化制裁掃描系統并不要求使用者持續更新業務規則,而是令系統通過自主學習高質量、多元化的特征數據,從而賦予其自動更新業務規則的能力。智能化制裁掃描系統支持所有中間過程數據成為特征數據,并保障其持續收集、加工處理以及評估驗證的各個環節,最終將其用于機器的自主學習。
三、機器學習在智能制裁掃描系統中的應用
機器學習作為人工智能的一個分支,是一門多領域交叉學科,涉及了概率論、統計學、多元微積分、凸優化、線性代數等。機器學習的主要目標是設計讓其可以自主“學習”的算法。機器學習分為有監督學習和無監督學習,前者需在人為標注結果的基礎上對特征數據進行訓練,而后者則是機器自己發現特征數據中的結構規律。機器學習算法眾多,其中常用的算法有支持向量機(SVM)、最近鄰(KNN)、邏輯回歸、隨機森林、決策樹、單純貝葉斯以及多層感知器(MLP)神經網絡等。機器學習需要解決的問題是如何對事物進行分類。例如,計算機視覺識別中的人臉識別是對不同人臉特征的分類識別,其他例子包括預測股市的上漲下跌、制裁掃描的真實/錯誤命中情況等。諸多算法如何選擇,需要綜合考慮數據質量、大小、類別、計算機資源、可接受計算時間、可解釋性、算法的穩定性等諸多因素。
從特征數據的獲取到最終合適的算法的選定是一個比較復雜的過程。若特征數據其維度繁多,不宜全部應用到模型訓練中,先通過一定的方法進行數據降維,以達到精簡特征數據的目的;接著,若特征數據間具有一定程度的相關性,全部應用到模型中會對模型結果造成一定的過擬合,此時需進行一些聚類分析,以消除潛在對模型的干擾。在做了上述數據處理后,根據模型預測目的,選取合適的算法以開展模型訓練,不同的算法對模型的速度和精準度表現有不同影響。在整個過程中,特征數據的加工處理是機器學習中的重要步驟。
數據處理中的技術難點:
01特征數據獲取
特征數據可來源于命中結果和制裁名單本身,如命中結果的模糊匹配率、命中名字和制裁名單名字的個數差異、制裁名單發布國家及類別等均可提煉為特征數據。個別傳統系統廠商對其專有技術嚴格控制,原本可以快速獲取特征數據的過程變得迂回曲折。更有甚者,關閉了客戶模糊匹配調試結果的導出功能,導致這一關鍵特征數據的缺失。為了彌補這一缺陷,只能對系統進行逆向操作,獲得近似的模糊匹配率。
02數據解析處理
可獲取的特征數據和制裁名單多數是以 RTF、HTML、XML 等標記式格式存儲,屬于半結構性文本數據,需經過解析和再加工成為機器學習可用的數據結構。這就需要技術人員熟悉不同的編程及腳本語言,以實現此類數據的自動解析,比如Python 和 Linux Shell Script 等。
03數據加工處理
在完成對數據的解析處理后,還需要根據數據特征,結合對應的模型或算法,做數據加工處理。對于決策樹來說,其所需特征數據主要由分類而非連續性數據組成。命中匹配率可劃分為高、低兩類以滿足決策樹的分叉結構;對于邏輯回歸來說,獲取分類數據需要先進行變量處理。例如將名單類型區分為制裁名單和非制裁名單,形成二元式數據。對于一些判斷命中數據來說,由于沒有現成的真實命中和錯誤命中的結構化數據,只能通過對命中結果進行分類,這就需要用到更復雜的自然語言處理算法來實現。
四、總結
在數據加工處理時,提到不同的算法需要做不同的數據加工處理,至于選擇什么樣的方法進行數據處理,就需要對算法的計算原理有比較透徹的了解。基于對機器學習算法的機理的透徹了解,我們能更好的理解為什么機器學習能幫我們解決誤中率高的問題。其優勢主要體現在通過機器自主學習對業務規則的更新優化。首先,在業務中提煉用于真實及錯誤命中判斷的特征數據及判斷的結果,這與傳統統計回歸方程式中自變量和應變量選取是等效的概念;其次,機器學習通過特征數據對命中判斷加以學習。所謂機器學習就是對自變量權重的迭代優化求解,使得最終模型預測值和真實結果擬合,實現偏差最小化;最終,自動化實現業務的手工判斷過程,減少人工在偵查工作中的比重,助力實現工作效率的大幅提升,這也就是機器學習模型根據更新數據持續校準的過程。
專家點評:制裁合規壓力讓無數金融機構不堪其苦,人力負荷幾近極限。在此形勢下,RegTech的引入就成為必然。銳合新創系統介紹了利用技術手段開展制裁掃描的經驗,提出很多有意義的增加有效性的方法,很有價值。