金可冶:智能風控建模中的常見問題
【EFEC導讀】現代金融企業的風控利器,就是智能風控模型。在建模過程中,樣本的選擇、樣本量的大小、定義樣本的好壞,以及確定模型的表現期等,都是需要考慮的因素。

▲圖片來源:視覺中國
近日,捷越聯合CRO金可冶,結合自己在美國運通和匯豐任高級副總裁時的經驗,在一本Live做了名為“智能風控建模的難點和關鍵點”的主題分享。
本文是分享的節選。
和大家分享一下我經常被問到的幾個問題,它們代表著風控建模中樣本選擇與基本定義的一些痛點。
01
選取建模樣本需要考慮哪些因素?
選取建模樣本需要考慮哪些因素?
關于這個問題,需要先強調建模非常重要的一條基本原則,它很簡單,但被很多人忽略了。這個基本原則是什么呢?模型只適用于建模樣本所能有效代表的群體。
舉一個簡單的例子,我們為20-30歲的年輕人設計一個健身程序,比如每天要跑多少步、做多少俯臥撐、在健身房健身多久等等。設計完后你覺得很有用,但如果把它運用到40-50歲的群體,這個模型可能效果會很差或完全不適用。
那什么叫有效的代表群體呢?
確定有效的代表群體有很多維度,比如說從產品的角度:這個模型是建立在信用卡的客群上,消費貸的客群上,還是建立在一個循環貸的客群上?每一個客群是有代表性的。
渠道也是要考慮的因素:客戶的來源是線上還是線下?如果來自線上,那是自然流量、貸款超市,還是其他的導流渠道?這些都對建模至關重要。
還有一個維度就是風控政策。風控政策如果進行大的調整,也會對模型的應用產生很大影響。比如說建模是在一套樣本上,當時的風控政策相對寬松;建模之后你要把它運用到一個客群,如果這時風控政策相對嚴謹,模型的效果就會受到影響。
另外,客戶的年齡、性別、職業、地域,是新用戶還是老客戶,這些客戶屬性,對建模的過程和運用都有很大的影響。

因此,在選擇有效的代表群體時,需要綜合考慮產品、渠道、風控政策、客戶屬性等多重要素。
此外,要考慮到數據的可獲得性,即在目標樣本時間期間,建模數據是否能拿到。很多人會用運營商數據,比如說選擇一個樣本12個月的表現期,那在關鍵點之前,能不能拿到運營商的數據?如果拿不到這些數據,實際上就沒有數據可用。這也是要考慮的一個現實因素。
同時,也要考慮大環境變化,比如說在觀察期、在樣本期,有沒有大的風控政策變化。比如去年年底現金貸監管政策出臺。在此之前建的模型,之后再用,肯定會有不適合的地方。
02
如何定義好壞?
如何定義好壞?
如何定義風控樣本中的好壞,概念是相對的。比如逾期一期就是“壞”,還是到壞賬和核銷的階段才是“壞”?
比較常用的方法是看滾動率:第一期逾期后,有多少會滾動到第二期;第二期又有多少會滾動到第三期。如果滾動率非常高,第一期到第二期滾動率已經到了80%以上,那到了第二期,基本上肯定會滾到第三期,或者有更高的逾期,直到核銷。所以說,一般到第二期就可以肯定是不是壞客戶了。這樣可以把“壞”定義為兩期逾期,就是通常我們所說的60天逾期。
此外,有些樣本不太好也不太壞,也要考慮到。比如一期逾期,可以把他從樣本中剔除,既不定義為好,也不定義為壞,這樣對建模的有效性會有所幫助。
03
建模的樣本通常有多大?
建模的樣本通常有多大?
這沒有統一的說法,要根據客觀的情況而定。通常要幾千條、幾萬條。
而更重要的問題是:建模中需要有多少“Bad”?你要通過模型預測客戶得逾期、壞行為,如果壞的客戶數量不夠,模型中的信息量和價值也是不夠的,很難預測壞的行為。

所以我們更注重建模樣本有多少壞的樣本。當然,壞樣本通常意義上越多越好,但多的話也是有成本的,大家要把握這個尺度。一定要把握最低的尺度,即壞樣本不能少于多少。
04
表現期的長短
表現期的長短
定義表現期的長短,要從幾個方面來看,第一個是預測的行為,預測的是新賬戶的風險、存量賬戶的風險,還是信用卡每筆交易的風險。這些都會對表現期的長短要求不同。
另外也要看預測的行為是信用風險,還是欺詐風險,這也會對表現期的長短有不同要求。信用風險要比較長的時間才會爆發,而欺詐風險會很快爆發出來。
需要強調的是,表現期一定要足夠長,才能充分地把風險暴露出來。比如說新的客戶通常要12-18個月觀察期,風險才能爆發出來。而信用卡的交易風險,刷卡一個多月后就會表現出來,因為一個月后就需要還款。所以預測不同行為,對表現期的要求也不同。
第二個是觀察數據的可溯性,就是數據能回溯多久。當然,回溯期越長,它能體現的風險可能性越大。但如果回溯期太長的話,拿不到數據,其實也沒有用。
最后要說一下大的環境的變化。監管環境、競爭環境、產品變化、風控政策,對表現期都有一定的影響。
總而言之,表現期的長短要根據種種因素來判斷,針對具體業務、場景、客群等,取一個合適的表現期,才能達到最佳的建模效果。
上一篇:物流金融信用的基礎邏輯:從金融信用到業務信用
下一篇:別怪我沒提醒你!這20類應收賬款融資千萬別碰!