邦盛科技CEO王新宇博士:“黑產(chǎn)”使金融行業(yè)年損失額近千億,基于行為數(shù)據(jù)的實時管控是發(fā)展方向


來源:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)   時間:2018-05-29





  近日,愛分析在京舉辦了2018·中國大數(shù)據(jù)高峰論壇。金融大數(shù)據(jù)是大數(shù)據(jù)發(fā)展最為成熟的細分領(lǐng)域,愛分析邀請了金融大數(shù)據(jù)領(lǐng)域標桿公司邦盛科技的創(chuàng)始人王新宇進行主題演講。
 

  會上,王新宇就大數(shù)據(jù)處理技術(shù)的演進路線、流式大數(shù)據(jù)在金融事中風控的管理方法及落地案例等方面進行分享。王新宇認為,批流融合是大數(shù)據(jù)技術(shù)發(fā)展的未來趨勢,金融大數(shù)據(jù)風控已從以前的一致無差別的強認證,逐步發(fā)展成基于行為數(shù)據(jù)分析的實時動態(tài)區(qū)別管控。

1527578215.png

  現(xiàn)將邦盛科技創(chuàng)始人王新宇的主題演講實錄分享。
 

  演講實錄
 

  王新宇:大家下午好,很高興在愛分析的組織的大數(shù)據(jù)峰會上和大家共同探討金融科技、金融大數(shù)據(jù)風控的相關(guān)話題。
 

  今天我演講的題目是《基于流式大數(shù)據(jù)實時處理的金融業(yè)務(wù)事中風險監(jiān)控》,從技術(shù)角度來看,這是大數(shù)據(jù)中難度最大的一部分。我先講下數(shù)據(jù)分析處理技術(shù)的演進路線,然后與發(fā)展歷程相結(jié)合,介紹下基于流式大數(shù)據(jù)的金融實時風控的一些解決方案與案例。
 

  大數(shù)據(jù)分為批式大數(shù)據(jù)和流式大數(shù)據(jù),批流融合是未來趨勢
 

  首先大數(shù)據(jù)從細分角度來講,可分為批式大數(shù)據(jù)和流式大數(shù)據(jù)。如果把大數(shù)據(jù)比著水,批式大數(shù)據(jù)就是已從江河匯聚到湖泊里的相對靜態(tài)的水,也就是歷史數(shù)據(jù),而流式大數(shù)據(jù)相當于還在流動的水,或即將流入到湖泊里,匯入到批式大數(shù)據(jù),這是比較直觀的解釋。
 

  流式大數(shù)據(jù)的處理,更強調(diào)實效性,流入湖泊的一瞬間,留給大家分析處理的時間是比較短的。也有人把流式大數(shù)據(jù)根據(jù)它流入湖泊的時間和速度劃分為不同熱度,新鮮產(chǎn)生的數(shù)據(jù)熱度最強,隨著流動的時間,熱度逐漸衰減,即將匯入到批式大數(shù)據(jù)的時候熱度最弱。
 

  什么時候的價值最大?剛產(chǎn)生的時候價值是最好的,及時分析處理,最能夠體現(xiàn)它在應(yīng)用上的價值。如果它已經(jīng)落地了,那么在價值鏈上也衰減了,而且是指數(shù)級的衰減。

blob.png

  在大數(shù)據(jù)處理領(lǐng)域,趨勢上會朝著批式+流式處理結(jié)合的方向走。
 

  我們來看下現(xiàn)有的大數(shù)據(jù)的解決方案:先看批式大數(shù)據(jù)處理系統(tǒng)。我們談?wù)摰谋容^多的每年幾百億的大數(shù)據(jù)市場,大多是批式大數(shù)據(jù)市場,所用到的核心技術(shù)有集群計算、分布式計算,熟悉的系統(tǒng)有Hadoop、Spark,都是屬于這條技術(shù)體系。
 

  它的技術(shù)特點是數(shù)據(jù)處理的規(guī)模非常大,分析模式也比較靈活,你可以寫各種各樣的查詢語言,非常靈活。但這類技術(shù)體系在分析處理實時流數(shù)據(jù)的時候,遇到了非常大的障礙。
 

  下面來看流數(shù)據(jù)處理系統(tǒng)。這部分用到的核心技術(shù)是內(nèi)存計算,計算引擎中有大家比較熟悉的Spark Streaming、storm、fink,它可以處理高實時性的數(shù)據(jù),但處理規(guī)模受限,分析模式的靈活性也非常弱,只能把想好的邏輯預先埋入到流式引擎中。
 

  總結(jié)一下數(shù)據(jù)分析處理發(fā)展(OLAP)的里程,第一個是Database,之后是當數(shù)據(jù)量逐步增加的時候切入了Data Warehouse,然后隨著互聯(lián)網(wǎng)發(fā)展,數(shù)據(jù)量進一步增加,到了大數(shù)據(jù)時代出現(xiàn)了MapReduce等等,實際上批式發(fā)展到這個階段以后就進入了流式時代。雖然流式處理在數(shù)據(jù)量上受限,靈活性也還存在問題,但在時效性有很大的優(yōu)勢,它的時效性可以做到毫秒級。
 

  現(xiàn)在的發(fā)展階段是批流融合,在處理大量規(guī)模數(shù)據(jù)的同時做到低延時,幾十或幾毫秒,甚至<1ms。后面我會通過案例跟大家展示一下現(xiàn)階段的我們的應(yīng)用情況。
 

  要解決批流融合的技術(shù)問題其實是非常難的,首先要解決流式里面的指標存儲問題,如JVM存儲VS內(nèi)存、數(shù)據(jù)庫VS分布式緩存、合理的存儲結(jié)構(gòu)、存儲效率問題等等。
 

  然后是算法需增量計算問題,解決批流融合一定不是每次都要重新算的,一定不會采用純批次處理的理念,而是把所有的計算都做成增量計算,才能解決批流融合的問題。但有一些計算很難做到增量計算,比如說方差、標準差,需要算出每一個節(jié)點才能得出最終的結(jié)果,但在流式計算的時候沒有辦法到批式的歷史數(shù)據(jù)里面去拿每一個節(jié)點,如果去拿,時效性就慢了。對于一個最新的數(shù)據(jù),要算全量的結(jié)果,這是繞不開的一個點。
 

  另外事件序列的識別,先發(fā)生什么、再發(fā)生什么、又發(fā)生什么等等的一系列的時間,在全量的歷史數(shù)據(jù)里面,到底發(fā)生了多少次,是否發(fā)生過,這樣的事件序列也是非常難的一個課題。很多很多的科研人員在這塊做了大量的工作。
 

  最后就是長周期大緯度,我們平時說的能處理流式數(shù)據(jù),其實它的時間窗口也好,數(shù)據(jù)緯度也好,都是受一定限制的,你到底能不能處理一年的數(shù)據(jù)、十年的數(shù)據(jù),還有我們常說客戶賬號下的所有的數(shù)據(jù)緯度我能處理,那么你能不能處理所有安卓手機訪問的,大緯度的數(shù)據(jù),你能不能處理?這里面所要求長周期數(shù)據(jù)處理能力、大維度數(shù)據(jù)處理能力,也是批流融合必須要解決的問題。
 

  批流融合技術(shù)在金融事中風險監(jiān)控的應(yīng)用
 

  下面我講一下邦盛的大數(shù)據(jù)實時處理產(chǎn)品-流立方(StreamCube),StreamCube已經(jīng)解決了上述大部分難題,做到了批流融合。它可以集成海量批式數(shù)據(jù)里面的知識,加上剛剛產(chǎn)生的數(shù)據(jù)流,結(jié)合二者進行實時分析,可以做到毫秒級,現(xiàn)在最多可以做到600-800微秒級的分析。處理數(shù)據(jù)量從幾天到幾十年都可以支持。同時提供基于時間窗口漂移的動態(tài)數(shù)據(jù)快速處理技術(shù),并且能夠支持方差、標準差、協(xié)方差、連續(xù)遞增/遞減等多種計算模型。單節(jié)點可以處理每秒鐘8萬筆的時效性,寫可以做到8萬,讀可以做到40萬,集群理論上是沒有上限的。目前我們最大的客戶,集群處理的是1500億的交易流水,平均延時是在毫秒。
 

  剛才把整個OLAP的發(fā)展流程回顧了一下,現(xiàn)在我來介紹一下基于流立方的批流融合的技術(shù),在金融業(yè)務(wù)的事中風險監(jiān)控是如何做的。
 

  我先交代一下背景,實際上現(xiàn)在全國的黑色產(chǎn)業(yè)鏈是非常發(fā)達的,陽光產(chǎn)業(yè)鏈下的每一個產(chǎn)品創(chuàng)新,在黑色產(chǎn)業(yè)鏈上都會被正式“立項”。他們對于陽光產(chǎn)業(yè)鏈的產(chǎn)品線如何進行攻擊,都會進行一些線上的交流,所以在黑市上,這些信息的共享要比陽光產(chǎn)業(yè)鏈下暢通得多。全國黑色產(chǎn)業(yè)鏈約有160多萬人,主要分布在廣西、福建、海南、臺灣、黑龍江北部、山東等也很猖獗。陽光產(chǎn)業(yè)鏈上被黑色產(chǎn)業(yè)鏈詐取,盜取等等,金融行業(yè)年損失額近千億。
 

  黑色產(chǎn)業(yè)鏈分為上中下游,上游是以偷取數(shù)據(jù)和拖庫為主,中游是清洗數(shù)據(jù),二次分發(fā)為主,下游是服務(wù)于整個黑色產(chǎn)業(yè)鏈的各種周邊組織,以銷贓為主。以前國內(nèi)的黑色產(chǎn)業(yè)鏈主要集中在下游,但現(xiàn)在也在向中游和上游發(fā)展,以前中游東南亞做的比較多,這也是為什么大家發(fā)現(xiàn),下游的銷贓、詐騙在福建,廣西比較多的,因為他們離東南亞比較近的,方便做一些數(shù)據(jù)的交易。
 

  欺詐的花樣是種類繁多的,不下幾百種,上千種,而且這樣的欺詐行為和欺詐場景是層出不窮的,比如你定一張機票,它就可以給你發(fā)一條欺詐短信說航班取消了,這些是流式欺詐,也就是說你的數(shù)據(jù)是流式的環(huán)節(jié)被泄露。
 

  下面講一下應(yīng)對之道,過去十年金融科技領(lǐng)域在技術(shù)層和驗證層上做了大量的工作,還誕生了多家相關(guān)的上市公司,主要是想把欺詐者、動機不良的人擋在外面。但隨著互聯(lián)網(wǎng)技術(shù)發(fā)展,從實際效果來講很難做到。
 

  因為在互聯(lián)網(wǎng)的這個時代,大家的賬戶其實已經(jīng)高度的信息集中化。比如我舉個例子,在一家網(wǎng)站的用戶名密碼被拖庫了,到另外一家網(wǎng)站上去用這套密碼撞庫的時候,同一個用戶在兩家網(wǎng)站使用相同密碼的比例高達25%-30%。我們每個人就是那么1、2套的用戶名和密碼,到處去注冊,已經(jīng)不是技術(shù)層和驗證層防住就可以的了,它實際上可以分分鐘突破你的信息安全通道。
 

  所以現(xiàn)在更多是做策略層的風控。也就是需要基于數(shù)據(jù)分析,行為挖掘來做防控,即使你突破我的賬戶系統(tǒng),我仍然知道你是誰,有方法阻攔你。
 

  策略型風控又分成三種形態(tài)。一種是事后批量分析,以前批式大數(shù)據(jù)主要是應(yīng)用在這一形態(tài)下。另外一種就是準實時處理,就是說這筆交易、轉(zhuǎn)賬、提現(xiàn)我先放過去,一邊放一邊監(jiān)控它是不是有問題,以前純流式處理是能夠做到一定程度的準實時的。
 

  另外一種就是純實時,也就是任何一筆交易、轉(zhuǎn)賬、匯款、提現(xiàn)等等,需要經(jīng)過我審核后才會能給你放行,這個時效性要求是最高的,基本上是要在0.1秒,讓客戶無感知。也就是說事中的策略層防控沒有做得好與不好的區(qū)別,只有能做還是不能做。超過0.1秒客戶的體驗就會受到影響,會引起一定的客戶流失,對金融類機構(gòu)而言,客戶流失可能會比被欺詐的損失還要大。
 

  我總結(jié)了一下金融業(yè)務(wù)反欺詐整個的發(fā)展趨勢,第一點是時效性,時效性逐漸從五年前的事后發(fā)展到現(xiàn)在的純實時,也就是以事中實時的預警和管控為主。從風控的效果來講,越是事中判斷越能夠拿到熱數(shù)據(jù),熱數(shù)據(jù)的價值是最大的,判斷風險是最準的,誤報率和漏報率是最低的,所以純實時是這個領(lǐng)域的發(fā)展方向。
 

  另外從防御的手段角度開看,從單一的專家制定規(guī)則發(fā)展到多核驅(qū)動,通過機器學習,持續(xù)優(yōu)化模型,提升風險識別能力來輔助專家規(guī)則進行風險判斷。
 

  還有就是系統(tǒng)建設(shè),以前我們更傾向于單一業(yè)務(wù)風控,現(xiàn)在不論是金融集團還是行業(yè)聯(lián)盟,都發(fā)展到建設(shè)全渠道中央風控的階段,打破數(shù)據(jù)壁壘,多業(yè)務(wù)數(shù)據(jù)共享與聯(lián)防聯(lián)控,也就是說不再需要每上一條業(yè)務(wù)線都要建設(shè)單一的風控系統(tǒng)或風控模型。
 

  從總體趨勢上來講,從以前的一致無差別的強認證,現(xiàn)在已經(jīng)發(fā)展成基于行為數(shù)據(jù)分析的實時動態(tài)區(qū)別管控。
 

  事中風險監(jiān)控在支付、購票等具體交易場景的落地
 

  介紹完風控的管理方式,我給大家介紹幾個案例,第一個是我們邦盛科技在銀聯(lián)商務(wù)做的實時交易反欺詐的架構(gòu)圖。上面一半是業(yè)務(wù)系統(tǒng),下面一半是風控系統(tǒng)。
 

  事中交易反欺詐是客戶發(fā)起交易請求,由風控探頭將請求實時攔截,攔截到下面的風險監(jiān)控系統(tǒng)里,進行實時的分析,一眨眼就要分析完,否則客戶就要在線上等。
 

  風控引擎再發(fā)回風險信號給所有的業(yè)務(wù)系統(tǒng),由業(yè)務(wù)系統(tǒng)去做管控,比如說這筆交易風險是什么級別,高、中、低,是低風險的,就放行了,高風險的你可以進行驗證,比如手機動態(tài)短信驗證等。
 

  這個事中風險監(jiān)控延時要求是0.1秒以內(nèi),現(xiàn)在所有帶銀聯(lián)標志的卡,在刷卡的時候,背后都是基于我剛才說的邦盛科技這項批流結(jié)合的技術(shù)來判斷這筆交易是不是盜卡、洗錢等等。
 

  很多人會問你邦盛科技提供的風控系統(tǒng),怎么知道我這筆交易是有問題還是沒問題的?我舉一個計算邏輯,如果發(fā)生下面的這個序列,一張卡分別刷卡2萬、1.5萬、1萬都沒有刷出來,這樣的事件序列散落在你過去1個月的流水里面,那可能是欺詐者做的偽卡在最大化的套現(xiàn)。因為他不知道你的額度,但是他希望最大化把錢套出來。這是基于行為習慣挖掘的典型的風險規(guī)避模型。
 

  我們自己在用卡的時候,絕對不會出現(xiàn)剛剛描述的這種行為,這就是異常行為。還有查詢賬戶余額,查詢完之后后不到1秒鐘就做了清空轉(zhuǎn)賬,這是一種機器人的操作行為,因為人工操作不會那么快跳入到轉(zhuǎn)賬界面進行轉(zhuǎn)賬。邦盛科技研發(fā)的風控系統(tǒng),能做這些判斷都是結(jié)合批式的海量歷史數(shù)據(jù)和當前發(fā)生的熱數(shù)據(jù)結(jié)合在一起,來分析的行為習慣和風險指標。
 

  我再給大家舉一個案例,基于批流結(jié)合的大數(shù)據(jù)風控場景。以前我們在一些購票網(wǎng)站買票的時候,都經(jīng)歷過讓人頭疼的圖形驗證碼,經(jīng)常要點好幾遍,因為圖形驗證碼難辨認,很多時候眼睜睜看著票被搶光。年紀稍微大一點的根本就沒有辦法買票了。這套驗證碼,原本是用來防止“黃牛”惡意搶票占座的,但后來黃牛很快升級了技術(shù),通過機器人利用眾包識別技術(shù),識別圖形驗證碼的通過率是70%-80%,比人的通過率還高。防控技術(shù)不得不隨之升級。
 

  邦盛科技基于批流結(jié)合的技術(shù)為該票務(wù)平臺做了實時機器防御識別系統(tǒng),也就在批流結(jié)合的引擎——流立方之上我們加載了生物離散性模型,能夠在600-800μs通過對每位購票者的歷史行為進行建模分析(上百個規(guī)則與模型),精準識別票販子,其難度遠遠高于互聯(lián)網(wǎng)金融風控反欺詐系統(tǒng)。
 

  我舉個直觀一點的例子,讓大家有一點感覺,如果一臺設(shè)備提交買票請求每次都是間隔15分鐘,這種就是機器人在購票。當然現(xiàn)在機器人越來越聰明,也開始隨機交易,但是通過統(tǒng)計變量的時候,他也是一個斷帶一個斷帶的,斷帶之外的離散點是沒有的,很干凈。
 

  我們做的實時智能防御系統(tǒng),如果發(fā)現(xiàn)是人在購票,就不再彈出圖形驗證碼,直接進入購票界面,如果發(fā)現(xiàn)是機器人,就會彈出更加復雜的圖形驗證碼,提高識別難度。
 

  批流結(jié)合的大數(shù)據(jù)分析技術(shù),除金融反欺詐以外,還可以應(yīng)用在電信、交通、公安、海關(guān)、航空航天、軍工、氣象、互聯(lián)網(wǎng)等行業(yè)和場景??v向來看,每個行業(yè)的報表數(shù)據(jù)實時處理、可視化分析、合規(guī)檢查,精準營銷也都需要這項技術(shù)。
 

  最后我簡單介紹一下邦盛科技,邦盛科技主要是在做大數(shù)據(jù)實時智能處理技術(shù),以及基于該技術(shù)專注金融實時風控解決方案。我們比較有名的平臺就是流式大數(shù)據(jù)極速處理平臺“流立方”,在2017年12家股份制銀行里面有8家用的是基于“流立方”的實時反欺詐技術(shù),全國排名前30的第三方支付機構(gòu)中,有20多家采用邦盛的產(chǎn)品作為中央風控平臺。
 

  我們研發(fā)“流立方”花了好幾年的時間,公司已經(jīng)成立八年了,前五年都是研發(fā)“流立方”,沒有出去做業(yè)務(wù)。
 

  自有實時風控與反欺詐模型庫包含各類業(yè)務(wù)模型2400多個,覆蓋100多種的欺詐場景;欺詐黑名單數(shù)據(jù)上億級。
 

  做大數(shù)據(jù)風控和實時反欺詐這一塊,除了有引擎以外,還需要反欺詐的技術(shù),反欺詐的數(shù)據(jù),反欺詐的模型,還有反欺詐應(yīng)用產(chǎn)品管控系統(tǒng)。所以做大數(shù)據(jù)風控也好,反欺詐也好,絕對不是單純的有數(shù)據(jù)就能做,這是一個系統(tǒng)級的解決方案。
 

  剛剛講過的這一項技術(shù)已經(jīng)應(yīng)用在各行各業(yè),目前已經(jīng)有200多家金融和泛金融領(lǐng)域客戶用上了“流立方”。好,謝謝各位。
 

  轉(zhuǎn)自:北國網(wǎng)

  版權(quán)及免責聲明:凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責任的權(quán)力。凡轉(zhuǎn)載文章,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。

延伸閱讀

熱點視頻

生死不離,生生不息——汶川,十年! 生死不離,生生不息——汶川,十年!

熱點新聞

熱點輿情

特色小鎮(zhèn)

?

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502003583