天天看點

網際網路金融中的資料挖掘技術應用

本文來自網易雲社群。

在金融行業中,客戶關系管理、風險計量與管理、精準營銷、交易執行、安全與反欺詐等所需的業務分析都需要大資料分析與挖掘,而這些正是實作迅速和科學決策的核心基礎。大資料時代背景驅動的金融行業轉型主要展現在實作嚴格有效的監管、機構精細化管理、業務創新提高競争力等三大方面。而大資料技術正是實作這些目标的紮實基礎。

大資料不僅為金融機構掌握客戶全方位資訊提供了可能,通過大資料技術分析和挖掘客戶的交易和消費曆史掌握客戶的消費行為與習慣,并準确地預測客戶傾向,有針對性地提供推薦和服務,能夠提升客戶滿意度。另一方面,大資料技術能通過跟蹤新聞、微網誌等典型的非結構化、半結構化資料捕捉政治、經濟等方面的變化對市場的影響。這些非結構化資料、半結構化資料經過處理後能夠轉化成結構化資料,并參與到自動交易的決策輔助中來。

資料挖掘的三大任務是分類、聚類、關聯規則,由于不同的資料形式同這三個方面的結合又産生了一些交叉領域。

2007 年的IEEE 國際資料挖掘大會(ICDM)通過調查認定了10 種受到廣泛認可的算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、Naive、Bayes 和CART。常見的分類任務算法有:決策樹、logistic回歸、神經網絡、支援向量機、多目标線性規劃等。

Logistic 回歸分析是一種二分類的多元回歸方法,是判斷某件事情是否發生的傳統工具,在各個領域都取得了較為廣泛的應用。

人工神經網絡具有自學習和自适應能力,可通過預先提供的一批互相對應的輸入—輸出資料,分析掌握兩者間的規律進行應用和預測。最流行的神經網絡算法是20 世紀80 年代提出的向後傳播算法。

支援向量機(SVM)和多目标線性規劃(MCLP)都是基于最優化資料挖掘的方法。SVM 是由Corinna Cortes在解決小樣本、非線性及高維模式識别中表現出很多特定優勢,能夠推廣到各種分類問題。目前最優化資料挖掘方法已經在個人信用評分、客戶流失管理、金融衍生品結算風險管理等金融大資料挖掘項目中成功應用。

聚類算法主要有階層化聚類算法、劃分式聚類算法、基于密度和網格的聚類算法。K-means 方法将n 個對象根據它們的屬性分為K 個簇。

關聯規則最為有名的應用是“啤酒尿布”的購物籃應用案例。而在金融領域中,借鑒這樣的思想實作捆綁營銷并非難事。關聯規則算法中最流行的Apriori 算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法,能夠找到所有支援度大于最小支援度的項集,即頻繁項集。

其實,資料挖掘的方法和技術就可以用于大資料時代企業決策模式的重新制定。其中最重要的方法之一是“跨行業資料挖掘過程标準”(CRISP-DM)。它是一個通用的資料挖掘架構,已普遍被許多資料分析的軟體公司采用。在大資料背景下CRISP-DM 同樣适用,隻不過處理的是更大、更複雜的大資料。

人民銀行個人信用評分模型就是大資料挖掘技術在風險管理中的典型應用。該信用評分模型系統稱為中國評分(ChinaScore)。它由我國信貸結構的七組評分模型組成,目前在各大商業銀行運作良好。該評分系統利用全國各大金融機構的所有個人信貸賬戶的住房貸款、汽車貸款、信用卡等的曆史資訊(人數超過6000 萬,資料積累超過3 年),運用先進的資料挖掘和統計分析技術,通過對消費者的人口特征、信用曆史記錄、行為記錄、交易記錄等大量資料進行系統的分析,挖掘出蘊含在資料中的行為模式。

工商銀行則運用大資料技術進行客戶流失分析和管理。客戶流失分析的目的是通過現有客戶使用産品的情況及各種資訊,預測客戶在之後一段時期是否會流失,進而為其提供針對性的服務,實施挽留措施。在客戶流失分析中,客戶的特征主要由活期存款、定期存款、中間業務、貸款業務、貸記卡業務、國際貸記卡業務和客戶基本資料等7類資訊描述。其中包括客戶使用各業務的産品特性、交易行為描述和客戶自身的年齡性别等。

随着金融大資料特征在大資料時代的日益明顯,監管上和業務上的需求也越來越複雜,無論是對科研界還是實業界都提出了新的要求和挑戰。

在銀行業,大資料時代再次挑戰了銀行的資料駕馭能力。除了傳統的結構化資料,來自物聯網、網際網路的非結構化資料将徹底颠覆銀行收集各類資料的理念和現有的方法。而在處理資料方面,非結構化資料,例如客戶錄音資料等等難以用傳統的方法描述,度量、計算、處理難度都大。

在證券業,國内絕大部分的證券公司仍以關注宏觀經濟、行業動态、基本資料、交易性資料等結構化資料為主進行分析。大資料時代,社交網絡這一大類資料源成為價值隐藏的另一大寶庫。文本挖掘提取等處理非結構化資料的方法讓輿情分析結合現有的資料研究上市公司的走勢成為可能。在客戶分析上的探索,證券業要遠落後于銀行業,發展滞後。是否可以将産品的生命周期與客戶的生命周期相結合,擷取更多的資料來作為分析的基礎?投資者購買什麼樣的證券産品是否除了客觀個性特征外能夠反映主觀的風險容忍度和風險承擔意願?是否能夠根據這樣的劃分設計定制化的産品?我相信這些都将是大資料時代為證券業帶來的新的增長點。

在保險業,過去是“樣本精算”,大資料時代變成了“全量資料”。保險的本質内涵是了解風險并控制風險,在這一點上,大資料将颠覆整個保險業的商業模式。傳統保險經營關注的風險次元,不足以反映世界的複雜性。以車險為例,目前的定價因素僅僅考慮了性别、年齡和職業,然而顯然這樣的認識遠不能刻畫一個人開車的風險。是以僅靠“樣本精算”采用的大數定律遠遠不夠,如何利用客戶其他資訊,包括網絡以及政府公開的資料等這幾個大資料的重要來源,達到個性化風險控制和定價是值得深思的問題。

目前資料挖掘在各行各業應用廣泛,尤其在金融、保險、電子商務和電信方面得到了很好的效果,下面簡單闡述一下在金融行業資料挖掘的應用。

(1)風險控制(貸款償還預測和客戶信用評價)

有很多因素會對貨款償還效能和客戶信用等級計算産生不同程度的影響。資料挖掘的方法,如特征選擇和屬性相關性計算,有助于識别重要的因素和非相關因素。例如,與貨款償還風險相關的因素,包括貨款率、貸款期限、負債率、償還與收入(payment—to—income)比率、客戶收入水準、受教育程度、居住地區、信用曆史等等。而其中償還與收入比率是主導因素,受教育水準和負債率則不是。銀行可以據此調整貨款發放政策,以便将貨款發放給那些曾被拒絕但根據關鍵因素分析,其基本資訊顯示是相對低風險的申請者。

(2)交叉銷售(業務關聯分析)

通過關聯分析可找出資料庫中隐藏的關聯網,銀行存儲了大量的客戶交易資訊,可對客戶的收入水準、消費習慣、購買物品等名額進行挖掘分析,找出客戶的潛在需求;并對各個理财産品進行交叉分析,找出關聯性較強的産品,進而對客戶進行有針對性的關聯營銷,提高銀行業績。

(3)客戶市場細分

根據銀行大量的客戶資料以及客戶存儲款情況,利用有效的聚類或者協同過濾,将客戶有效地劃分為不同的組,使得具有相同存儲和貸款行為的客戶分為一組,進而可以對每一組總結各自每個組的特點,對每個組開展有針對性活動。

此外,針對不同的客戶類型(例如大客戶類型,潛在價值高,但是忠誠度很難保持)設計出量體裁衣的産品組合、溝通方式,以及客戶服務,進而達到提高客戶忠誠度、實作關聯銷售、最優化定價、産品直銷、産品再設計,以及管道管理的目的。而這些目标的實作,緻使客戶管理總體成本降低,客戶關系得以改善,最終成功實作零售業務塊利潤率的提高。

(4)客戶價值分析

根據“二八原則”,找出重點客戶,即對銀行創造80%價值的20%客戶實施最優質的服務,通過對客戶金融産品的使用頻率以及持續性等名額判斷客戶的忠誠度。

(5)客戶流失預警

根據客戶屬性特征、存儲款、貸款、金融産品使用等資料,運用資料挖掘技術,找到流失客戶的共同特征,進而針對具有相似特征的客戶還未流失前,進行有針對性的彌補或者營銷活動,進而起到避免客戶流失到其他公司的作用,起到穩定本企業客戶的作用。

(6)新客戶開發以及新産品推廣

通過探索性的資料挖掘方法,如自動探測聚類和購物籃分析,可以用來找出客戶資料庫中的特征,預測對于銀行營銷活動的響應率。那些被定為有利的特征可以與新的非客戶群進行比對,以增加營銷活動的效果。

資料挖掘還可從銀行資料庫存儲的客戶資訊中,可以根據事先設定的标準找到符合條件的客戶群,也可以把客戶進行聚類分析讓其自然分群,通過對客戶的服務收入、風險、成本等相關因素的分析、預測和優化,找到新的可赢利目标客戶。

(7)貸款償還預測

貸款償還預測對銀行業務相當重要的。貸款償還風險相關的因素包括貸款率,貸款期限,負債率(月負債總額與月收入總額之比),償還與收入比率(payment-to-income),客戶收入水準,受教育水準,居住資訊,信用曆史等等,通過資料挖掘預測手段,可以提早預測哪些使用者有可能償還違約,哪些使用者曾經貸款被拒但是預測結果卻是低風險。

(8)客戶評分

評分技術是銀行業廣泛使用的一項技術,包括風險評分、行為評分、收益率評分、征信局評分以及客戶評分等。評分技術是将客戶的海量資訊資料運用有效的資料挖掘和處理手段,對各種目标給出量化評分的一種手段,以征信局評分為例。要達到建立征信局評分的目标,首先要建立起集中的資料倉庫,其中涵蓋了申請人的各種特征,銀行提供的所有産品,包括存款、貸款、信用卡、保險、年金、退休計劃、證券承銷,以及銀行提供的其他産品,甚至包括水電瓦斯、電話費、租金的繳納情況等。

(9)反洗錢活動

金融交易活動是洗錢犯罪行為的一個重要環節,通過分析金融機構的客戶資訊和交易資料,運用合适的資料挖掘方法,介乎客戶背景,識别出可疑金融交易記錄,最後根據貝葉斯判定原理,綜合各個層次的可疑資訊,得到交易記錄的整體可疑度,最終為反洗錢監測提供快速準确的參考。

(10)其他決策支援

比如營銷活動預演,理财産品收益以及效果評估,多元分析報告等等。

海量使用者資料對于未來金融應用業務将非常關鍵,有大量的社交、支付、理财資料通過雲計算還有專業的分析挖掘,能夠為金融機構大幅的降低營運成本,還有服務成本,并提升風控的能力。

利益相關:網易猛犸大資料平台作為一站式的應用開發和資料管理平台,通過大資料開發套件,将資料開發、任務運維、自助分析、資料管理、項目管理等工作通過工作流的方式有效的串聯起來,提供靈活易用的使用者操作界面,降低了大資料分析的使用門檻,顯著的提高了資料開發工程師和資料分析師的工作效率。猛犸大資料平台在電商、音樂、雲課堂學習、企業工業制造等領域已廣泛應用,基于持續的需求驅動,通過多行業的業務驗證,同時豐富全面的元件,提供完善的平台能力,滿足不同類型的業務需求。

在對資料的分析處理過程中,資料的安全重要性不言而喻。猛犸平台底層使用Kerberos認證,實作了資料的安全性和隔離性。除了認證系統,利用Ranger實作了細粒度的權限控制,保證了各個租戶隻能檢視授權通路的表、庫和字段。不僅如此,平台還提供審計功能,通過對使用者平台行為進行記錄、分析和彙報,用來幫助對事故追根溯源,提高了平台的安全性。點選可免費試用

原文:請問如何将資料挖掘技術應用于網際網路金融?

繼續閱讀