雲栖号資訊:【 點選檢視更多行業資訊】
在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!
因技術變革而至的金融科技是目前的一個熱門話題,在過去幾年中呈現運動式發展,除了百度、阿裡、騰訊等網際網路公司,銀行、證券、保險、基金公司等傳統金融機構及其他科技企業都被卷入這場變革式洪流之中。
那麼,人工智能作為金融科技的一個重要分支,在金融投資領域能起到什麼樣的作用?當下的真實市場需求又是怎樣的?6 月 24 日,由路孚特主辦的 ReFinTech 大咖直播室邀請了創新工場南京 AI 研究院執行院長、倍漾科技創始人馮霁博士 和 路孚特中國區财富管理業務發展總監趙玉成,從金融投資的業務出發,為大家分享了人工智能在金融投資領域的應用和發展。
以資料解讀金融投資領域的業務場景及痛點
機器學習已經成為金融機構投資決策的重要環節
路孚特于 2018 年完成了從湯森路透金融與風險業務部門獨立成為路孚特的轉變。這家 160 多年曆史的金融科技企業,為全球 190 多個國家的 4 萬多家機構和 40 萬使用者提供金融資訊服務。同時,在路孚特金融開放平台上,超過 1 萬 3 千名開發者和 2200 多家合作夥伴,以安全、有效、高效的方式,共同建構着金融行業的業務發展以及其各項創新。
這家在金融科技領域有着深厚積澱的企業,對機器學習領域在金融領域的應用已探索四年有餘。去年,路孚特開始對 447 位資料科學實踐者和擔任 C 級高管的資料科學決策者進行了陸續的電話采訪,這些受訪者全部來自于年收入超過 10 億美元的金融機構。這次調研的資料清晰地反映了一個事實:機器學習已經成為金融機構投資決策的重要環節。
基于路孚特此次市場調研,路孚特中國區财富管理業務發展總監趙玉成為我們分享了在機器學習領域中金融機構的新動态:
1、國際上大多數金融企業已經開始部署 AI/ML 的業務,就應用 ML 技術而言,風險規避和性能管理是最受關注的兩個主題領域。
90% 的企業部署了 ML 來管理或分析組織中的一個或多個部門的内容;
78% 的調查者回報,機器學習是其業務戰略的核心組成部分。
2、金融機構利用機器學習的主要原因是:更好的擷取資訊 / 洞察和提高生産力,而不是成本削減。
3、資料的可發現性和品質是采用人工智能的最大障礙。
43% 的調查回報資料品質差會影響他們采用;
38% 的人認為缺乏資料可用性會影響他們對 AI/ML 的采用。
4、資料科學家花了很大一部分時間整理資料,才能将資料用于機器學習。
5、資料科學家是一個相對較新的終端使用者群體,擁有重要的決策權。
98% 的資料科學家說他們影響了用于實驗機器學習資料内容的決策;
95% 對購買哪些金融市場資料有一定影響。
6、客戶正在使用機器學習從非結構化資料源(文檔、文本和 web 抓取)建立結構化資料。
趙玉成在直播分享中表示,越來越多的金融機構開始将機器學習投入到業務中。大多數金融機構已經經過了試驗階段——其中 90% 的人表示他們已經部署了機器學習來管理或分析組織中的一個或多個部門的内容。
就應用機器學習而言,風險規避和性能管理是最受關注的兩個主題領域。在路孚特的調研中,82% 的機構将機器學習應用于風險控制領域,其次用以支撐投資決策及市場分析的機構占比 74%,63% 的金融機構則使用機器學習或者人工智能來做交易分析和交易行為。
趙玉成指出:“資料是最大的挑戰。”金融機構在尋找和處理可以映射到解決方案的資料時面臨的主要挑戰通常有以下幾點:
擷取關于資料覆寫範圍、曆史和來源的準确資訊;
識别不完整或損壞的記錄;
資料管理、頻次;
資料清理和标準化。
金融機構使用的資料通常分為三類:一是基本資料,二是客戶内部資料,三是另類資料。客戶内部資料又主要分為金融機構資料資訊、客戶的使用狀況、潛在客戶資訊、客戶購買和投資産品、客戶投資業績等。這類資料私密性比較強,一般的情況下,公司不會對外披露或對外展示。是以,這類樣本資料量相應不是很大,對中等或者小型公司而言尤為明顯。在此類投資資訊較少的情況下,不少金融機構希望通過工具幫助自己的客戶做出更好的投資組合,同時還能監控風險。
趙玉成談到:“路孚特在過去一段時間裡做過類似嘗試。我們會将使用者(金融機構)的資料部署到 Client Data Warehouse(客戶資料倉庫)系統,助其建立資料中台的概念。與此同時,再将資料與路孚特的實時資料、價格資料、基本面資訊以及預測資料進行比對,做内部系統分析,其中包括投資流程、收益狀況、風險名額,以及針對曆史投資行為的投資畫像,進而幫助金融機構更了解自己的客戶,為其客戶提供更好的服務。”在整個過程中,金融機構的資料被挂在雲端,通過加密、解密的過程展示出來,趙玉成表示:“這種處理方式也是我們内部資料的一種解決方案。”
另類資料的應用
在量化交易中,如何擷取适當的資料用于開發和測試交易政策,往往是投資者面臨的一個難題。盡管随着技術的發展,擷取大資料的成本也在逐漸降低,但曆史價格等傳統資料已經不能滿足部分投資者的需求,于是從另類資料中提取交易信号成為了有效提升投資回報的另一種嘗試。
不同于傳統的交易所披露、公司公告披露的資料,另類資料包括個人的消費資訊、社交媒體資訊、地區的天氣狀況、公司的銷售記錄等,來源豐富多樣。它使得越來越多以前無法收集的資訊變成了可以分析的資料 ,而從這些雜亂無章的資訊中找到規律的能力也變得無比強大。
據了解,路孚特對另類資料的處理和研究已有五年多的曆史。2015 年,路孚特收購了一家名為 Asset 4 的公司,該公司的 ESG(另類資料的應用)在當時處于前沿地位,關于上市公司對市場環境損害的情況、社會治理(如員工治理、公司内部治理、男女比例、高管資訊)等,其都有一套标準的資料分析及評分體系。在收購 Asset 4 之後,路孚特将該系統進行了整合。目前,路孚特的資料分析已經涵蓋了全球市值 80% 的股票。
趙玉成表示:“現在 ESG 資料中有 400 個名額,我們會把其中 20 個名額作為評分的标準,通過 ESG 治理,判斷哪些資料符合 ESG 标準,判斷公司治理是否健康,是否能實作持續發展。經過 ESG 評分後,我們會以此對股票進行分類,利用路孚特自己的伺服器形成一個具備多元化和包容性的投資總和。可以看到的是,符合 ESG 标準股票的走勢要遠好于整個市場的平均狀況。”
在金融投資領域,衛星圖像、社會情緒等另類資料也開始備受關注。目前,路孚特的資料包含了大量的社交媒體資料,通過輿情監控借助機器學習計算整個情緒變動,借此對投資政策進行調整。此外,借助衛星雲圖資料,通過金融資料及其他資訊,利用機器學習算法找出一些曆史變化規律,例如估算美國一段時間内的降雨量,再進一步判斷出小麥的生長狀況及産量。這些資訊将對投資市場的研判産生極大的幫助。
随着技術的發展,另類資料的應用正在扮演着愈加重要的角色,成為傳統資料的重要補充以及投資者提升決策品質的利器。但由于其分散且不完整,資料周期有階段性、不連貫、結構松散,且沒有标準化的統一結構。這使得将另類資料納入投資決策過程難度極大且成本高昂,企業需要在将資料納入系統進行分析之前,找到資料來源,收集并清理品質不一的資料并進行标準化處理。路孚特則通過提供越來越多不同類型的高品質另類資料,幫助使用者解決難題,将另類資料以現成可用的格式提供,可以輕松整合至使用者的模型與應用中。
基于資料驅動的下一代金融投資範式
軟體工程從 1.0 時代邁向 2.0 時代
創新工場南京 AI 研究院執行院長、倍漾科技創始人馮霁博士在分享中提到:“當下人工智能技術,尤其是深度學習,與之前的機器學習相比具有三點優勢。”
1、表示學習。“深度學習技術興起之後,能夠将表示學習進行自動化發現,這帶來的好處是巨大的。首先是傳統的機器視覺領域基本上有了翻天覆地的變化。我們不用再對一個圖像定義各種複雜的特征,我們現在可以将原始資料直接放到學習算法中去做算法任務。語音識别、自然語言處理亦是如此。”馮霁表示,同樣地,在金融行業的二級市場量化投資,一個好的表示學習能夠為金融工程模組化帶來質的提升,比如做多因子挖掘時不需要用那些傳統的人工定義的技術名額或者其他的量價關系去做,而可以利用人工智能算法找到比之前的因子更具有預測能力的信号。
2、問題轉化。“人工智能技術能夠将不少很難直接設計算法求解的問題,轉化為一個數學優化問題。量化投資中的大量 NP 困難問題,可巧妙地轉化為機器學習中的經典技術,進而大幅提升模組化效率。”
3、資料驅動。“在量化交易中,大部分問題都是 NP 困難的,利用資料驅動的方式,可有效對複雜問題進行估計和求解。資料驅動的計算範式在近十年中的各個領域獲得了廣泛認可,也獲得了巨大成功。很多複雜的問題不再需要精心設計一個特定的算法進行求解,而是轉化為機器學習模型,利用資料對模型參數進行估計。這是軟體工程所面臨的一個本質的變化。”
馮霁指出:”從量化模組化的角度,或者說從軟體工程的角度,目前一個普遍的共識是,現在的人工智能時代相當于是軟體工程的 2.0 時代。“
對此,馮霁做了進一步解釋。在軟體工程 1.0 時代,計算機利用程式員寫好的算法處理輸入,然後得出對應的輸出。這一過程中,有價值的資訊或結果基本上取決于算法本身。如何設計出一個聰明的量化交易算法是非常考驗程式員的,畢竟不同的人寫出的算法是有差異的。
而在軟體 2.0 時代,程式員可以自動化産生解決某一困難問題的算法。比如對于圖像識别任務,程式員不知道具體如何寫圖像識别算法也無妨,隻需要寫好機器學習的算法,然後給計算機提供大量的圖像樣本(即資料),就可以自動生成圖象分類的程式。在這一過程中,一個困難的任務被轉化為一個至少經過嚴格訓練就有能力進行程式設計的任務。馮霁補充道:“這在本質上已經産生了差別。還是以圖像識别為例,利用機器學習無論是做人臉識别,還是做針對貓、狗的識别,其背後的流程基本是一樣的,這大幅減少了軟體工程中所遭遇的各種問題。”
人工智能在量化交易中的五大應用場景
不止是圖像識别,在最近幾年裡,人工智能已發展成為頭部對沖基金的核心技術。國内的頭部對沖基金正在建立超算 GPU 叢集,開拓機器學習技術并應用于交易。甚至有私募機構已經把自己定義為完全依靠人工智能做投資的對沖基金。
馮霁在分享中講到:“說到人工智能技術在量化交易中的應用,很多人會想到用 AI 方法分析市場、分析新聞等,認為人工智能隻能做這種輔助性的工作,其實這一認知是錯誤的。人工智能技術不僅能做輿情分析、提供因子等邊角料外圍的工作,它還可以深入地滲透到量化交易的每一個場景,對整個量化交易流水線中的各個環節進行範式級别的提升。”基于此,馮霁介紹了以下五個場景:
1、特征工程
特征工程是建立量化交易模型中的第一步,其目的是最大限度地從原始資料中提取特征以供算法和模型使用。在傳統的金融工程中,模型的輸入隻能用結構化資料,如盤口資料、量價關系、資金流向等。非結構化資料用傳統的金融工程模型很難處理,比如用數學向量表示一則新聞或者一個公告等,這需要深度學習技術對非結構化資料進行表示。
“如果我們把整個特征工程看成是人工智能中表示學習的任務,那麼這件事就會變得大為輕松。因為我們可以将擁有的資料切換成兩個次元:一個次元是從高頻到低頻,比如從 T+0 或者 T+1 的政策到較為低頻的政策;另一個緯度是從微觀到宏觀,最微觀的資料是盤口資料,相對宏觀的資料諸如财報、季報、基本面或者宏觀經濟等資料。”馮霁解釋道,“當把資料分成這兩個次元進行刻畫時,我們就會發現利用深度學習技術可以同時将不同類型的資料進行某種程度上的自動化特征定義,從原始特征中自動學習出對量化交易最有效的表示。倍漾科技和南京大學周志華教授一起,做了不少在表格資料上進行特征重表示的研究,效果顯著。”
2、非線性多因子模型
随着量化多因子模型的發展,因子從單一發展到多元,從線性關系發展為非線性關系。簡單使用少量因子的線性模型已經無法适應目前複雜多變的市場環境。馮霁表示:“之前很多人還認為線性模型足夠使用。其實這個論斷對也不對。如果低頻尺度且利用較小的樣本就可以對某些角度進行刻畫時,線性模型确實夠用;但是,一旦我們的算法或者想要解決的問題,尺度頻率變得較為高頻時,你會發現線性模型遠遠不夠,它包含的知識有限,難以‘吃’進大量資料。因為當算法、權股或者政策分布在較為高頻的尺度上時,算法準确度與模型複雜度之間存線上性增長的關系。”
馮霁指出:“在現階段,如何有效地把更多資料利用進去,其實是大家競争的前線。如果線性模型沒有辦法’吃’進去大量資料,那麼隻能選擇非線性模型做這些事情。”相比傳統線性多因子模型,人工智能機器自我學習的特性能夠幫助量化模型适應不同市場環境,深入挖掘新選股因子以及因子與股票收益之間的非線性關系,提高模型預測能力,更敏銳地捕捉未被發現的市場機會。
對于時序資料平穩與非平穩間的差別,馮霁強調:“随着時間的推移,市場分布産生變化時,樣本内表現平穩,樣本外表現下降,有人認為是‘機器學習過拟合’。其實這個觀念并非很正确。因為‘過拟合’是對用錯機器學習模型的一種描述,也就是說如果出現過拟合,并不代表機器學習這項技術不對,而是用機器學習的人把事情沒有做對。”
機器學習中專門有領域在研究當分布發生遷移時如何抗擊過拟合。換言之,機器學習從 80 年代設立之初,其目的就是為了避免樣本外與樣本内表現産生差異,它是為了抗擊過拟合而産生的技術。“工業界經常有人反過來認為,出現過拟合是因為機器學習或者人工智能不行。對此,我在這裡想做一個澄清,其實并不是模型有問題,也許是在處理模型過程中少做了某些處理非平穩時序資料的技巧或者子產品。”
3、優化算法
傳統的線性模型或傳統的金融工程預測類模型,很難同時對多個目标進行優化求解,因為這往往是 NP 難問題。“機器學習的一大好處便是将多目标優化問題變成利用資料驅動方式解決的問題,這樣就有可能在有限時間内得到至少模組化者認為滿意的局部最優收斂點。這樣更有利于設計一些較為複雜的學習系統,能夠同時滿足量化交易中的不同次元的目标。”
此外,對于優化算法的端到端問題,馮霁表示:“運用機器學習的方式設計模型時,我們可以把從輸入到處理、到輸出、再到最終決策的整個過程變成一個一體化的複雜的學習系統,然後從特征工程到最後輸出對該系統進行聯合式優化,這樣可以大幅度減少模型設計過程中遭遇的各種問題。”
最後,關于優化算法中的 AutoML 技術,馮霁提到:“該技術不僅僅是學術界的一個熱點,模型本身架構都可以利用 AI 的算法自動設計出你想要的 AI 模型,隻要你有資料和算力就能做到。這也是我們倍漾科技内部的資管公司正在做的事情,即從資料處理到模型建立,再到最終的輸出,甚至于包括模型架構本身,都能夠用 AI 技術自動化完成。”
4、智能回測
通常,量化交易的回測功能會基于強化學習來實作。“回測是大部分量化交易團隊最容易犯錯誤的地方,因為大部分算法在回測時看上去是掙錢的,但到了真正實盤交易時才會發現有問題。”馮霁在直播中談到。
那麼,強化學習還能否應用在量化交易中?對此,馮霁為我們作出了解釋:要想借強化學習産生一個合理的政策,需要在仿真的環境下将算法重複訓練上百萬遍。很多人在回測時,其實是将一個相同的曆史資料翻來覆去跑了上百萬遍,這樣産生的結果必然是糟糕的。因為單一的曆史資料隻是整個分布中的一個采樣,是整個曆史軌迹中的一條軌迹。從人工智能的角度來講,隻看到該曆史情況的發生而沒有見到其他情況,很難學習到一些有效的政策。簡而言之,如果 AlphaGo 隻看一盤棋譜并且将這盤棋譜翻來覆去看一百億遍,也不會學到更有趣的招式,隻有所看棋譜都不一樣才能學習到東西。“是以,如何利用這些技術,需要額外的一些手段和處理方式。倍漾科技在此類任務中,有不少新的進展,這裡就不展開介紹了。”馮霁提到。
5、算法交易執行
算法交易執行是最早受到機器學習技術的更新的一個領域,它通常用于優化交易的執行成本,降低交易(尤其是大單)對市場的沖擊,最典型的交易執行算法有 TWAP、VWAP 等。交易執行算法會根據一定的邏輯,将一個大單拆分成一個一個小單分别發送到交易所。對大型交易者來說,這樣做主要是為了避免提前暴露自己的交易意圖,降低對市場價格的沖擊。
馮霁表示:“目前基于人工智能技術的算法交易執行,有了長足的進展,利用資料驅動的方式進行拆單,從我們内部的實戰經驗來看,沖擊成本可進一步降低一個數量級。”
寫到最後
人工智能已經參與到整個金融流程中,并産生了驚人的影響力。複雜的金融領域也在因人工智能發生着深刻的變革。毋庸置疑的是,這項技術為金融機構帶來了更多的希望之光。唯有擁抱科技、拓展思維的邊界、利用人工智能技術并尋求創造與突破,才是金融科技領域及傳統金融機構的持續發展之路。而業内的深度交流及實踐成果分享是促進發展的的重要途徑之一。
基于此,ReFinTech“洞見 2020”金融科技峰會在去年首次與大家見面,各位大咖在峰會中分享的金融科技産業最前沿的創新探索與應用實踐,在業界引起了強烈共鳴和反響。跨入不同尋常的 2020 年,ReFinTech 系列精彩活動還将繼續關注金融科技領域的最新動态及實踐探索,後續的精彩内容敬請期待!
【雲栖号線上課堂】每天都有産品技術專家分享!
課程位址:
https://yqh.aliyun.com/zhibo立即加入社群,與專家面對面,及時了解課程最新動态!
【雲栖号線上課堂 社群】
https://c.tb.cn/F3.Z8gvnK
原文釋出時間:2020-06-30
本文作者:王曉青
本文來自:“
InfoQ”,了解相關資訊可以關注“[InfoQ](
https://www.infoq.cn/article/uyBO5ywsoh0xNgucqFbL)