資産管理大佬講述：如何用大資料及人工智能挑選基金？

以往的市場充滿低風險套利機會，比如過去二十年的房地産、過去10年的債券、過去8年的信托、過去7年的理财等等，在這些不複雜的市場環境下，普通投資者不需要投資顧問也很容易賺到錢。然而到了當下，簡單套利的時代已經結束，市場環境越來越複雜。那麼在這種情況下，使用者應該如何進行投資呢？

而與此同時，無論是傳統理财行業還是依托數字技術進行的金融科技事業，對基金管理者來說，如何有效識别風險、識别出正确的投資者才是當今理财行為的核心。

日前舉行的第三屆北外灘對沖基金峰會分論壇“大資料時代的投資管理”上，太平洋另類資産管理公司（paamco）董事總經理 misha graboi講述了人工智能和大資料進行資産管理的一些方法論及原理。

以下是misha graboi演講實錄：

我們管理了一些對沖基金，有獨立的資産管理。今天我想談論的主要關于一些新的技術在基金管理當中的應用，它們就是大資料、人工智能。

我不是人工智能的專家，我也無法知道特别多，是以我隻是給大家一個概要的介紹，但是我想說——我們是處于一個非常早期的使用人工智能的階段。很多基金公司也是剛剛開始用人工智能的技術來進行基金選擇。我們還沒有具體的案例，我們現在隻是在初級的階段，我們希望在未來可以使用這種技術來幫助我們。

是以大資料和人工智能的關系是什麼呢？大的資料就是一些資料集，它可以使用，來對于整個機器的學習進行教育訓練。是以我們需要有很大量的資料集。這些資料的規模越大，我們的機器學習的精度就越高。我們也看到機器的學習過程，就是要有現成的一套資料集。

你可能會說，在這樣的一個階段，我們是不是有很多的統計的資料呢？我們是有很多的人工智能，當然在某種形式上是基于統計資料。在金融服務方面我們有很多的模型，實際上它們有兩個方面不太好：一是它們不能代表一些關系，比如說有各種各樣的線性的關系，有的時候也無法準确闡明資料互相之間的關系；另外一個關系的話幾何性的關系，比如一直是平的走，突然之間下降的關系，計算機并不是能特别好的建構這個模型。

人工智能有很多的好處，其中之一就是它學習能力非常快。我們也看到美國比如說在整個的iphone銷售方面，有很多的資料。這些資料被很多的分析師使用，他們也每天不停地擺弄他們的模型，對資料進行分析，預測未來的市場銷售情況怎麼樣。如果要對那些資料做出即時的反應會比較困難。因為人做是比較慢的，但是人工智能可以做得非常的快。

接下來我花幾分鐘的時間來解釋一下，機器是怎麼樣進行學習的。機器學習的時候它是通過歸納圖例來進行學習的，這裡面是一些規則的内容，你可以做一個規則來進行預測。

我們是通過歸納推理的方法來進行學習的。比如說，我有一個罐子，我拿出四個球。如果我看到的這四個球，它們都是黑色的，這樣我的假設就是這個罐子裡面的所有得球可能都是黑色的。我不知道這是正确或者不正确，因為在罐子裡面有很多的球。我再拿出6個球，都是黑色的，這樣的話我的假設就是所有的球都是黑色的，如果拿得越多，那麼我的假設越來越正确。是以我必須對我的假設進行更新。

算法經過不斷地調整和改進來得到更好的這種準确性。這就是機器學習的這樣的一個過程。它是自己進行程式設計，自己做驗證。每一次錯誤的時候，這個機器都會做一些調整，是以下一次就會有更好的準确性。

這就是人工智能的理論。那麼對沖基金如何使用到人工智能？這裡我主要是簡單介紹一下，主要是涵蓋兩個方面：

第一個方面是配置方面。我們要做的必須是去打造一個風險分散的組合。對沖基金的話，組合之間的相關性是非常低的，比如說對利率的敏感性是非常低的。這個其實有些時候我們會發現我們必須要思考一下。我們沒有辦法隻看曆史，然後來進行這樣的配置。我們要知道你所處的市場環境是什麼，然後才能打造風險分散的組合。

另外一方面也看到了人工智能是可以創造價值的，我們要确定你需要什麼樣的基金政策，來使它在未來的表現會更好。比如說某一些類型的政策，在接下來的6個月、12個月或者24個月它的表現更好，你就可以把這樣的政策放在你的組合當中，這樣的結果更好。

還有第三個方面叫做指數的代表性。通常來說我們的客戶在進行組合的時候，他們一般都會參考這個回報的指數。但是，這個指數其實有些時候我們并不知道這個經理人他們用的哪個指數，或者是否在這個指數中。我們根本不知道是什麼因素驅動着我們的回報。因為這些指數看上去都是不一樣的，不同的指數可能會給你帶來非常不一樣的結果。比如說beta2的話，這些都會給你的結果帶來非常多的不同。是以就很難來決定到底是什麼樣的因素來驅動着這些指數。而問題也是在于你們沒有辦法完全按照這些指數來進行一個判斷，是以很難對你的對沖基金指數進行跟蹤。因為你必須要非常清楚地了解這個指數裡面的一些東西。

還有一個方面我們也可以創造價值的，就是基金經理的選擇，也可以使用人工智能。比如說考慮到基金經理的運氣和能力——我們每一個人的成功不僅是基于一個因素，而是兩個因素，一個方面是技能，一個是運氣。比如過去每年的回報率是6%，這個經理人是否是有運氣還是有能力？我們可能會把回報分解為不同的因素，比如說是股權市場的一些情況，股票市場的一些情況。

我們對利率等方面會做一些分解，這些因素是非常複雜的。我們的經理沒有辦法在這方面給你創造價值。這個過程其實成本非常高，是以你要知道是什麼因素驅動你的回報，是基金經理的能力好呢，還是因為他運氣好？這是要弄清楚的。

還有一點，就是我們行為的優化。我們在挑選對沖基金的經理的時候，其實我們要考慮到這個經理在未來他的一些行為。在不同的這種形勢下的一些行為，是以說什麼樣的類型的經理交易行為你覺得是可以給你帶來好的一個基金表現？這是要考慮到的。過去的話，可能像我有8年的經驗了，或者像我們的ceo可能在這個行業已經25年了。是以過去我們隻看經驗，但是這其實我們的人工智能的這些技術有了的話，我們可以很好地來改進這樣的一個基金經理選擇的過程。

接下來我們再來講一講如何在我們的資金的配置中來應用人工智能。

一方面是風險的分散，其實我們在尋求的是能夠找到一個先行的名額。這些先行名額可以告訴你我們所處的環境的體制是什麼樣的，通過對市場的了解，我們就可以進行資産的一個配置。比如說曆史上的這樣的一些相關性其實并不是非常有用，而更好的是使用我們的人工智能，用在我們的界面中，然後就了解到現在的市場的趨勢，了解到宏觀經濟的一些環境，了解到市場的情緒。把所有的這些因素考慮在内，然後更好的了解市場的體制或者結構。并且要意識到，我們可能會看到可能對我們的市場帶來很多的風險，這也會對你的組合帶來很多風險。

第二個領域就是預測性，我們剛才的話題是使用這個人工智能的一些技術。對于各種資料進行研究，包括宏觀經濟的資料，以及市場的資訊等等。然後計算一下短期和長期的回報是多少。比如說非常簡單的一個調查等等，比如說你想買這一家公司，如果你現在市場價39美元，背後的價差是非常少的。當然了，現在這樣的一個名額并不是特别的多。你需要考慮在整個金融市場的複雜性，然後提出一個功能強大的模型。然後未來的6到12個月當中，應該怎麼樣進行配置。

另外一個說到基金經理的選擇方面，也是非常類似的。我們需要來了解這個經理的持續性的數字。比如說我有兩個經理，他的回報上一年都是8%。上一年他有兩個頭寸，其中一個是上升了40%，其他的透頭寸都是虧損的。另外一個經理人，所有的股票都是上漲了6%。你覺得哪個基金經理人更好呢？有的人可能會說：“我的直覺告訴我第二個基金經理人人更加好，第一個經理可能運氣好，是以會獲利。”第一個經理說我不了解其他的股票，但是這兩個股票我非常了解，是以我可以做得好。使用人工智能的方法，你可以做很多的測試來驗證，這樣對沖基金經理本身也可以做評估的名額，來了解是不是選擇其中的一個經理更好，然後他們是不是有更加持續性的一緻性的良好表現。

對于回報方面的驅動因素的分析方面，我認為整個回報資料的結構非常複雜，可以把它分成三個方面。對市場的敏感度，對于利息的敏感度，以及對其他的一些敏感度。實際上整個的驅動因素應該是非常複雜的，它遠比這個模型本身所展現的更加複雜。你可以對整個的投資組合做更好的處置，完了要進行定價的決定。比如說你可以用較少的錢買到較多的東西，這樣子就能夠得到更好的結果。

最後一個部分是行為的優化，你可以了解哪一個投資經理人的行為更具有可預測性。比如說一個經理的話，如果你想買這個股票的話，你可能要買更多的頭寸。比如說你下降了3%的話，其他的部分需要做得更好，才能夠補回這個損失。還不是非常明确說哪一種方法更好，但是人工智能的話，可以幫助我們來進行分析。可能對于幾百個、幾千個案例進行分析，如果整個的人工智能系統可以對整個價格的曆史做分析的話，你可以得到更精确的一個結果。

最後的話我們想來說一下在使用人工智能時候的一些風險和一些問題。當中有一些人工智能方面的問題，以及金融服務方面的問題。

其實最大的問題就是過渡的拟合。因為人工智能的速度非常的快，對很多的假設可以短時間内進行測試。有的時候它吻合的非常好的一些東西，我們看到做統計的時候，有20個10億的資料。其中一個在統計學上面是比較好的意義，你對于這個資料進行測試的時候，過渡的拟合反而是不好的。有的時候你可以讓你的整個模型變得更加的複雜。

我們看到這個模型當中，如果有30個名額可以來幫助你，是不是會幫助你做更好的預測呢？實際上做到有30個名額做預測，是非常難的。還有一個組合的優化，如果你提高輸入資料的規模的話，那麼你需要的整個過程也會更加的複雜，這尤其是不好的一個事情。有的時候你可以有非常寶貴的輸入的資訊的話，它雖然沒有增加分析過程的複雜性，因為它的資料的真實性、寶貴性，是以讓你能夠做很好的判斷。有的時候你對于資料集的話，有很多的要求。

還有一個非常有趣的問題。有一些人工智能的模型，有的時候無法去解釋。因為這是計算機本身的話運作的一個程式，人類有的時候不了解為什麼這個電腦它會做出那樣的決定，來執行某一個程式。客戶可能會問你發生了什麼，你可能說電腦告訴我來買這樣的一個股票。他可能會說：“為什麼計算機告訴你這麼做呢？”你可能告訴他“我不知道”這也是一個問題。你不知道這些問題綜合起來考慮，有一個非常具有挑戰性的環境。因為你不知道這個計算機是如何決定執行某一個模型的。

還有關于市場方面的一些問題。在市場當中整個的一個機制是會變化的。但是這個人工智能主要是基于曆史的資料進行教育訓練，訓練出來的。比如說2000年到2007年之間的一些資料來進行驗證之後，得出人工智能的能力的話，到2008年的時候，這所有的一切并不是有用的。人也是非常複雜的，市場的機理也會随着時間的推移發生變化。比如說50年以前的曆史資料，現在來進行使用的話，當然也不好。你可以盡量地看最近幾年的曆史資料，但是還是會有一些問題發生的。因為曆史的資料總是和現有的資料是不一樣的。

可惜還是會有很多的問題。人工智能用在我們的對沖基金中，還是有一些挑戰。

金融服務的領域，有巨量的資料。這些巨大的資料，包括比如說是過去的十年中每一支股票的資料，包括我們運輸船運的這些資料。對沖基金在全球來看的話，曆史上來說，其實沒有太大的透明度，也就是說我們現有的資料是非常是有限的，我們沒有辦法進行人工智能的一個訓練。而前面講到了人工智能的訓練需要基于非常大量的資料集。

我們現在唯一的資料，也就是我們經理的回憶，或者收益流、回報流這樣的一些資料，這是唯一有的一些資料。說過去20年，我們其實很少有對沖基金有這樣大量的資料存在。如果假設是20年的話，我們可以有大量的這樣一些資料點。但是還有一個問題，你其實并不知道這個經理人做得表現好還是不好。比如說去年我的經理人回報是8%，這個股票市場是10%的回報，您覺得可以嗎？很好嗎？我不知道，我隻知道他給我的回報是8%。如果風險很小，然後8%的回報是很不錯的。因為對市場的暴露的風險并不是很大，是以8%是很好了。是以其實我們很多時候是零透明的，這種零透明的情況下，我們并不知道這個結果是好還是不好。這也很難進行人工智能的一個訓練。

另外一個層級的話，我們在這個行業，有很多大的基金的配置者是進入到了叫做聚合的透明度，也就是說我們的經理人手上的一些資料，除此之外，還會有其他的一些資料，比如說經理人可以提供的，第三方提供的這樣的一些聚合的資料。這個經理人的淨資産，或者是投資位置的配置設定，或者是投資的行業是哪一些，這些資料會稍微好一點。在我們進行管理的經理人的回報，我們對這個股票市場的風險暴露等，還有其他的一些方面，其實我們都是沒有很好的透明性。我們可能可以用到手頭上的資料序列來做一些分析，來更好的了解這個市場的回報。比如說如果經理人有50%暴露在市場上的話，你可以進行ai的一個訓練，告訴他有一半的市場的風險的一個暴露。然後就可以了解到是什麼因素在驅動着這個股票市場。是以這會稍微好一點，但是還是會有一些問題存在。

第三個層級我們稱之為持倉層面的透明度。對于每一個經理我們會看到每一個人的倉位，這樣我們不會隻依賴曆史資料進行ai的訓練，而更多的是會在靜态時間點上的倉位進行，這樣就會帶來非常好的結果，而不是非常短的經理人的曆史資料中進行預測。

還有一點其實作在沒有人達到這種層面，就是說基本原理的透明性。我們看到每一個經理人都需要打造這樣的透明度，就是每一次交易的資料，包括交易日志的透明性。這個經理人必須要解釋為什麼會有持倉。而通常我們的經理人并沒有作出這樣的解釋。他必須要講到接下來的12個月，這個公司的績效會怎麼樣。我們可以看到這個過程非常的長，我們很難來去判斷我們的經理人是真的運氣好還是他的技能好。

進一步強調一下，現在整個的人工智能隻是在它發展的非常初級的現象。我也知道ai有能力改變對沖基金投資者的政策。未來的5年當中我們需要學習一下如何來進行程式設計，根據一些邏輯來進行程式設計。在未來的5到10年當中，你們大家的公司裡面可能都會使用一些人工智能的系統來幫助你們進行決策。還有包括營運方面，你可以有更好的一些容易使用的一些政策。如果人工智能能夠抓住這樣的一些好的決定，那麼你就不會在做程式設計的方塊裡面，你到其他的方塊裡面去做。

最後有很多“軟”的因素，有的時候這些方面你很難去對于人工智能系統進行教育訓練。比如說這個經理非常好，他的回報率非常高，他的風險非常低。那麼我們也可以預測說他是好的，但是他這個人兩年之間可能因為内部交易，而被判過刑。這個時候ai沒有對這些機動做一個檢查。但其實我們一直都會有一些事件是沒有辦法進行ai訓練，我們的ai的訓練隻能在資料機上面進行訓練。目前沒有通用的ai，ai隻是用在一些特殊的地方。或許有一天我們的ai可以，希望未來真的能夠實作。我覺得未來的話，對于我們人類來講，我們都是處于網絡的時代，人還是最終的決策者。

本文作者：溫曉桦

資産管理大佬講述：如何用大資料及人工智能挑選基金？

繼續閱讀

疾病研究：重症肌無力

Nacos 2.0 更新前後性能對比壓測

人工智能如何有效地運用于自然語言處理

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark