幹貨 | 三年拿到斯坦福CS博士的創業者李紀為：AI如何賦能金融

人工智能和金融，法律、醫學等傳統領域密切聯系，金融科技正以前所未有的速度改變大衆認知，這不僅驅動了傳統金融業轉型更新，也催生了諸多新金融業态。本次清華大資料“技術·前沿”系列講座，我們榮幸地邀請到了香侬科技CEO李紀為博士，他從金融資料的擷取、金融資料非結構到結構化、金融實體的使用者畫像等方面為大家分享了AI如何賦能金融。

香侬科技創始人李紀為

李紀為：

今天非常有幸能跟各位探讨如何把人工智能的方法和知識，如語音、圖像和自然語言處理等技術應用在金融領域。

在資訊爆炸的時代，金融從業者的數目和其工作負荷量均逐年上升。從業人員如何在衆多管道中準确、快捷地擷取需要的資訊，并做出相應決策，顯得尤為重要。其中找資訊和根據資訊做出交易決策分别對應AI裡的不同應用。

金融應用的直接的展現為股票、國債、貸款、固定收益、股權投資、主權基金，大宗商品、金融衍生品等，這些是金融實體的載體，比如說股票，它背後對應的是上市公司。如果要預估一個股票的漲跌，最重要的是了解它背後的金融實體發生了什麼事，涉及到公司的收入、曆史、營運情況，以及在整個大環境下，國家的金融趨勢。其實就是涉及到對于不同金融實體的使用者畫像，即它們發生了什麼，從何處擷取這些資訊。

交易類型連接配接的是金融實體和客戶。從金融角度，我們需要從廣泛的資料源裡提取需要的資訊，使整個過程變得有序、友善、及時和準确。從技術角度，應用人工智能技術，涉及到圖像、自然語言處理等。從服務角度，提供什麼樣的服務取決于使用者需求。

接下來我們探讨技術和落地場景的結合。我們并不缺少金融資訊，卻很難獲得想要的資料，它們隐含在網上，可用性比較複雜，需要從非結構化變成結構化，如用算法把PDF、照片、表格等還原成文本資料，目前主流的解決辦法是先把PDF變成圖像，然後對該圖像做解析，在圖像裡面獲得所需要的文字或表格。

其中涉及大量的圖表和文字的識别。舉一個例子，将PDF中的表格轉化為Excel形式。從圖像處理的角度，第一步，把PDF轉成圖像，先把像表格的地方抽取出來。第二步，擷取到該區域之後，把圖像裁出來，再用圖像處理。要把表格的位置從PDF裡面裁出來，還是一個比較複雜的過程，需要标注很多的資料，比如這個表格的上下文。

當把該表格區域提出來時，還要識别裡面的單元格以及單元格的文字，除此之外，單元格還可能涉及到大量的合并情況，需要運用比較複雜的算法。為了避免亂碼，主流的解決辦法是直接把它轉成圖像。

利用資訊抽取的辦法，我們可以把不可用的資訊變得可用。用一個簡單直覺的算法直接把文本資訊變成結構化的資料，比如，通過模型或算法就能自動地回報出來想要的某些金融的資料名額。

其中涉及到自然語言處理的算法，其中一個模式是序列标注，可以用一項基于CRF的模型。CRF給出一個字元串，可以挑裡面字元串的子串是否對應某一個或者幾個不同名額。序列标注和問答在算法層面上處理的方式有所不同，如果兩個模型得出一緻的結果，我們就認為找到了對應答案。

從算法的層面，我們要抽取誰在哪裡、做了什麼。背後的算法相對複雜，原因就在于“做了什麼”，人們可以做的事情非常多，難以在基于學習或者監督學習的體系架構内把這些不同類别的事件聚類。

除此之外，即便事情屬于同一類，也有好壞之分。我們難以拿到大量的标志資料，既沒法對這些事件進行全面定義又沒法提出非常明确的标注細則。一旦沒有标注，我們就沒有訓練資料，沒有訓練資料，就很難去訓練基于監督類型的模型。

其背後涉及的算法叫做“human-in-the-loop”，如果把整個算法變成一個圈，人就在裡面不停地幹預。

第一步，可以對整個的文章以及裡面的詞、句和句法結構做無監督的聚類，比如LDA、PLSA或者是基于詞向量的LDA等。而無監督的聚類算法有時不靠譜，需要通過人為标注了解類别是否有意義。

第二步，基于之前的标注，把标注的結果跟模型融合一起，可以再運作一個無監督的聚類。不斷重複這個路徑，模型疊代的結果會越來越好，人為标注的曲線和模型運作出的曲線開始逐漸趨近，得出不同的算法背的真正類别。從算法的角度講，這個辦法避免了大規模的人為标注的成本。

除此之外，實作方法還涉及語音相似度的分析、目标的檢測、為使用者提供的服務方式等。

應用場景有很多。第一個例子，我們假設在非洲國家買國債。非洲國家的宏觀經濟資料或不披露，或存在報假情況，很難找到明确的名額，我們可以應用人工智能，比如大量的衛星雲圖的圖像，2016年《Nature》裡的相關文章指出這個國家的GDP、國情、人民生活水準甚至和晚上這個國家燈火的亮度有一定關系，我們可以把類似的情況落地，對它的GDP、CPI做宏觀分析。

第二個例子，企業的風險畫像。針對中小企業提供貸款擔保和偷稅問題，我們有兩個次元可以衡量，一個是中小企業貸款時候聲稱的收入，另一個是可以找到企業所交的稅，通過企業交的稅反推出它今年大概的收入。從網上去找到大量的不同次元的資料，如公司法務、人員、行業的使用者畫像等就能夠描述出來。

把技術手段和應用場景結合起來，從大量的資料源中提取有意義的資訊，我們就可以提供大量的知識體系和資訊為金融賦能。

原文釋出時間為：2018-10-29

本文作者：李紀為

本文來自雲栖社群合作夥伴“

資料派THU

”，了解相關資訊可以關注“

”。

幹貨 | 三年拿到斯坦福CS博士的創業者李紀為：AI如何賦能金融

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希