天天看點

【轉】知識圖譜建構全過程

轉自:https://mp.weixin.qq.com/s/lBeV6XWzk5bqNGiIMok-zw

知識圖譜,是結構化的語義知識庫,用于迅速描述實體世界中的概念及其互相關系,通過将資料粒度從document級别降到data級别,聚合大量知識,進而實作知識的快速響應和推理。

當下知識圖譜已在工業領域得到了廣泛應用,如搜尋領域的Google搜尋、百度搜尋,社交領域的領英經濟圖譜,企業資訊領域的天眼查企業圖譜等。

【轉】知識圖譜建構全過程

在知識圖譜技術發展初期,多數參與企業和科研機構主要采用自頂向下的方式建構基礎知識庫,如Freebase。随着自動知識抽取與加工技術的不斷成熟,目前的知識圖譜大多采用自底向上的方式建構,如Google的Knowledge Vault和微軟的Satori知識庫。

1、定義

俗話說:“看人先看臉。”在我們深入了解知識圖譜之前,讓我們先來看一下它長什麼樣子!

【轉】知識圖譜建構全過程

如圖所示,你可以看到,如果兩個節點之間存在關系,他們就會被一條無向邊連接配接在一起,那麼這個節點,我們就稱為實體(Entity),它們之間的這條邊,我們就稱為關系(Relationship)。

知識圖譜的基本機關,便是“實體(Entity)-關系(Relationship)-實體(Entity)”構成的三元組,這也是知識圖譜的核心。

2、資料類型和存儲方式

知識圖譜的原始資料類型一般來說有三類(也是網際網路上的三類原始資料):

結構化資料(Structed Data),如關系資料庫

非結構化資料,如圖檔、音頻、視訊

半結構化資料 如XML、JSON、百科

【轉】知識圖譜建構全過程

如何存儲上面這三類資料類型呢?一般有兩種選擇,一個是通過RDF(資源描述架構)這樣的規範存儲格式來進行存儲,比較常用的有Jena等。

【轉】知識圖譜建構全過程

還有一種方法,就是使用圖資料庫來進行存儲,常用的有Neo4j等。

【轉】知識圖譜建構全過程

那你可能會問我了,你不就是一大堆的三元組嗎,用關系資料庫來存儲不也一樣嘛。

是的,用關系資料庫來存儲,尤其是存儲簡單的知識圖譜,從技術上來說是完全沒問題的。

但需要注意的是,一旦知識圖譜變複雜,圖資料庫在關聯查詢的效率上會比傳統的關系資料存儲方式有顯著的提高。當我們涉及到2,3度的關聯查詢,基于知識圖譜的查詢效率會高出幾千倍甚至幾百萬倍。

除此之外,基于圖的存儲在設計上會非常靈活,一般隻需要局部的改動即可。

是以如果你的資料量較大,還是建議直接用圖資料庫來進行存儲的。

3、知識圖譜的架構

知識圖譜的架構主要可以被分為:

邏輯架構

技術架構

3.1 邏輯架構

在邏輯上,我們通常将知識圖譜劃分為兩個層次:資料層和模式層。

模式層:在資料層之上,是知識圖譜的核心,存儲經過提煉的知識,通常通過本體庫來管理這一層這一層(本體庫可以了解為面向對象裡的“類”這樣一個概念,本體庫就儲存着知識圖譜的類)。

資料層:存儲真實的資料。

如果還是有點模糊,可以看看這個例子:

模式層:實體-關系-實體,實體-屬性-性值

資料層:比爾蓋茨-妻子-梅琳達·蓋茨,比爾蓋茨-總裁-微軟

3.2 技術架構

知識圖譜的整體架構如圖所示,其中虛線框内的部分為知識圖譜的建構過程,同時也是知識圖譜更新的過程。

【轉】知識圖譜建構全過程

别緊張,讓我們順着這張圖來理一下思路。首先我們有一大堆的資料,這些資料可能是結構化的、非結構化的以及半結構化的,然後我們基于這些資料來建構知識圖譜,這一步主要是通過一系列自動化或半自動化的技術手段,來從原始資料中提取出知識要素,即一堆實體關系,并将其存入我們的知識庫的模式層和資料層。

建構知識圖譜是一個疊代更新的過程,根據知識擷取的邏輯,每一輪疊代包含三個階段:

資訊抽取:從各種類型的資料源中提取出實體、屬性以及實體間的互相關系,在此基礎上形成本體化的知識表達;

知識融合:在獲得新知識之後,需要對其進行整合,以消除沖突和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等;

知識加工:對于經過融合的新知識,需要經過品質評估之後(部分需要人工參與甄别),才能将合格的部分加入到知識庫中,以確定知識庫的品質。

4、建構技術

前面我們已經說過了,知識圖譜有自頂向下和自底向上兩種建構方式,這裡提到的建構技術主要是自底向上的建構技術。

如前所述,建構知識圖譜是一個疊代更新的過程,根據知識擷取的邏輯,每一輪疊代包含三個階段:

資訊抽取:從各種類型的資料源中提取出實體、屬性以及實體間的互相關系,在此基礎上形成本體化的知識表達;
知識融合:在獲得新知識之後,需要對其進行整合,以消除沖突和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等;
知識加工:對于經過融合的新知識,需要經過品質評估之後(部分需要人工參與甄别),才能将合格的部分加入到知識庫中,以確定知識庫的品質,見下圖
【轉】知識圖譜建構全過程

下面我們依次來對每一個步驟進行介紹。(長文預警)

4.1 資訊抽取

資訊抽取(infromation extraction)是知識圖譜建構的第1步,其中的關鍵問題是:如何從異構資料源中自動抽取資訊得到候選訓示單元?

資訊抽取是一種自動化地從半結構化和無結構資料中抽取實體、關系以及實體屬性等結構化資訊的技術。

涉及的關鍵技術包括:實體抽取、關系抽取和屬性抽取。

★ 4.1.1 實體抽取

實體抽取,也稱為命名實體識别(named entity recognition,NER),是指從文本資料集中自動識别出命名實體。

比如在下圖中,通過實體抽取我們可以從其中抽取出三個實體——“Steve Balmer”, “Bill Gates”,和”Microsoft”。

【轉】知識圖譜建構全過程

實體抽取的研究曆史主要是從面向單一領域進行實體抽取,逐漸跨步到面向開放域(open domain)的實體抽取。

★ 4.1.2 關系抽取

文本語料經過實體抽取之後,得到的是一系列離散的命名實體,為了得到語義資訊,還需要從相關語料中提取出實體之間的關聯關系,通過關系将實體聯系起來,才能夠形成網狀的知識結構。這就是關系抽取需要做的事,如下圖所示。

【轉】知識圖譜建構全過程

研究曆史:

人工構造文法和語義規則(模式比對)

統計機器學習方法

基于特征向量或核函數的有監督學習方法

研究重點轉向半監督和無監督

開始研究面向開放域的資訊抽取方法

将面向開放域的資訊抽取方法和面向封閉領域的傳統方法結合

★ 4.1.3 屬性抽取

屬性抽取的目标是從不同資訊源中采集特定實體的屬性資訊,如針對某個公衆人物,可以從網絡公開資訊中得到其昵稱、生日、國籍、教育背景等資訊。

研究曆史:

将實體的屬性視作實體與屬性值之間的一種名詞性關系,将屬性抽取任務轉化為關系抽取任務。

基于規則和啟發式算法,抽取結構化資料

基于百科類網站的半結構化資料,通過自動抽取生成訓練語料,用于訓練實體屬性标注模型,然後将其應用于對非結構化資料的實體屬性抽取。

采用資料挖掘的方法直接從文本中挖掘實體屬性和屬性值之間的關系模式,據此實作對屬性名和屬性值在文本中的定位。

4.2 知識融合

通過資訊抽取,我們就從原始的非結構化和半結構化資料中擷取到了實體、關系以及實體的屬性資訊。

如果我們将接下來的過程比喻成拼圖的話,那麼這些資訊就是拼圖碎片,散亂無章,甚至還有從其他拼圖裡跑來的碎片、本身就是用來幹擾我們拼圖的錯誤碎片。

也就是說:

拼圖碎片(資訊)之間的關系是扁平化的,缺乏層次性和邏輯性;

拼圖(知識)中還存在大量冗雜和錯誤的拼圖碎片(資訊)

那麼如何解決這一問題,就是在知識融合這一步裡我們需要做的了。

知識融合包括2部分内容:

實體連結

知識合并

★ 4.2.1 實體連結

實體連結(entity linking)是指對于從文本中抽取得到的實體對象,将其連結到知識庫中對應的正确實體對象的操作。

其基本思想是首先根據給定的實體指稱項,從知識庫中選出一組候選實體對象,然後通過相似度計算将指稱項連結到正确的實體對象。

研究曆史:

僅關注如何将從文本中抽取到的實體連結到知識庫中,忽視了位于同一文檔的實體間存在的語義聯系。

開始關注利用實體的共現關系,同時将多個實體連結到知識庫中。即內建實體連結(collective entity linking)

實體連結的流程:

從文本中通過實體抽取得到實體指稱項;

進行實體消歧和共指消解,判斷知識庫中的同名實體與之是否代表不同的含義以及知識庫中是否存在其他命名實體與之表示相同的含義;

在确認知識庫中對應的正确實體對象之後,将該實體指稱項連結到知識庫中對應實體。

實體消歧是專門用于解決同名實體産生歧義問題的技術,通過實體消歧,就可以根據目前的語境,準确建立實體連結,實體消歧主要采用聚類法。其實也可以看做基于上下文的分類問題,類似于詞性消歧和詞義消歧。

共指消解技術主要用于解決多個指稱對應同一實體對象的問題。在一次會話中,多個指稱可能指向的是同一實體對象。利用共指消解技術,可以将這些指稱項關聯(合并)到正确的實體對象,由于該問題在資訊檢索和自然語言處理等領域具有特殊的重要性,吸引了大量的研究努力。共指消解還有一些其他的名字,比如對象對齊、實體比對和實體同義。

★ 4.2.2 知識合并

在前面的實體連結中,我們已經将實體連結到知識庫中對應的正确實體對象那裡去了,但需要注意的是,實體連結連結的是我們從半結構化資料和非結構化資料那裡通過資訊抽取提取出來的資料。

那麼除了半結構化資料和非結構化資料以外,我們還有個更友善的資料來源——結構化資料,如外部知識庫和關系資料庫。

對于這部分結構化資料的處理,就是我們知識合并的内容啦。一般來說知識合并主要分為兩種:

合并外部知識庫,主要處理資料層和模式層的沖突

合并關系資料庫,有RDB2RDF等方法

4.3 知識加工

經過剛才那一系列步驟,我們終于走到了知識加工這一步了!

感覺大家可能已經有點暈眩,那麼讓我們再來看一下知識圖譜的這張架構圖。

【轉】知識圖譜建構全過程

在前面,我們已經通過資訊抽取,從原始語料中提取出了實體、關系與屬性等知識要素,并且經過知識融合,消除實體指稱項與實體對象之間的歧義,得到一系列基本的事實表達。

然而事實本身并不等于知識。要想最終獲得結構化,網絡化的知識體系,還需要經曆知識加工的過程。

知識加工主要包括3方面内容:本體建構、知識推理和品質評估。

★ 4.3.1 本體建構

本體(ontology)是指勞工的概念集合、概念架構,如“人”、“事”、“物”等。

本體可以采用人工編輯的方式手動建構(借助本體編輯軟體),也可以以資料驅動的自動化方式建構本體。因為人工方式工作量巨大,且很難找到符合要求的專家,是以目前主流的全局本體庫産品,都是從一些面向特定領域的現有本體庫出發,采用自動建構技術逐漸擴充得到的。

自動化本體建構過程包含三個階段:

實體并列關系相似度計算

實體上下位關系抽取

本體的生成
           

比如對下面這個例子,當知識圖譜剛得到“阿裡巴巴”、“騰訊”、“手機”這三個實體的時候,可能會認為它們三個之間并沒有什麼差别,但當它去計算三個實體之間的相似度後,就會發現,阿裡巴巴和騰訊之間可能更相似,和手機差别更大一些。

這就是第一步的作用,但這樣下來,知識圖譜實際上還是沒有一個上下層的概念,它還是不知道,阿裡巴巴和手機,根本就不隸屬于一個類型,無法比較。是以我們在實體上下位關系抽取這一步,就需要去完成這樣的工作,進而生成第三步的本體。

當三步結束後,這個知識圖譜可能就會明白,“阿裡巴巴和騰訊,其實都是公司這樣一個實體下的細分實體。它們和手機并不是一類。”

【轉】知識圖譜建構全過程

★ 4.3.2 知識推理

在我們完成了本體建構這一步之後,一個知識圖譜的雛形便已經搭建好了。但可能在這個時候,知識圖譜之間大多數關系都是殘缺的,缺失值非常嚴重,那麼這個時候,我們就可以使用知識推理技術,去完成進一步的知識發現。

比如在下面這個例子裡:

【轉】知識圖譜建構全過程

我們可以發現:如果A是B的配偶,B是C的主席,C坐落于D,那麼我們就可以認為,A生活在D這個城市。

根據這一條規則,我們可以去挖掘一下在圖裡,是不是還有其他的path滿足這個條件,那麼我們就可以将AD兩個關聯起來。除此之外,我們還可以去思考,串聯裡有一環是B是C的主席,那麼B是C的CEO、B是C的COO,是不是也可以作為這個推理政策的一環呢?

當然知識推理的對象也并不局限于實體間的關系,也可以是實體的屬性值,本體的概念層次關系等。

比如:

推理屬性值:已知某實體的生日屬性,可以通過推理得到該實體的年齡屬性;

推理概念:已知(老虎,科,貓科)和(貓科,目,食肉目)可以推出(老虎,目,食肉目)

這一塊的算法主要可以分為3大類,基于邏輯的推理、基于圖的推理和基于深度學習的推理。

【轉】知識圖譜建構全過程

★ 4.3.3 品質評估

品質評估也是知識庫建構技術的重要組成部分,這一部分存在的意義在于:可以對知識的可信度進行量化,通過舍棄置信度較低的知識來保障知識庫的品質。

好啦,在品質評估之後,你是不是想說,媽耶知識圖譜終于建構完畢了。終于可以松一口氣了。

好吧,實不相瞞,知識圖譜這個寶寶目前雖然我們建構成功了。

但是!你家寶寶不吃飯的啊!你家寶寶不學習的啊!

是以,讓我們冷靜一下,乖乖進入知識更新這一步……

4.4 知識更新

從邏輯上看,知識庫的更新包括概念層的更新和資料層的更新。

概念層的更新是指新增資料後獲得了新的概念,需要自動将新的概念添加到知識庫的概念層中。

資料層的更新主要是新增或更新實體、關系、屬性值,對資料層進行更新需要考慮資料源的可靠性、資料的一緻性(是否存在沖突或冗雜等問題)等可靠資料源,并選擇在各資料源中出現頻率高的事實和屬性加入知識庫。

知識圖譜的内容更新有兩種方式:

全面更新:指以更新後的全部資料為輸入,從零開始建構知識圖譜。這種方法比較簡單,但資源消耗大,而且需要耗費大量人力資源進行系統維護;

增量更新:以目前新增資料為輸入,向現有知識圖譜中添加新增知識。這種方式資源消耗小,但目前仍需要大量人工幹預(定義規則等),是以實施起來十分困難。

5、知識圖譜的應用

好了!終于終于!知識圖譜的建構方式我們就此結束了!

為了讓大家不立刻棄療,讓我們來看看知識圖譜能做到什麼,以及目前已經做到了什麼~

智能搜尋——也是知識圖譜最成熟的一個場景,自動給出搜尋結果和相關人物

建構人物關系圖,檢視更多元度的資料

反欺詐:這主要有兩部分原因,一個是反欺詐的資料來源多樣,結構化和非結構化,二是不少欺詐案件會涉及到複雜的關系網絡

不一緻性驗證(類似交叉驗證)——關系推理

異常分析(運算量大,一般離線)

靜态分析:給定一個圖形結構和某個時間點,從中去發現一些異常點(比如有異常的子圖)。

動态分析:分析其結構随時間變化的趨勢。(假設短時間内知識圖譜結構的變化不會太大,如果它的變化很大,就說明可能存在異常,需要進一步的關注。會涉及到時序分析技術和圖相似性計算技術。)

失聯客戶管理 挖掘出更多的新聯系人,提高催收的成功率。

……

事實上,知識圖譜的應用遠不止于此。在我看來,這個世界就是一張巨大的知識圖譜,是無數個實體關系對,這兩年工業界對圖資料庫、知識圖譜的巨大需求也同樣反映出了這一點。

繼續閱讀