本文參考了Mayank Kejriwal的新著《Domain-Specific Knowledge Graph Construction》(2019年)
寫在前面
這一篇文章是《什麼是知識圖譜(Knowledge Graph)(上)》的後續,主要介紹了幾個KG應用的例子。有一些概念在上一篇文章裡介紹過,如果對這一篇裡的一些定義有疑問,請先閱讀上一篇哦。
執行個體1:學術領域
我們第一個要講的 domain-specific KG是學術出版(academic publication)領域(如下圖)。中間兩個紅色邊框的節點代表了不同的學術刊物,它們的名字就是刊物的标題。刊物的其他資訊(如作者,發行時間,會議)也在圖上表示了出來。矩形通常用于表示屬性(literals),橢圓通常用于表示資源(resources)或實體(entities)。
這樣的表示除了簡單易懂之外,還有一個重要的原因就是它有一些自帶的含義。橢圓節點通常表示的是國際化資源辨別符(Internationalized Resource Identifiers,簡稱IRI),它是統一資源辨別符(Uniform Resource Identifier,簡稱URI)的通用形式。
實體和實體之間可以有關系(如作者和刊物之間),實體和屬性之間也可以有關系(如刊物和發行時間之間)。但是在一個三元組(h, r, t)當中,t可以是屬性或者實體,但是h隻能是實體。
執行個體2:産品和公司
我們再來看看電商領域中實體和屬性的差別(參考下圖)。這張圖畫了同一個商品的兩種不同表示方法(紅框橢圓),通常我們需要找到實際上相同的實體,如圖中的“iPhone XS Mas 512 GB”和“iPhone”,這個過程就是entity resolution。
在建立KG的基礎結構時都有極高的自由度,比如同樣一種商品可以用兩種完全不同的方法來模組化,但是模組化的方式可能會同時對上遊任務和下遊任務産生影響。(上遊任務是指KG生成之前的任務,比如資訊提取(information extraction),下遊任務是KG被抽取和被儲存之後的任務,比如entity resolution和entity querying。)例如,我們沒有進行entity resolution的話,就不能直接計算合集(aggregation),比如計算産品的實際總個數。
由于我們經常會碰到從各種各樣的資源裡抽取到同樣一個實體的情況,是以我們必須對其進行entity resolution。在以後的文章中我們會詳細講entity resolution。
執行個體3:地緣政治事件
這是一個複雜而前沿的例子。這裡不加贅述地緣政治是什麼,如果感興趣可以自己搜一搜,這裡主要講用KG表示事件。
除了在前面例子中講到的實體和屬性等内容之外,KG的圖還可以用二階(second-order)實體來表示,事件就是典型的二階實體。一個事件中的地點(location)和時間(time)是一階(first-order)實體,而這些一階實體還具有描述它們的屬性,加起來就形成了二階實體(如下圖的虛線橢圓部分)。事件還可以直接擁有屬性(如下圖的:description),這個時候就類似于一階實體。
小結
KG最近成了一種非常火的資料表現的方法,知識探索(knowledge discovery)、資料挖掘(data mining)、語義網絡(Semantic Web)和自然語言處理(Natural Language Processing)等領域都在探索KG及其應用。
直到現在也沒有一篇總結性論文(survey)來定義KG,它的範圍非常廣泛。通常,我們可以把研究方向分為“沒有特定研究某個領域的KG”和“特定于某個領域(domain-specific)的KG”。
由于越來越多的證據證明了沒有适用于所有領域的KG通用模型,而且特定于某個領域的KG能夠表現出色,這本書主要讨論特定于某個領域的KG。
KG雖然在繼續發展,但是新的趨勢都是建立在過去幾十年的基礎之上的。而就在寫作這本書的時候,以KG為核心的應用,還在不斷湧現。
到這裡《什麼是知識圖譜(Knowledge Graph)(上、下)》就全部結束了
下一篇是《資訊抽取(Information Extraction)是什麼》,裡面簡單介紹了前文提到的資訊抽取。
本人也在邊總結這本書邊學習知識圖譜,如果有錯誤還請指正^_^
這一系列文章主要是提取一些最最最關鍵内容,想仔細閱讀的朋友們還請移步原書喲~
(last but not least:轉載請注明出處)