天天看點

【知識圖譜】語義網絡,語義網,連結資料和知識圖譜

語義網絡

對于初學者來講,這個概念很容易和語義網(Semantic Web)相混淆。為了行文一緻,除非特别說明,語義網絡指Semantic Network,語義網指Semantic Web。

語義網絡是由Quillian于上世紀60年代提出的知識表達模式,其用互相連接配接的節點和邊來表示知識。節點表示對象、概念,邊表示節點之間的關系。

【知識圖譜】語義網絡,語義網,連結資料和知識圖譜

語義網絡的優點:

1. 容易了解和展示。

2. 相關概念容易聚類。

語義網絡的缺點:

1. 節點和邊的值沒有标準,完全是由使用者自己定義。

2. 多源資料融合比較困難,因為沒有标準。

3. 無法區分概念節點和對象節點。

4. 無法對節點和邊的标簽(label,我了解是schema層,後面會介紹)進行定義。

簡而言之,語義網絡可以比較容易地讓我們了解語義和語義關系。其表達形式簡單直白,符合自然。然而,由于缺少标準,其比較難應用于實踐。看過上一篇文章的讀者可能已經發現,RDF的提出解決了語義網絡的缺點1和缺點2,在節點和邊的取值上做了限制,制定了統一标準,為多源資料的融合提供了便利。另外,RDF對is-a關系進行了定義,即,rdf:type(是rdf标準中的一個詞彙,之後的文章會介紹)。是以,不管在哪個語義網絡中,表達is-a關系,我們都用rdf:type,在文法上形成了統一。

語義網(Semantic Web)和連結資料(Linked Data)

語義網和連結資料是網際網路之父Tim Berners Lee分别在1998年和2006提出的。相對于語義網絡,語義網和連結資料傾向于描述網際網路中資源、資料之間的關系。其實,本質上,語義網、連結資料還有Web 3.0都是同一個概念,隻是在不同的時間節點和環境中,它們各自描述的角度不同。它們都是指W3C制定的用于描述和關聯網際網路資料的一系列技術标準,即,語義網技術棧。

語義網是一個更官方的名稱,也是該領域學者使用得最多的一個術語,同時,也用于指代其相關的技術标準。在網際網路誕生之初,網絡上的内容隻是人類可讀,而計算機無法了解和處理。比如,我們浏覽一個網頁,我們能夠輕松了解網頁上面的内容,而計算機隻知道這是一個網頁。網頁裡面有圖檔,有連結,但是計算機并不知道圖檔是關于什麼的,也不清楚連結指向的頁面和目前頁面有何關系。語義網正是為了使得網絡上的資料變得機器可讀而提出的一個通用架構。“Semantic”就是用更豐富的方式來表達資料背後的含義,讓機器能夠了解資料。“Web”則是希望這些資料互相連結,組成一個龐大的資訊網絡,正如網際網路中互相連結的網頁,隻不過基本機關變為粒度更小的資料,如下圖:

【知識圖譜】語義網絡,語義網,連結資料和知識圖譜

知識圖譜

上一篇文章中,我們用平實的語言給出了知識圖譜的定義群組織形式。用更正式的說法,知識圖譜是由本體(Ontology)作為Schema層,和RDF資料模型相容的結構化資料集。本體本身是個哲學名詞,AI研究人員于上個世紀70年代引入計算機領域。Tom Gruber把本體定義為“概念和關系的形式化描述”,分别指實體的類層次和關系層次。我們以上篇文章羅納爾多知識圖為例,我們用IRI唯一标志的節點都是某個類的一個執行個體,每一條邊都表示一個關系。羅納爾多是一個人,裡約熱内盧是一個地點,我們用RDF來表示就是:

www.kg.com/person/1 rdf:type kg:Person.

www.kg.com/place/10086 rdf:type kg:Place.

關系我們也稱為屬性(Property),根據是實體和實體之間的關系還是實體和資料值之間的關系分為對象屬性(Object Property)和資料屬性(Data Property)。在圖中,羅納爾多和裡約熱内盧的關系(本例中是對象屬性)與羅納爾多和全名的關系(本例中是資料屬性)用RDF就可以表示為:

www.kg.com/person/1 kg:hasBirthPlace  www.kg.com/place/10086

www.kg.com/person/1 kg:fullName "Ronaldo Luís Nazário de Lima"^^xsd:string

這裡kg:Person,kg:Place,kg:hasBirthPlace,kg:fullName是我們在Ontology中定義好的類和關系。

連結資料和知識圖譜最大的差別在于:

1. 正如上面Open Linked Data Project所展示的,每一個圓圈代表一個獨立存在和維護的知識圖譜;連結資料更強調不同RDF資料集(知識圖譜)的互相連結。

2. 知識圖譜不一定要連結到外部的知識圖譜(和企業内部資料通常也不會公開一個道理),更強調有一個本體層來定義實體的類型和實體之間的關系。另外,知識圖譜資料品質要求比較高且容易通路,能夠提供面向終端使用者的資訊服務(查詢、問答等等)。

四、總結

本文介紹了和知識圖譜相關的幾個早期概念,以及他們之間的異同。在下一篇文章當中,我們将會介紹語義網技術棧中比較基礎和重要的技術标準:RDF,RDFS和OWL。另外,會結合實踐,讓讀者學會用protege自頂向下地建構自己的本體結構。

繼續閱讀