天天看點

《 短文本資料了解》——2.2屬性提取

本節書摘來自華章出版社《短文本資料了解》一書中的第2章,第2.2節,作者:王仲遠 編著,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

本節介紹基于知識的屬性提取的方法,該方法可從多資料源提取(概念,屬性)對。為(概念,屬性)對打分的方法将在23節給出。

2.2.1屬性提取的整體架構

如圖2.2所示,本章的屬性提取方法基于機率資料庫probase,并從三種資料源擷取資料。2.2.2節将介紹probase的具體資訊,該方法側重的資料類型為網站資料、搜尋資料和各種結構資料,表2.2總結了這些資料類型。網站資料包括240tb的網頁文本,搜尋資料包含6個月内搜尋頻率大于2的搜尋查詢語句,結構資料為dbpedia[1]中擷取的(實體,屬性)對。

本章涉及的屬性提取方法包含兩類:基于概念的方法和基于實體的方法。前者可直接擷取概念的屬性,而後者需先擷取同一概念内實體的屬性,然後再聚合這些實體的屬性以擷取概念的屬性。兩種屬性提取的方法都将被應用于網站資料。對于搜尋資料和結構化資料(dbpedia),隻有基于實體的屬性提取方法可用。屬性提取方法的細節将在2.2.3節給出。通過不同方法和資料源提取的屬性不完全重疊,因而可以互補。

《 短文本資料了解》——2.2屬性提取
《 短文本資料了解》——2.2屬性提取

2.2.2機率isa網絡

本章工作使用機率知識庫probase[166]來輔助屬性提取。probase旨在建立一個包含人類思維所有概念的isa關系網絡。isa關系通過赫斯特語言模式(hearst linguistic pattern)提取[69],即such as模式。例如,通過一個包含“…artists such as pablo picasso…”的句子可以獲知artist是pablo picasso的一個上位詞。

probase有兩個特點。首先,它的覆寫範圍很廣,囊括了從十億數量級的網頁中擷取的百萬級概念和實體。它不僅包含諸如“country”和“city”的廣義概念,還記錄了類似“basic watercolor technique”和“famous wedding dress designer”這樣的具體概念。因而,probase能很好地诠釋人的溝通。probase的另一個特點是它是一個機率性知識庫。它包含每對(概念,子概念)或(概念,實體)的共現次數。這些共現資訊友善于isa關系中典型度得分的計算。例如:

p(instance|concept)=n(instance,concept)∑instancen(instance,concept)

(2.3)

其中instance表示isa關系中的實體,concept表示概念。n(instance,concept)表示概念(concept)和實體(instance)的共現次數。典型度得分對短文的了解十分重要。

2.2.3基于概念和基于實體的屬性提取

本節将重點介紹基于概念和基于實體的屬性提取方法,資料來源為網站資料、搜尋資料和已有知識庫,兩種屬性提取方法的結果将被比較。本節還将介紹一種可以提高屬性提取品質的過濾方式。

1.網頁文本的屬性提取

很多資訊提取方法側重于疊代尋找符合要求的文法模式。然而,這些方法的一個不足之處在于高品質的文法模式很少,大多數模式都存在噪聲。是以,本章所采用的方法側重于如下高品質的文法模式以盡可能準确地處理文本(提高準确率),并且從大量網頁文本中擷取屬性(提高召回率):

.基于概念的屬性(簡稱cb)提取的文法模式:

. 基于實體的屬性(簡稱ib)提取的文法模式:

由于需要從大量網頁中擷取屬性,是以現有的基于詞性标注的模式挖掘方法無法使用。取而代之,本章的方法采用之前提到的模式輕量提取。據以往研究表明[6],基于“is”的提取可以産生較高品質的結果,同時不需要詞性标注。在提取過程中的另外一項挑戰是冠詞“the/a/an”的使用。對于cb模式,冠詞的使用對過濾概念自身描述必不可少(比如“the definition of wine”或“the plural form of country”)。對于ib模式,冠詞可被有選擇地使用,并且取決于實體是否為命名實體(例如microsoft為命名實體,而software company不是)。為差別這兩種情況,本章的方法将把所有以大寫字母開頭的實體當成命名實體,可以不需要冠詞。其餘情況下的實體抽取則需要依靠冠詞進行确認。

2.外部知識庫的屬性(簡稱kb)提取

屬性提取還從已存在的知識庫進行。這項工作使用基于wikipedia中結構資訊的dbpedia。dbpedia沒有基于概念的屬性,是以,基于實體的屬性提取方法被使用。根據dbpedia的實體頁(由屬性描述),一系列的(i,a)對可被擷取。然而,dbpedia不包含可推出屬性典型性的任何資訊,是以,所有的(i,a)不做區分設定:n(i,a)=1,遂可生成一系列的(i,a,n(i,a))元組。盡管n(i,a)=1,但由于同一概念内的實體含有不同屬性,我們仍可按先前方法計算概念屬性的典型度得分。

3.搜尋日志的屬性(簡稱qb)提取

aiu=aib∪akb∪aqb

(2.6)

在第二階段,搜尋日志中每對(i,a)中的i和a的共現次數n(i,a)被統計,以生成(i,a,n(i,a))元組集合。這個集合會按照先前提出的方式處理。

《 短文本資料了解》——2.2屬性提取

4.屬性分布

下面将比較cb和ib擷取的屬性的差異。圖23對比了二者在state這個概念上的屬性分布差異。舉例而言,name這個屬性在cb模式下被頻繁觀察,比如會出現“the name of a state is…”。然而人們不會在某個具體的state上提到name這個屬性,比如不會出現“the name of washington is…”。根據比較,cb和ib兩種模式的提取是互補的。

cb屬性的優點在于可以直接将屬性綁定至概念,如通過“the population of a state”,機器可以自行将population這個屬性綁定至state這個概念下。相比之下,ib模式“the population of washington”對機器識别而言則頗具挑戰性,因為washington可能屬于不同的概念,比如state或president。

然而,ib模式更容易提取高品質的屬性。例如,雖然“the population of a state”這個模式不常被觀測到,但是當把state替換為某一具體實體時,則可以收集到足夠的模式,如“the population of washington”。這表明ib模式可以通過大量統計資訊擷取高品質屬性,與cb模式互補。

5.模式提取的過濾

這一部分将介紹通過過濾來提高屬性品質的方法。首先将收集到的模式語句分成下述三類:

. c1:the ceo of microsoft is …——屬性

. c2:the rest of china has been …——修飾表達式

. c3:the university of chicago is …——包含of的名詞短語

在這三類結果中,c2和c3會産生含噪聲的結果,過濾規則将分别對這兩類模式的結果進行設計。

c2——錯誤清單過濾。為了解決c2中的問題,一個“黑名單”被人為建立。名單中包括可以綁定到任何概念的屬性,比如:

. the lack of vitamin a is...

. the rest of the country was in...

. the best of the simpsons is...

由于單詞lack、rest和best并沒有描述後面出現的概念,是以它們不能被當成概念的屬性。若不被過濾,這些噪點屬性将會錯誤地給出較大的p(a|c)。

為了過濾掉這些噪點屬性,我們需要确定那些在很多并不相近的概念中都被觀察到的屬性。為此,49個不相近的概念被人為選取。對于一個屬性,其所涉及的概念數目将被統計。表23給出了統計的排序結果。然而,這樣得到的“黑名單”中會錯誤地包含那些确實對很多概念都适用的屬性,比如name。為了進一步地将這些屬性從“黑名單”中去除,屬性的得分也将被考慮。高得分的屬性被從“黑名單”中去除。具體的屬性打分方式将在23節給出。

《 短文本資料了解》——2.2屬性提取

c3——包含of的命名實體。為了解決c3中的問題,與命名實體相關的of從句被過濾掉,比如“the university of chicago”、“the bank of china”、“the people’s republic of china”。作為過濾條件,首先被考慮的是首字母大寫的實體。然後,通過參照資料庫過濾掉of從句。例如,“the university of chicago”是probase中的一個實體,因而不應該将university當成city這個概念的屬性。這種方法可以處理不區分大小寫的文本,比如微網誌。

繼續閱讀