内容速覽
- 什麼是知識庫(knowledge base, KB)
- 什麼是知識庫問答(knowledge base question answering, KB-QA)
- 知識庫問答的主流方法
- 知識庫問答的資料集
什麼是知識庫
“奧巴馬出生在火奴魯魯。”
“姚明是中國人。”
“謝霆鋒的爸爸是謝賢。”
這些就是一條條知識,而把大量的知識彙聚起來就成為了知識庫。我們可以在wiki百科,百度百科等百科全書查閱到大量的知識。然而,這些百科全書的知識組建形式是非結構化的自然語言,這樣的組織方式很适合人們閱讀但并不适合計算機去處理。為了友善計算機的處理和了解,我們需要更加形式化、簡潔化的方式去表示知識,那就是三元組(triple)。
“奧巴馬出生在火奴魯魯。” 可以用三元組表示為 (BarackObama, PlaceOfBirth, Honolulu)。
這裡我們可以簡單的把三元組了解為 (實體entity,實體關系relation,實體entity),進一步的,如果我們把實體看作是結點,把實體關系(包括屬性,類别等等)看作是一條邊,那麼包含了大量三元組的知識庫就成為了一個龐大的知識圖。
知識庫可以分為兩種類型,一種是以Freebase,Yago2為代表的Curated KBs,它們從維基百科和WordNet等知識庫中抽取大量的實體及實體關系,可以把它們了解為是一種結構化的維基百科,被google收購的Freebase中包含了上千萬個實體,共計19億條triple。
值得一提的是,有時候會把一些實體稱為topic,如Justin Bieber。實體關系也可分為兩種,一種是屬性property,一種是關系relation。如下圖所示,屬性和關系的最大差別在于,屬性所在的三元組對應的兩個實體,常常是一個topic和一個字元串,如屬性Type/Gender,對應的三元組(Justin Bieber, Type, Person),而關系所在的三元組所對應的兩個實體,常常是兩個topic。如關系Place_of_Brith,對應的三元組(Justin Bieber, Place_of_brith,London)。
(圖中藍色方塊表示topic,橙色橢圓包括屬性值,它們都屬于知識庫的實體,藍色直線表示關系,橙色直線表示屬性,它們都統稱為知識庫的實體關系,都可以用三元組刻畫實體關系和實體)
但是,像維基百科這樣的知識庫,與整個網際網路相比,仍隻能算滄海一粟。知識庫的另外一種類型,則是以Open Information Extraction (Open IE), Never-Ending Language Learning (NELL) 為代表的Extracted KBs,它們直接從上億個網頁中抽取實體關系三元組。與Freebase相比,這樣得到的知識更加具有多樣性,而它們的實體關系和實體更多的則是自然語言的形式,如“奧巴馬出生在火奴魯魯。” 可以被表示為(“Obama”, “was also born in”, “ Honolulu”),當然,直接從網頁中抽取出來的知識,也會存在一定的noisy,其精确度要低于Curated KBs。
Extracted KBs 知識庫涉及到的兩大關鍵技術是
- 實體鍊指(Entity linking) ,即将文檔中的實體名字連結到知識庫中特定的實體上。它主要涉及自然語言處理領域的兩個經典問題實體識别 (Entity Recognition) 與實體消歧 (Entity Disambiguation),簡單地來說,就是要從文檔中識别出人名、地名、機構名、電影等命名實體。并且,在不同環境下同一實體名稱可能存在歧義,如蘋果,我們需要根據上下文環境進行消歧。
- 關系抽取 (Relation extraction),即将文檔中的實體關系抽取出來,主要涉及到的技術有詞性标注 (Part-of-Speech tagging, POS),文法分析,依存關系樹 (dependency tree) 以及建構SVM、最大熵模型等分類器進行關系分類等。
什麼是知識庫問答
知識庫問答(knowledge base question answering,KB-QA)即給定自然語言問題,通過對問題進行語義了解和解析,進而利用知識庫進行查詢、推理得出答案。如下圖所示
與對話系統、對話機器人的互動式對話不同,KB-QA具有以下特點:
- 答案:回答的答案是知識庫中的實體或實體關系,或者no-answer(即該問題在KB中找不到答案),當然這裡答案不一定唯一,比如 中國的城市有哪些 。而對話系統則回複的是自然語言句子,有時甚至需要考慮上下文語境。
- 評價标準:回召率 (Recall),精确率 (Precision) ,F1-Score。而對話系統的評價标準以人工評價為主,以及BLEU和Perplexity。
當我們在百度詢問 2016年奧斯卡最佳男主角 時,百度會根據知識庫進行查詢和推理,傳回答案,這其實就是KB-QA的一個應用。
關于KB-QA的方法,個人認為,傳統的主流方法可以分為三類:
- 語義解析(Semantic Parsing):該方法是一種偏linguistic的方法,主體思想是将自然語言轉化為一系列形式化的邏輯形式(logic form),通過對邏輯形式進行自底向上的解析,得到一種可以表達整個問題語義的邏輯形式,通過相應的查詢語句(類似lambda-Caculus)在知識庫中進行查詢,進而得出答案。下圖紅色部分即邏輯形式,綠色部分where was Obama born 為自然語言問題,藍色部分為語義解析進行的相關操作,而形成的語義解析樹的根節點則是最終的語義解析結果,可以通過查詢語句直接在知識庫中查詢最終答案。
這裡給出語義解析方法的一些代表論文
Berant J, Chou A, Frostig R, et al. Semantic Parsing on Freebase from Question-Answer Pairs[C]//EMNLP. 2013, 2(5): 6.
Cai Q, Yates A. Large-scale Semantic Parsing via Schema Matching and Lexicon Extension[C]//ACL (1). 2013: 423-433.
Kwiatkowski T, Choi E, Artzi Y, et al. Scaling semantic parsers with on-the-fly ontology matching[C]//In Proceedings of EMNLP. Percy. 2013.
Fader A, Zettlemoyer L, Etzioni O. Open question answering over curated and extracted knowledge bases[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014: 1156-1165.
- 資訊抽取(Information Extraction):該類方法通過提取問題中的實體,通過在知識庫中查詢該實體可以得到以該實體節點為中心的知識庫子圖,子圖中的每一個節點或邊都可以作為候選答案,通過觀察問題依據某些規則或模闆進行資訊抽取,得到問題特征向量,建立分類器通過輸入問題特征向量對候選答案進行篩選,進而得出最終答案。資訊抽取的代表論文Yao X, Van Durme B. Information Extraction over Structured Data: Question Answering with Freebase[C]//ACL (1). 2014: 956-966.
- 向量模組化(Vector Modeling): 該方法思想和資訊抽取的思想比較接近,根據問題得出候選答案,把問題和候選答案都映射為分布式表達(Distributed Embedding),通過訓練資料對該分布式表達進行訓練,使得問題和正确答案的向量表達的得分(通常以點乘為形式)盡量高,如下圖所示。模型訓練完成後則可根據候選答案的向量表達和問題表達的得分進行篩選,得出最終答案。
向量模組化方法的代表論文
Bordes A, Chopra S, Weston J. Question answering with subgraph embeddings[J]. arXiv preprint arXiv:1406.3676, 2014.
Yang M C, Duan N, Zhou M, et al. Joint Relational Embeddings for Knowledge-based Question Answering[C]//EMNLP. 2014, 14: 645-650.
Bordes A, Weston J, Usunier N. Open question answering with weakly supervised embedding models[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer Berlin Heidelberg, 2014: 165-180.
細心的朋友已經發現了,以上三種方法的代表論文都集中在13-14年。那麼14年之後KB-QA的主流方法是什麼呢?
随着深度學習(Deep Learning)在自然語言處理領域的飛速發展,從15年開始,開始湧現出一系列基于深度學習的KB-QA文章,通過深度學習對傳統的方法進行提升,取得了較好的效果,比如:
使用卷積神經網絡對向量模組化方法進行提升:
Dong L, Wei F, Zhou M, et al. Question Answering over Freebase with Multi-Column Convolutional Neural Networks[C]//ACL (1). 2015: 260-269.
使用卷積神經網絡對語義解析方法進行提升:
Yih S W, Chang M W, He X, et al. Semantic parsing via staged query graph generation: Question answering with knowledge base[J]. 2015.
(注 該paper來自微軟,是ACL 2015年的Outstanding paper,也是目前KB-QA效果最好的paper之一)
使用長短時記憶網絡(Long Short-Term Memory,LSTM),卷積神經網絡(Convolutional Neural Networks,CNNs)進行實體關系分類:
Xu Y, Mou L, Li G, et al. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths[C]//EMNLP. 2015: 1785-1794.
Zeng D, Liu K, Lai S, et al. Relation Classification via Convolutional Deep Neural Network[C]//COLING. 2014: 2335-2344.(Best paper)
Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]//EMNLP. 2015: 1753-1762.
使用記憶網絡(Memory Networks),注意力機制(Attention Mechanism)進行KB-QA:
Bordes A, Usunier N, Chopra S, et al. Large-scale simple question answering with memory networks[J]. arXiv preprint arXiv:1506.02075, 2015.
Zhang Y, Liu K, He S, et al. Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Information[J]. arXiv preprint arXiv:1606.00979, 2016.
以上論文幾乎都使用了Freebase作為knowledge base,并且在WebQuestion資料集上進行過測試,這裡給出各種方法的效果對比圖,給大家一個更加直覺的感受。
最後,我們再簡單地介紹一下KB-QA問題的Benchmark資料集——WebQuestion。
該資料集由Berant J, Chou A, Frostig R, et al.在13年的論文Semantic Parsing on Freebase from Question-Answer Pairs中公開。
作者首先使用Google Suggest API擷取以wh-word(what,who,why,where,whose...)為開頭且隻包含一個實體的問題,以“where was Barack Obama born?”作為問題圖譜的起始節點,以Google Suggest API給出的建議作為新的問題,通過寬度優先搜尋擷取問題。具體來講,對于每一個隊列中的問題,通過對它删去實體,删去實體之前的短語,删去實體之後的短語形成3個新的query,将這三個新query放到google suggest中,每個query将生成5個候選問題,加入搜尋隊列,直到1M個問題被通路完。如下圖所示
擷取完問題後,随機選取100K個問題交給Amazon Mechanical Turk (AMT)的勞工,讓勞工回答答案。注意,這裡對答案進行了限制,讓AMT的勞工隻能把答案設定為Freebase上的實體(entity),實體清單,值(value)或者no-answer。
最終,得到了5,810組問題答案對,其詞彙表包含了4,525個詞。并且,WebQuestion還提供了每個答案對應知識庫的主題節點(topic node)。
可以看出WebQuestion的問題與freebase是不相關的,更加偏向自然語言,也更多樣化。這裡給出一些例子
“What is James Madison most famous for?”
“What movies does Taylor Lautner play in?”
“What music did Beethoven compose?”
“What kind of system of government does the United States have?”
除了該資料集,這裡再補充一些其他資料集的資訊,如下圖所示:
閱讀過本文的人還看了以下文章:
【全套視訊課】最全的目标檢測算法系列講解,通俗易懂!
《美團機器學習實踐》_美團算法團隊.pdf
《深度學習入門:基于Python的理論與實作》高清中文PDF+源碼
特征提取與圖像處理(第二版).pdf
python就業班學習視訊,從入門到實戰項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼
《深度學習之pytorch》pdf+附書源碼
PyTorch深度學習快速實戰入門《pytorch-handbook》
【下載下傳】豆瓣評分8.1,《機器學習實戰:基于Scikit-Learn和TensorFlow》
《Python資料分析與挖掘實戰》PDF+完整源碼
汽車行業完整知識圖譜項目實戰視訊(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統計學習方法》最新資源全套!
《神經網絡與深度學習》最新2018版中英PDF+源碼
将機器學習模型部署為REST API
FashionAI服裝屬性标簽圖像識别Top1-5方案分享
重要開源!CNN-RNN-CTC 實作手寫漢字識别
yolo3 檢測出圖像中的不規則漢字
同樣是機器學習算法工程師,你的面試為什麼過不了?
前海征信大資料算法:風險機率預測
【Keras】完整實作‘交通标志’分類、‘票據’分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實作醫學圖像識别分類工程項目
特征工程(一)
特征工程(二) :文本資料的展開、過濾和分塊
特征工程(三):特征縮放,從詞袋到 TF-IDF
特征工程(四): 類别特征
特征工程(五): PCA 降維
特征工程(六): 非線性特征提取和模型堆疊
特征工程(七):圖像特征提取和深度學習
如何利用全新的決策樹內建級聯結構gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
螞蟻金服2018秋招-算法工程師(共四面)通過
全球AI挑戰-場景分類的比賽源碼(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(列印收藏)
python+flask搭建CNN線上識别手寫中文網站
中科院Kaggle全球文本比對競賽華人第1名團隊-深度學習與特征工程
不斷更新資源
深度學習、機器學習、資料分析、python
搜尋公衆号添加: datayx