用義原來改進單詞表示學習
Yilin Niu1∗, Ruobing Xie1∗, Zhiyuan Liu1,2 †, Maosong Sun1,2
Abstract
單詞義素資訊可以改善單詞表示學習(WRL),它将單詞映射到低維語義空間,并作為許多NLP任務的基本步驟。
Related Work
Word Representation
Word Sense Disambiguation and Representation Learning
詞義消歧與表征學習
WSD
詞義消歧(WSD)的目的是在一定的上下文中通過計算來識别詞義或意義。
Methodology
架構 Sememe-Encoded WRL(SE-WRL) that considers sememe information for word sense disambiguation and representation learning.
Sememes, Senses and Words in HowNet
知網為每個詞标注了精确的詞義,對每個詞義,知網标注了語義所代表的部分和屬性的意義。
X===> sememe
S===>Sense
W===>Word
w 屬于W,有可能會有多個語義,多個語義Si(w),
S(w)代表w語義的集合
每個語義包含幾個semes xj(si)
對于連續純文字中的每個目标單詞w, C(w)表示其上下文單詞集。
Conventional Skip-gram Model
SE-WRL Model
SSA 簡單義原聚合模型
SAC 對上下文的義原注意模型
SAT 對目标得義原注意模型
Simple Sememe Aggregation Model(SSA)
改單詞得所有意思的所有義原都考慮在一起,之後将所有義原嵌入的平均值來表達目标單詞
該模型簡單地遵循了一個假設,即單詞的語義是由語義機關,即義素組成的。與傳統的Skip-gram模型相比,由于多個單詞共享義素,該模型可以利用義素資訊對單詞之間潛在的語義相關性進行編碼。在這種情況下,具有相同義素的相似詞可能最終獲得相似的表示。
Sememe Attention over Context Model (SAC)
SSA每個單詞在不同的上下文中仍然隻有一個單一的表示,這無法處理大多數單詞的一詞多義,我們可以直覺地根據特定地上下文對目标詞建構不同的嵌入。
目标單詞 w 用原始的單詞embedding來表示
我們用義原embedding來表示每個單詞的word embedding 而不是原始的上下文word embeddings.
假設
義原*他發出的每個attn 之後加和,每個義原
exp 經驗值
注意力怎麼算呢
就是w*我的這個義原經驗值,之後除以我所有的,占比
之後我們用平均
Sememe Attention over Target Model(SAT)
w 就是我上述的wc
請注意,由于在實驗中我們發現目标詞的意義選擇隻依賴于更有限的上下文詞來計算注意力,是以我們選擇了一個較小的K0相對于K。
回想一下,SAC隻使用一個目标詞作為注意來選擇上下文詞的詞義,而SA T使用幾個上下文詞一起作為注意來選擇合适的目标詞的詞義。
是以,SA T有望進行更可靠的WSD和更準确的詞表示,這将在實驗中進行探索。
Experiments
Dataset
Sogou-T
搜狗- t由中國商業搜尋引擎提供,總字數為27億。
Experimental Settings
SSA SAC SAT Skip-gram CBOW GLoVe MST
7哥模型
Word Similarity
Evaluation Protocol
Word Analoy
Conclusion and Future Work
在本文中,我們提出了一種新的方法來模組化義素資訊,以學習更好的單詞表示。具體來說,我們利用義位資訊來表示每個詞的各種義,并提出義位注意來自動選擇語境中合适的義。我們在單詞相似度和單詞類比上評估了我們的模型,結果顯示了我們的SememeEncoded WRL模型的優勢。我們還對WSD和WRL中的幾個案例進行了分析,結果表明我們的模型能夠在義位注意的幫助下選擇合适的詞義
關系,在我們的架構中沒有考慮到。我們将探讨如何利用這些注釋來實作更好的WRL。(2)我們認為義素的概念是普遍的,可以在語言之外很好地發揮作用。我們将探讨義位資訊在其他語言WRL中的有效性。