word2vec相似度計算_基于word2vec+TextRank算法生成文章摘要

Word2vec，是為一群用來産生詞向量的相關模型。這些模型為淺而雙層的神經網絡，用來訓練以重建立構語言學之詞文本。網絡以詞表現，并且需猜測相鄰位置的輸入詞，在word2vec中詞袋模型假設下，詞的順序是不重要的。訓練完成之後，word2vec模型可用來映射每個詞到一個向量，可用來表示詞對詞之間的關系，該向量為神經網絡之隐藏層。

TextRank是一種用來做關鍵詞提取的算法，也可以用于提取短語和自動摘要。因為TextRank是基于PageRank的，是以首先簡要介紹下PageRank算法。

1.PageRank算法

PageRank設計之初是用于Google的網頁排名的，以該公司創辦人拉裡·佩奇(Larry Page)之姓來命名。Google用它來展現網頁的相關性和重要性，在搜尋引擎優化操作中是經常被用來評估網頁優化的成效因素之一。PageRank通過網際網路中的超連結關系來确定一個網頁的排名，其公式是通過一種投票的思想來設計的：如果我們要計算網頁A的PageRank值(以下簡稱PR值)，那麼我們需要知道有哪些網頁連結到網頁A，也就是要首先得到網頁A的傳入連結，然後通過傳入連結給網頁A的投票來計算網頁A的PR值。這樣設計可以保證達到這樣一個效果：當某些高品質的網頁指向網頁A的時候，那麼網頁A的PR值會因為這些高品質的投票而變大，而網頁A被較少網頁指向或被一些PR值較低的網頁指向的時候,A的PR值也不會很大，這樣可以合理地反映一個網頁的品質水準。那麼根據以上思想，佩奇設計了下面的公式：

該公式中，Vi表示某個網頁，Vj表示連結到Vi的網頁(即Vi的傳入連結)，S(Vi)表示網頁Vi的PR值，In(Vi)表示網頁Vi的所有傳入連結的集合,Out(Vj)表示網頁，d表示阻尼系數，是用來克服這個公式中“d *”後面的部分的固有缺陷用的：如果僅僅有求和的部分，那麼該公式将無法處理沒有傳入連結的網頁的PR值，因為這時，根據該公式這些網頁的PR值為0，但實際情況卻不是這樣，所有加入了一個阻尼系數來確定每個網頁都有一個大于0的PR值，根據實驗的結果，在0.85的阻尼系數下，大約100多次疊代PR值就能收斂到一個穩定的值，而當阻尼系數接近1時，需要的疊代次數會陡然增加很多，且排序不穩定。公式中S(Vj)前面的分數指的是Vj所有對外連結指向的網頁應該平分Vj的PR值，這樣才算是把自己的票分給了自己連結到的網頁。

2.1 TextRank算法提取關鍵詞

TextRank是由PageRank改進而來，其公式有頗多相似之處，這裡給出TextRank的公式：

word2vec相似度計算_基于word2vec+TextRank算法生成文章摘要

可以看出，該公式僅僅比PageRank多了一個權重項Wji，用來表示兩個節點之間的邊連接配接有不同的重要程度。TextRank用于關鍵詞提取的算法如下：

1)把給定的文本T按照完整句子進行分割，即

2)對于每個句子

，進行分詞和詞性标注處理，并過濾掉停用詞，隻保留指定詞性的單詞，如名詞、動詞、形容詞，即

，其中 ti,j是保留後的候選關鍵詞。

3)建構候選關鍵詞圖G = (V,E)，其中V為節點集，由(2)生成的候選關鍵詞組成，然後采用共現關系(co-occurrence)構造任兩點之間的邊，兩個節點之間存在邊僅當它們對應的詞彙在長度為K的視窗中共現，K表示視窗大小，即最多共現K個單詞。

4)根據上面公式，疊代傳播各節點的權重，直至收斂。

5)對節點權重進行倒序排序，進而得到最重要的T個單詞，作為候選關鍵詞。

6)由5得到最重要的T個單詞，在原始文本中進行标記，若形成相鄰詞組，則組合成多詞關鍵詞。

2.2 TextRank算法提取關鍵詞短語

提取關鍵詞短語的方法基于關鍵詞提取，可以簡單認為：如果提取出的若幹關鍵詞在文本中相鄰，那麼構成一個被提取的關鍵短語。

2.3TextRank生成摘要

将文本中的每個句子分别看做一個節點，如果兩個句子有相似性，那麼認為這兩個句子對應的節點之間存在一條無向有權邊。考察句子相似度的方法是下面這個公式：

公式中，Si,Sj分别表示兩個句子，Wk表示句子中的詞，那麼分子部分的意思是同時出現在兩個句子中的同一個詞的個數，分母是對句子中詞的個數求對數之和。分母這樣設計可以遏制較長的句子在相似度計算上的優勢。

我們可以根據以上相似度公式循環計算任意兩個節點之間的相似度，根據門檻值去掉兩個節點之間相似度較低的邊連接配接，建構出節點連接配接圖，然後計算TextRank值，最後對所有TextRank值排序，選出TextRank值最高的幾個節點對應的句子作為摘要。

概括文章的中心思想，從國小開始就是必修課，現在人工智能可以自動實作了。

基于word2vec+TextRank算法生成文章摘要,目前可進行中文版，文本小于5000字

word2vec相似度計算_基于word2vec+TextRank算法生成文章摘要

word2vec相似度計算_基于word2vec+TextRank算法生成文章摘要

繼續閱讀

word2vec相似度計算_文本相似度的一種計算方法

word2vec相似度計算_圖解word2vec（原文翻譯）

jaccard相似度_word,sentence相似度計算，WMD&amp;WRD

word2vec相似度計算_利用機器學習探索食物配方通過Word2Vec模型進行菜單分析介紹NLP是什麼Word Embedding 字嵌入Word2Vec -一種單詞嵌入方法食物的食譜資料集訓練Word2Vec結果評估Word2Vec接下來是什麼?總結

jaccard相似度_自然語言處理之文本相似度計算

word2vec相似度計算_無監督句向量生成USIF算法來計算語義相似度

word2vec相似度計算_文本相似度計算綜述

python matchtemplate傳回值相似度_Python基于wordnet實作詞語相似度計算分析