word2vec (一) 簡介與訓練過程概要

2017-11-14 23:50:00

word2vec最初是Tomas Mikolov發表的一篇文章[1]，同時開源了相應的代碼，作用是将所有詞語投影到K維的向量空間，每個詞語都可以用一個K維向量表示。

假如語料庫裡一共有N個詞，one-hot表示即是為每個詞配置設定一個唯一的索引，并且将每個詞表示為N維的向量，在該詞索引對應的次元值為1，其餘次元均為0。如一共有三個詞：今天、天氣、真好，那麼三個詞的詞向量分别可以是[1,0,0],[0,1,0],[0,0,1]。這種簡單的表示方法已經可以解決相當一部分NLP的問題，不過仍然存在不足，即詞向量與詞向量之間都是互相獨立的，我們無法通過這種詞向量得知兩個詞在語義上是否相似，并且如果N非常大，這種高維稀疏的表示也有可能引發次元災難。為了解決上述問題，就有了詞向量的第二種表示方法。

word2vec就是通過這種方法将詞表示為向量，即通過訓練将詞表示為限定次元K的實數向量，這種非稀疏表示的向量很容易求它們之間的距離(歐式、餘弦等)，進而判斷詞與詞語義上的相似性。如K=3時，我們得到的實數向量可以是[0.5,0.22,0.7]這樣。

不過Distributed表示法并不是word2vec誕生才有的，這種方法早在1986年Hinton就提出了[2]。word2vec之是以會産生這麼大的影響，是因為它采用了簡化的模型，使得訓練速度大為提升，讓word embedding這項技術(也就是詞的distributed表示)變得較為實用。

見原文！

word2vec用的是神經網絡模型，分為兩種，cbow與skip-gram，每個模型的訓練方法又分别有兩種，hierarchical sofmax與negative sampling。

[1] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

[2] A. Mnih and G. Hinton. Three new graphical models for statistical language modelling. Proceedings of the 24th international conference on Machine learning,pages 641–648, 2007

本文轉自張昺華-sky部落格園部落格，原文連結：http://www.cnblogs.com/bonelee/p/7144607.html，如需轉載請自行聯系原作者

word2vec (一) 簡介與訓練過程概要

繼續閱讀

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希