天天看点

spark mllib之Extracting, transforming and selecting fea

提取,转换和选择功能

本节介绍使用功能的算法,大致分为以下几类:

提取:从“原始”数据中提取特征

转换:缩放,转换或修改功能

选择:从较大的一组特征中选择一个子集

局部敏感哈希(LSH):这类算法将特征变换与其他算法相结合。

Feature Extractors

TF-IDF:是文本挖掘中广泛使用的特征向量化方法,以反映语料库中文档的术语的重要性。 用tt表示术语,dd表示文件,DD表示语料库。 术语频率TF(t,d)TF(t,d)是术语tt出现在文档dd中的次数,而文档频率DF(t,D)DF(t,D)是包含术语的文档数TT。 如果我们只使用术语频率来衡量重要性,则很容易过度强调出现频率很高的术语,但是对文档的少量信息,例如 “a”,“the”和“of”。 如果一个术语在语料库中经常出现,这意味着它不包含关于特定文档的特殊信息。 逆文档频率是一个数字量度,表示一个词语提供了多少信息: