spark mllib之Extracting, transforming and selecting fea

2023-06-19 15:03:33

提取，转换和选择功能

本节介绍使用功能的算法，大致分为以下几类：

提取：从“原始”数据中提取特征

转换：缩放，转换或修改功能

选择：从较大的一组特征中选择一个子集

局部敏感哈希（LSH）：这类算法将特征变换与其他算法相结合。

Feature Extractors

TF-IDF:是文本挖掘中广泛使用的特征向量化方法，以反映语料库中文档的术语的重要性。用tt表示术语，dd表示文件，DD表示语料库。术语频率TF（t，d）TF（t，d）是术语tt出现在文档dd中的次数，而文档频率DF（t，D）DF（t，D）是包含术语的文档数TT。如果我们只使用术语频率来衡量重要性，则很容易过度强调出现频率很高的术语，但是对文档的少量信息，例如 “a”，“the”和“of”。如果一个术语在语料库中经常出现，这意味着它不包含关于特定文档的特殊信息。逆文档频率是一个数字量度，表示一个词语提供了多少信息：

spark mllib之Extracting, transforming and selecting fea

继续阅读

《Spark MLlib 机器学习》第十五章代码

Spark协同过滤推荐

Spark MLlib学习（1）-- Pipelines基本概念例子

Spark MLlib KMeans聚类算法

Spark MLlib 1.6 -- 特征抽取和变换

基于Spark MLlib平台的协同过滤算法---电影推荐系统

决策树算法_基本思想

大数据开发之机器学习总结（Spark Mllib）（四）大数据开发之机器学习总结（Spark Mllib）（四）

Spark MLlib学习（1）--基本统计

Spark Mllib Homeprise 数据分析

Spark MLlib 1.6 -- 降维

spark mllib 决策树算法

Spark ML 2.1 -- Extracting, transforming and selecting features (持续更新)

Spark MLlib 核心基础：向量 And 矩阵1、Spark MLlib 核心基础：向量 And矩阵

基于eclipse的spark开发环境搭建