本节书摘来自华章计算机《r语言数据挖掘:实用项目解析》一书中的第1章,第1.5节,作者[印度]普拉迪帕塔·米什拉(pradeepta mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
在处理一个有着大量观测记录的客户数据集时,需要根据一些筛选规则和有无放回取样来切分数据集。索引是根据一些逻辑条件从数据框中提取数据子集的过程。subset函数的功能与索引一样,可用于从数据框中提取元素。
上述代码的意思是:从audit数据集中选取那些性别为女且年龄超过65岁的观测记录。应该用哪个命令来提取基于这两条规则的audit数据子集呢?本例中有10条观测记录满足前面的条件,上面的代码中输出了数据框的行号。类似的结果也可以使用subset函数获得。这里不使用which 函数,而应使用subset函数,因为后者在传递多个条件参数时效率更高。让我们看看subset函数的使用方法:
subset函数中的附加参数使这个函数更为高效,因为它提供了仅从数据框中选取满足逻辑条件的特定列这个附加益处。