R语言 tidyverse 之数据处理：dplyr (上)

2023-05-03 16:44:11

dplyr 包提供了一系列好用的函数，用来进行数据处理和转换，掌握之后可以高效解决数据处理中的绝大多数问题，我们先来看一下 dplyr 包最核心的 5 个函数。

select: 筛选字段
filter: 按条件过滤
arrange: 按字段排序
mutate: 创建新字段
summarize: 数据汇总

这一章需要使用 gapminder 数据集，该数据集记录了 140 多个国家的人口、寿命、国内生产总值(gdp)等，使用前安装一下 install.packages(‘gapminder’)

library(dplyr)
library(gapminder)

gapminder

gapminder 的数据如下：

R语言 tidyverse 之数据处理：dplyr (上)

共有 1704 行，包括 country、continent、year、lifeExp、pop、gdpPercap 6 个字段。

1. select：筛选字段

# 筛选特定字段
select(gapminder, continent, year, pop)

# 筛选某个范围的所有字段
select(gapminder, continent:gdpPercap)

# 使用函数筛选
select(gapminder, contains('gdp'))    
select(gapminder, starts_with('co'))
select(gapminder, ends_with('p'))

# 反向筛选, 即不筛选这些字段
select(gapminder, -country)
select(gapminder, -(continent:gdpPercap))

2. filter：按条件过滤

# 单条件过滤
filter(gapminder, year == '2002')  
filter(gapminder, continent == 'Asia')

# 多条件过滤：&和逗号表示且操作，| 表示或操作
filter(gapminder, year == '2002' & continent == 'Asia')  
filter(gapminder, year == '2002' , continent == 'Asia')  
filter(gapminder, year == '2002' | continent == 'Asia')

我们把筛选字段和过滤的操作结合在一起：

# 筛选年份为 2002 的数据, 仅包含 continent、year、pop 字段
gapminder_2002 <- filter(gapminder, year == '2002')  
select(gapminder_2002, continent, year, pop)

我们定义了中间变量 gapminder_2002，便于之后的 select 操作，但实际上这个中间变量并没有多大的作用。

为了简化上述写法，提高代码的可读性，R 语言提出了管道操作符 %>%，具体用法如下：

gapminder %>%
    filter(year == '2002') %>%
    select(continent, year, pop)

这样就省略了中间变量，左侧的数据或表达式，依次传递给右侧的函数调用或表达式来运行，就像一个链条一样把所有操作都串起来，使得代码具有更好的可读性，之后的代码都将使用管道操作符来实现。

3. arrange：按字段排序

# 按照 gdpPercap字段 升序排列
gapminder %>%
    arrange(gdpPercap)

# 按照 pop 字段降序排列
gapminder %>%
    filter(year == '2002') %>%
    arrange(desc(pop))

4. mutate：创建新字段

# 新增 pop_new 字段
gapminder %>% 
    mutate(pop_new = pop / 1000000)

# 新增 gdp、avg_life_gdp 字段, 其中 gdp 可以直接在创建另一个字段时使用
gapminder %>% 
    mutate(gdp = gdpPercap * pop,
           avg_life_gdp = gdp / lifeExp)

5. summarize: 数据汇总

# 统计 lifeExp 的均值
gapminder %>%
    summarize(meanLifeExp = mean(lifeExp))

# 统计 lifeExp 的均值、pop 求和
gapminder %>%
    filter(year == '2002') %>%
    summarize(meanLifeExp = mean(lifeExp),
              totalPop = sum(pop))

其他和 summarize 可以结合使用的函数还包括最大值 max、最小值 min、中位数 median 函数等。

下一节，我们会介绍 dplyr 中的分组函数 group_by 以及其他数据处理的函数。

R语言 tidyverse 之数据处理：dplyr (上)

1. select：筛选字段

2. filter：按条件过滤

3. arrange：按字段排序

4. mutate：创建新字段

5. summarize: 数据汇总

继续阅读

R语言| 中介效应分析，Mediation包和BruceR包，循环Process函数

一套完整实用的IT规划方法论

miRNA与转录组联合分析

高级数据分析师凭什么月薪三万？一文解答你所有困惑

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

SQL常见计算方法总结

一篇文章带你使用建模的思路解决泰迪杯-智慧政务问题（答复意见评价含代码）

【R语言】GARCH模型的应用一、数据来源二、数据分析三、模型建立四、模型优化五、结论六、实现代码七、参考资料

数据分析实战20绝技

Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

Matlab随机波动率SV、GARCH用MCMC马尔可夫链蒙特卡罗方法分析汇率时间序列

Lagrange插值的R语言实现

从大数据看技术，为什么天猫双11是史上最大数字经济节日

R语言-相关性分析函数

拓端tecdat|R语言弹性网络Elastic Net正则化惩罚回归模型交叉验证可视化

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开