dplyr 包提供了一系列好用的函数,用来进行数据处理和转换,掌握之后可以高效解决数据处理中的绝大多数问题,我们先来看一下 dplyr 包最核心的 5 个函数。
- select: 筛选字段
- filter: 按条件过滤
- arrange: 按字段排序
- mutate: 创建新字段
- summarize: 数据汇总
这一章需要使用 gapminder 数据集,该数据集记录了 140 多个国家的人口、寿命、国内生产总值(gdp)等,使用前安装一下 install.packages(‘gapminder’)
library(dplyr)
library(gapminder)
gapminder
gapminder 的数据如下:
共有 1704 行,包括 country、continent、year、lifeExp、pop、gdpPercap 6 个字段。
1. select:筛选字段
# 筛选特定字段
select(gapminder, continent, year, pop)
# 筛选某个范围的所有字段
select(gapminder, continent:gdpPercap)
# 使用函数筛选
select(gapminder, contains('gdp'))
select(gapminder, starts_with('co'))
select(gapminder, ends_with('p'))
# 反向筛选, 即不筛选这些字段
select(gapminder, -country)
select(gapminder, -(continent:gdpPercap))
2. filter:按条件过滤
# 单条件过滤
filter(gapminder, year == '2002')
filter(gapminder, continent == 'Asia')
# 多条件过滤:&和逗号表示且操作,| 表示或操作
filter(gapminder, year == '2002' & continent == 'Asia')
filter(gapminder, year == '2002' , continent == 'Asia')
filter(gapminder, year == '2002' | continent == 'Asia')
我们把筛选字段和过滤的操作结合在一起:
# 筛选年份为 2002 的数据, 仅包含 continent、year、pop 字段
gapminder_2002 <- filter(gapminder, year == '2002')
select(gapminder_2002, continent, year, pop)
我们定义了中间变量 gapminder_2002,便于之后的 select 操作,但实际上这个中间变量并没有多大的作用。
为了简化上述写法,提高代码的可读性,R 语言提出了管道操作符 %>%,具体用法如下:
gapminder %>%
filter(year == '2002') %>%
select(continent, year, pop)
这样就省略了中间变量,左侧的数据或表达式,依次传递给右侧的函数调用或表达式来运行,就像一个链条一样把所有操作都串起来,使得代码具有更好的可读性,之后的代码都将使用管道操作符来实现。
3. arrange:按字段排序
# 按照 gdpPercap字段 升序排列
gapminder %>%
arrange(gdpPercap)
# 按照 pop 字段降序排列
gapminder %>%
filter(year == '2002') %>%
arrange(desc(pop))
4. mutate:创建新字段
# 新增 pop_new 字段
gapminder %>%
mutate(pop_new = pop / 1000000)
# 新增 gdp、avg_life_gdp 字段, 其中 gdp 可以直接在创建另一个字段时使用
gapminder %>%
mutate(gdp = gdpPercap * pop,
avg_life_gdp = gdp / lifeExp)
5. summarize: 数据汇总
# 统计 lifeExp 的均值
gapminder %>%
summarize(meanLifeExp = mean(lifeExp))
# 统计 lifeExp 的均值、pop 求和
gapminder %>%
filter(year == '2002') %>%
summarize(meanLifeExp = mean(lifeExp),
totalPop = sum(pop))
其他和 summarize 可以结合使用的函数还包括最大值 max、最小值 min、中位数 median 函数等。
下一节,我们会介绍 dplyr 中的分组函数 group_by 以及其他数据处理的函数。