天天看点

R语言 tidyverse 之数据处理:dplyr (上)

dplyr 包提供了一系列好用的函数,用来进行数据处理和转换,掌握之后可以高效解决数据处理中的绝大多数问题,我们先来看一下 dplyr 包最核心的 5 个函数。

  • select: 筛选字段
  • filter: 按条件过滤
  • arrange: 按字段排序
  • mutate: 创建新字段
  • summarize: 数据汇总

这一章需要使用 gapminder 数据集,该数据集记录了 140 多个国家的人口、寿命、国内生产总值(gdp)等,使用前安装一下 install.packages(‘gapminder’)

library(dplyr)
library(gapminder)

gapminder
           

gapminder 的数据如下:

R语言 tidyverse 之数据处理:dplyr (上)

共有 1704 行,包括 country、continent、year、lifeExp、pop、gdpPercap 6 个字段。

1. select:筛选字段

# 筛选特定字段
select(gapminder, continent, year, pop)

# 筛选某个范围的所有字段
select(gapminder, continent:gdpPercap)

# 使用函数筛选
select(gapminder, contains('gdp'))    
select(gapminder, starts_with('co'))
select(gapminder, ends_with('p'))

# 反向筛选, 即不筛选这些字段
select(gapminder, -country)
select(gapminder, -(continent:gdpPercap))
           

2. filter:按条件过滤

# 单条件过滤
filter(gapminder, year == '2002')  
filter(gapminder, continent == 'Asia')

# 多条件过滤:&和逗号表示且操作,| 表示或操作
filter(gapminder, year == '2002' & continent == 'Asia')  
filter(gapminder, year == '2002' , continent == 'Asia')  
filter(gapminder, year == '2002' | continent == 'Asia')
           

我们把筛选字段和过滤的操作结合在一起:

# 筛选年份为 2002 的数据, 仅包含 continent、year、pop 字段
gapminder_2002 <- filter(gapminder, year == '2002')  
select(gapminder_2002, continent, year, pop)
           

我们定义了中间变量 gapminder_2002,便于之后的 select 操作,但实际上这个中间变量并没有多大的作用。

为了简化上述写法,提高代码的可读性,R 语言提出了管道操作符 %>%,具体用法如下:

gapminder %>%
    filter(year == '2002') %>%
    select(continent, year, pop)
           

这样就省略了中间变量,左侧的数据或表达式,依次传递给右侧的函数调用或表达式来运行,就像一个链条一样把所有操作都串起来,使得代码具有更好的可读性,之后的代码都将使用管道操作符来实现。

3. arrange:按字段排序

# 按照 gdpPercap字段 升序排列
gapminder %>%
    arrange(gdpPercap)

# 按照 pop 字段降序排列
gapminder %>%
    filter(year == '2002') %>%
    arrange(desc(pop))
           

4. mutate:创建新字段

# 新增 pop_new 字段
gapminder %>% 
    mutate(pop_new = pop / 1000000)

# 新增 gdp、avg_life_gdp 字段, 其中 gdp 可以直接在创建另一个字段时使用
gapminder %>% 
    mutate(gdp = gdpPercap * pop,
           avg_life_gdp = gdp / lifeExp)
           

5. summarize: 数据汇总

# 统计 lifeExp 的均值
gapminder %>%
    summarize(meanLifeExp = mean(lifeExp))

# 统计 lifeExp 的均值、pop 求和
gapminder %>%
    filter(year == '2002') %>%
    summarize(meanLifeExp = mean(lifeExp),
              totalPop = sum(pop))
           

其他和 summarize 可以结合使用的函数还包括最大值 max、最小值 min、中位数 median 函数等。

下一节,我们会介绍 dplyr 中的分组函数 group_by 以及其他数据处理的函数。

继续阅读