R语言 tidyverse 之数据处理：dplyr (上)

dplyr 包提供了一系列好用的函数，用来进行数据处理和转换，掌握之后可以高效解决数据处理中的绝大多数问题，我们先来看一下 dplyr 包最核心的 5 个函数。

select: 筛选字段
filter: 按条件过滤
arrange: 按字段排序
mutate: 创建新字段
summarize: 数据汇总

这一章需要使用 gapminder 数据集，该数据集记录了 140 多个国家的人口、寿命、国内生产总值(gdp)等，使用前安装一下 install.packages(‘gapminder’)

library(dplyr)
library(gapminder)

gapminder

gapminder 的数据如下：
在这里插入图片描述
共有 1704 行，包括 country、continent、year、lifeExp、pop、gdpPercap 6 个字段。

1. select：筛选字段

# 筛选特定字段
select(gapminder, continent, year, pop)

# 筛选某个范围的所有字段
select(gapminder, continent:gdpPercap)

# 使用函数筛选
select(gapminder, contains('gdp'))    
select(gapminder, starts_with('co'))
select(gapminder, ends_with('p'))

# 反向筛选, 即不筛选这些字段
select(gapminder, -country)
select(gapminder, -(continent:gdpPercap))

2. filter：按条件过滤

# 单条件过滤
filter(gapminder, year == '2002')  
filter(gapminder, continent == 'Asia')

# 多条件过滤：&和逗号表示且操作，| 表示或操作
filter(gapminder, year == '2002' & continent == 'Asia')  
filter(gapminder, year == '2002' , continent == 'Asia')  
filter(gapminder, year == '2002' | continent == 'Asia')

我们把筛选字段和过滤的操作结合在一起：

# 筛选年份为 2002 的数据, 仅包含 continent、year、pop 字段
gapminder_2002 <- filter(gapminder, year == '2002')  
select(gapminder_2002, continent, year, pop)

我们定义了中间变量 gapminder_2002，便于之后的 select 操作，但实际上这个中间变量并没有多大的作用。
为了简化上述写法，提高代码的可读性，R 语言提出了管道操作符 %>%，具体用法如下：

gapminder %>%
    filter(year == '2002') %>%
    select(continent, year, pop)

这样就省略了中间变量，左侧的数据或表达式，依次传递给右侧的函数调用或表达式来运行，就像一个链条一样把所有操作都串起来，使得代码具有更好的可读性，之后的代码都将使用管道操作符来实现。

3. arrange：按字段排序

# 按照 gdpPercap字段 升序排列
gapminder %>%
    arrange(gdpPercap)

# 按照 pop 字段降序排列
gapminder %>%
    filter(year == '2002') %>%
    arrange(desc(pop))

4. mutate：创建新字段

# 新增 pop_new 字段
gapminder %>% 
    mutate(pop_new = pop / 1000000)

# 新增 gdp、avg_life_gdp 字段, 其中 gdp 可以直接在创建另一个字段时使用
gapminder %>% 
    mutate(gdp = gdpPercap * pop,
           avg_life_gdp = gdp / lifeExp)

5. summarize: 数据汇总

# 统计 lifeExp 的均值
gapminder %>%
    summarize(meanLifeExp = mean(lifeExp))

# 统计 lifeExp 的均值、pop 求和
gapminder %>%
    filter(year == '2002') %>%
    summarize(meanLifeExp = mean(lifeExp),
              totalPop = sum(pop))