dplyr
专注于做类数据框(tbl)的数据整理,汇总
- 更简单的语法
- 更快的处理速度(基于c++编写)
install.packages("dplyr") library(dplyr)
tbl
tbl是dplyr定义的数据类型
可以将 data.frame、cube元组、SQL对象,转化成一个tbl对象。
语法:tbl_df()
优点:它可以把数据框以及sql用同样的方式进行分析
对于一个数据框可以不把它转换成tbl对象,因为tbl对象本身和数据框并没有太大区别所以叫做类数据框。
dplyr基础函数
- filter() 数据筛选
** 语法**:filter(data.frame|tbl,condition),保留满足条件的观测。
更复杂的匹配用 %in%
-
select() 选取子集
** 语法**:select(data.frame|tbl,variable),保留满足条件的变量。
Paste_Image.png
Paste_Image.png
反选
Paste_Image.png
Paste_Image.png
Paste_Image.png -
arrange() 数据排列
QQ截图20170111174533.png
** 语法**:arrange(data.frame|tbl,variable),对观测值进行排序
升序
降序
- mutate() 数据扩展
** 语法**:mutate(data.frame|tbl,expression),在原变量的基础上增加变量
增加多个变量
Paste_Image.png
扩展 Paste_Image.png
截取字符串
Paste_Image.png
- summarise() 数据汇总
** 语法**:summarise(data.frame|tbl,expression),将多个值汇总为一个数据值
多个变量汇总
Paste_Image.png Paste_Image.png
dplyr高级函数
-
数据集的连接(Join)
left_join
语法:left_join(x,y,by=“variable”)
inner_join
语法:inner_join(x,y,by=“variable”)
Paste_Image.png
semi_join
语法:semi_join(x,y,by=“variable”)
Paste_Image.png
anti_join
语法:anti_join(x,y,by=“variable”)
Paste_Image.png
-
分组汇总(group_by)
Paste_Image.png
-
管道函数(%>%)
Paste_Image.png