您的当前位置:首页正文

R语言高效数据整理工具包dplyr

2024-12-20 来源:二三四教育网

dplyr

专注于做类数据框(tbl)的数据整理,汇总

  • 更简单的语法
  • 更快的处理速度(基于c++编写)
    install.packages("dplyr") library(dplyr)

tbl

tbl是dplyr定义的数据类型
可以将 data.frame、cube元组、SQL对象,转化成一个tbl对象。
语法:tbl_df()

Paste_Image.png
优点:它可以把数据框以及sql用同样的方式进行分析
对于一个数据框可以不把它转换成tbl对象,因为tbl对象本身和数据框并没有太大区别所以叫做类数据框

dplyr基础函数

  • filter() 数据筛选
    ** 语法**:filter(data.frame|tbl,condition),保留满足条件的观测。
Paste_Image.png Paste_Image.png

更复杂的匹配用 %in%

Paste_Image.png
  • select() 选取子集
    ** 语法**:select(data.frame|tbl,variable),保留满足条件的变量。


    Paste_Image.png
    Paste_Image.png

    反选


    Paste_Image.png
    Paste_Image.png
    Paste_Image.png
  • arrange() 数据排列
    ** 语法**:arrange(data.frame|tbl,variable),对观测值进行排序
    升序

    QQ截图20170111174533.png
    降序
QQ截图20170111174906.png
  • mutate() 数据扩展
    ** 语法**:mutate(data.frame|tbl,expression),在原变量的基础上增加变量
Paste_Image.png
增加多个变量
Paste_Image.png
扩展 Paste_Image.png
截取字符串
Paste_Image.png
  • summarise() 数据汇总
    ** 语法**:summarise(data.frame|tbl,expression),将多个值汇总为一个数据值
Paste_Image.png Paste_Image.png
多个变量汇总
Paste_Image.png Paste_Image.png

dplyr高级函数

  • 数据集的连接(Join)
    left_join
    语法:left_join(x,y,by=“variable”)
Paste_Image.png
inner_join
语法:inner_join(x,y,by=“variable”)
Paste_Image.png
semi_join
语法:semi_join(x,y,by=“variable”)
Paste_Image.png
anti_join
语法:anti_join(x,y,by=“variable”)
Paste_Image.png
  • 分组汇总(group_by)
    Paste_Image.png
Paste_Image.png Paste_Image.png
  • 管道函数(%>%)
    Paste_Image.png
显示全文