比如有一个大的数据集,里面有N个字段,对于这次的case我需要实用其中3个参数,他们为siteNO, user, check, siteno为数值型(只有4个值),user是用户名,check是一个数值型表示时间的值,现在有好多条数据,我想统计,在siteNO和user一定的情况下,check的中位数,均值,生成一个数据框,里面包含
siteNO,user,check_media,请问怎么转化原有的数据集呢?
可能我没太说明白,我只是想得到一个统计后的简洁的数据框。我把源数据集给你看一下
。。。
然后我想要一个统计后的,group by siteno,user,得到check的中位数的一个数据框。
其实就是变成
user,siteno,check
user1,2,check中位数
user1,4,check中位数
user2,2,check中位数
。。。
你的数据不好输入,你用下面的例子试试,a3就是你要的。
library(dplyr)
library(nycflights13)#flights数据是nycflights13包里自带的
a1 <- group_by(flights, year, month, day)#按照年月日分组
a2 <- select(a1, arr_delay)#选择arr_delay变量
a3 <- summarise(a2,
median = median(arr_delay, na.rm = TRUE))