R summarize()分组摘要
创始人
2024-02-04 13:12:27
0

summarize()分组摘要分组平均值最大最小值计数

library(nycflights13)
library(tidyverse)

summarize()可以将数据折叠成一行
如果不与group_by()一起使用,那么summarize()也没什么用

summarize(flights, delay = mean(dep_delay, na.rm = TRUE))
delay
12.63907

group_by()可以将分析数据集改为单个分组

by_day <- group_by(flights,year,month,day)
summarize(by_day,delay=mean(dep_delay,na.rm=TRUE))

image-20220320114851862

通过summarize可以起到mutate的作用

by_dest <- group_by(flights,dest)
delay <- summarize(by_dest,count = n(),dist = mean(distance, na.rm = TRUE),delay = mean(arr_delay, na.rm = TRUE))
ggplot(data=delay,mapping=aes(x=dist,y=delay))+geom_point(aes(size=count),alpha=1/3)+geom_smooth(se=FALSE)

image-20220320120257405

常用的摘要统计量

分组求和、求平均值、计数等等。

思路是group_by统计量,summarize(count = n())

#先选出没有取消的航班
not_cancelled <- flights %>% filter(!is.na(dep_delay),!is.na(arr_delay))
#平均延误时间
not_cancelled %>% group_by(year,month,day) %>% summarize(mean=mean(dep_delay))

image-20220320120640723

摘要函数名称
位置度量mean() median()
分散程度度量sd() IQR() mad()
秩的度量min() quantile() max()
定位度量first() nth() last()
计数n()
#位置度量
not_cancelled %>% group_by(year,month,day) %>% summarize(#平均延误时间avg_delay1=mean(arr_delay),#平均延误纠正时间 (只选择大于0avg_delay2=mean(arr_delay[arr_delay>0]))
yearmonthdayavg_delay1avg_delay2
20131112.651022932.48156
20131212.692887932.02991
2013135.733333327.66087
201314-1.932819428.30976
201315-1.525802022.55882
2013164.236429424.37270
201317-4.947311827.76132
201318-3.227578520.78909
201319-0.264277725.63415
2013110-5.898815927.34545
#分散程度度量
not_cancelled %>% group_by(dest) %>% summarize(distace_sd=sd(distance)) %>% arrange(desc(distace_sd))
destdistace_sd
EGE10.542765
SAN10.350094
SFO10.216017
HNL10.004197
SEA9.977993
LAS9.907786
PDX9.873299
PHX9.862546
LAX9.657195
IND9.458066
CVG9.018212
SAT9.005084
#秩的度量min(x),quantile(x,0.25),max(x)
#每天最早和最晚出发的航班
not_cancelled %>% group_by(year,month,day) %>% summarize(first=min(dep_time),last=max(dep_time))
yearmonthdayfirstlast
2013115172356
201312422354
201313322349
201314252358
201315142357
201316162355
201317492359
2013184542351
20131922252
201311032320
#计数(唯一值数量 n_distinct())
#哪个目的地有最多的航空公司
not_cancelled %>% group_by(dest) %>% summarize(carriers=n_distinct(carrier)) %>% arrange(desc(carriers))
destcarriers
ATL7
BOS7
CLT7
ORD7
TPA7
AUS6
DCA6
#只需要计数的情况
# 无需摘要统计
not_cancelled %>% count(dest)
#逻辑值计数和比例
#多少航班是在5点前出发的
not_cancelled %>% group_by(year,month,day) %>% summarize(n_early=sum(dep_time<500))
#或者写为
not_cancelled %>% group_by(year,month,day) %>% summarize(early= dep_time[dep_time<500]) %>% summarize(n=n())

注意区分上面的

#位置度量
not_cancelled %>% group_by(year,month,day) %>% summarize(#平均延误时间avg_delay1=mean(arr_delay),#平均延误纠正时间 (只选择大于0avg_delay2=mean(arr_delay[arr_delay>0]))#航班延误1小时的比例
#因为arr_delay>60是返回的一堆逻辑值110001求mean是比例
not_cancelled %>% group_by(year,month,day) %>% summarize(hour_prec=mean(arr_delay>60))
  • sum(dep_time<500): 这个是求dep_time小于500的个数,因为dep_time<500会先生成0,1的布尔列,求和就是1的数量

  • dep_time[dep_time<500] %>% summarize(n=n()):和上面一样,相当于先摘要出dep_time<500的,再计数

  • mean(arr_dalay): 对所有的arr_dalay求平均

  • mean(arr_delay[arr_delay>0]):只求arr_delay大于0的平均值

  • mean(add_delay>60),求的是arr_delay大于60的比例

  • dep_time[dep_time<500] %>% summarize(n=n()):和上面一样,相当于先摘要出dep_time<500的,再计数

  • mean(arr_dalay): 对所有的arr_dalay求平均

  • mean(arr_delay[arr_delay>0]):只求arr_delay大于0的平均值

  • mean(add_delay>60),求的是arr_delay大于60的比例

  • mean(add_delay[arr_delay>60]): 只求arr_delay大于60的平均值

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...
一帆风顺二龙腾飞三阳开泰祝福语... 本篇文章极速百科给大家谈谈一帆风顺二龙腾飞三阳开泰祝福语,以及一帆风顺二龙腾飞三阳开泰祝福语结婚对应...
美团联名卡审核成功待激活(美团... 今天百科达人给各位分享美团联名卡审核成功待激活的知识,其中也会对美团联名卡审核未通过进行解释,如果能...