第1个回答 2024-08-09
「—ggplot2 绘制箱线图」
箱线图,亦称盒须图或箱形图,是一种展示数据分布情况的统计图表。它包含了数据的多个关键信息,如箱体部分的下四分位数(Q1)、中位数(Q2)和上四分位数(Q3)。此外,还包括箱体外的上边缘、下边缘和异常值。
四分位数差(IQR)定义为Q3-Q1。箱线图的上下限分别为Q3+1.5IQR和Q1-1.5IQR,在真实数据中,最接近上下限的数据点处绘制横线,分别作为箱线图的上边缘和下边缘。Q3+3IQR到Q1-3IQR之间被定义为外限,超出此范围的数据点被视为异常值。其中,内限与外限之间的异常值称为温和的异常值,而外限以外的异常值称为极端异常值。
本内容将以2022年七月份中国五个城市的一小时平均气温数据为例,使用ggplot2绘制箱线图,并对图形进行自定义美化。
首先,加载读取excel数据的readxl包和用于绘图的tidyverse包,读取绘图数据。数据包括广州、武汉、北京、杭州和乌鲁木齐五个城市2022年7月份的气温数据,每个城市共有744个气温数据。接下来,将宽数据转换为ggplot2绘图所需的长数据。
在绘图代码中,首先绘制基础箱线图。然后,对基础箱线图进行修饰,包括修改y轴范围,给box增加均值,修改y轴名称,移除x轴名称,添加箱帽,并保存为p2。
当绘图变量较多时,为了防止图形纵轴过长影响美观,可以绘制水平分布箱线图。在ggplot2中,添加coord_flip()便可快速实现x,y轴的替换,用于实现绘制水平分布的箱线图。
以上便是使用ggplot2绘制箱线图的相关内容。同时,可以结合同期推文—Python 可视化:箱线图,来同时对比学习使用matplotlib绘制箱线图。