dplyr是R语言中的一个包,提供了一系列用于数据操作和转换的函数。以下是一些dplyr中常用的函数及其作用:
mutate()用于创建新计算变量,例如计算x和y的和生成新列z。还可以根据条件创建分类变量或使用聚合或统计函数处理原数据。例如,计算每个x值的均值和标准差。同时,可以使用group_by()函数将数据分组,然后在每组中应用mutate()函数,为每个组分别计算新变量。
select()用于选择数据框中的特定列。通过指定列名或使用通配符,例如选择以x开头的所有列或排除特定列。可以选择多个列、排除列或使用SQL语法指定选择条件。
filter()用于根据指定条件选择数据框中的行。例如,选择值大于0的行,或同时满足多个条件的行。可以使用复杂的逻辑表达式进行筛选。
group_by()用于将数据按照指定条件分组,如按age分组,然后在每个分组内进行操作,如计算平均值。可以进行多级分组,调整分组条件和参数实现不同效果。分组后可以使用ungroup()取消分组。
summarise()用于对数据框进行汇总,如计算每个组的均值、求和、最大值、最小值等统计量。
distinct()选择数据框中不同的行,可以选择所有列或指定列进行唯一性检查。可以保留所有列或仅保留特定列。
arrange()对数据框中的行进行排序,可以按指定列值排序并选择每组的第一行、最后一行或指定行。可以按升序或降序排序。