R median() – 计算中位数（实战总结）

R median() – 计算中位数：从入门到实战

在数据分析的世界里，中位数是一个非常基础却极其重要的统计指标。它不像平均数那样容易被极端值干扰，却又能很好地反映数据的“中间位置”。在 R 语言中，median() 函数就是我们计算中位数的得力工具。无论你是刚接触编程的新手，还是已经有一定经验的开发者，理解并熟练使用 R median() – 计算中位数 都会为你的数据处理能力打下坚实基础。

想象一下，你有一群朋友的身高数据：160cm、165cm、170cm、175cm、180cm。如果其中突然来了一个身高 220cm 的巨人，平均身高会被拉高，但中位数依然稳定在 170cm，这个“中间值”更真实地代表了“普通人”的身高。这就是中位数的魅力所在。而 R 语言中的 median() 函数，正是帮你快速找到这个“中间值”的利器。

什么是中位数？为何它如此重要？

中位数（Median）是将一组数据从小到大排列后，位于正中间的那个数值。如果数据个数是奇数，中位数就是最中间的那个数；如果是偶数，则是中间两个数的平均值。

举个例子：

数据为 1, 3, 5, 7, 9 → 一共 5 个数，中间的是第 3 个，即 5，所以中位数是 5。
数据为 1, 3, 5, 7 → 一共 4 个数，中间两个是 3 和 5，平均是 4，所以中位数是 4。

这个“不被极端值影响”的特性，让中位数在收入分布、房价分析、测试成绩等场景中比平均数更有代表性。比如，某城市人均收入高达 20 万，但大多数人实际收入只有 8 万，这是因为少数富豪拉高了平均值。这时，中位数才是“普通人”的真实收入水平。

在 R 中，median() 函数正是实现这一逻辑的官方工具，它自动处理排序、奇偶判断和平均计算，让你专注于分析，而不是纠结算法细节。

R median() 函数的基本语法与参数详解

median() 函数的语法非常简洁：

median(x, na.rm = FALSE)

其中：

x：输入的数据向量或数值型数组，必须是数值类型。
na.rm：是否移除缺失值（NA）。默认为 FALSE，如果数据中包含 NA，函数会返回 NA；设为 TRUE 则会自动忽略 NA。

这个参数非常关键，尤其是在真实项目中，数据往往不完美。我们来看一个实际例子：

scores <- c(85, 90, NA, 78, 92, 88, NA, 80)

median(scores)  # 输出: NA

median(scores, na.rm = TRUE)  # 输出: 86.5

注释：
第一行创建了一个包含两个缺失值（NA）的成绩列表。
第二行调用 median() 但未设置 na.rm = TRUE，由于存在缺失值，函数返回 NA。
第三行设置 na.rm = TRUE，函数自动过滤掉 NA，再对剩余 6 个有效值排序并计算中位数，最终得到 86.5。

记住：在真实数据处理中，几乎每次都要检查 na.rm 参数是否开启，否则你可能会得到一个“看似正确”的 NA，浪费排查时间。

实际案例：用 R median() 分析学生成绩分布

假设你是一名教育数据分析师，手头有一份 100 名学生的数学考试成绩。你想快速了解“中等水平学生”的表现，而不是被几个满分或零分拉高或拉低平均值。

set.seed(123)  # 设置随机种子，保证结果可复现
math_scores <- round(runif(100, min = 50, max = 100), 1)

head(math_scores, 10)

median(math_scores)

注释：
set.seed(123) 用于固定随机数生成器，确保每次运行结果一致。
runif(100, min = 50, max = 100) 生成 100 个 50 到 100 之间的随机浮点数。
round(..., 1) 保留一位小数，更贴近真实考试成绩。
head() 显示前 10 个成绩，便于观察数据。
最后调用 median()，返回中位数 78.8，意味着一半学生得分低于 78.8，一半高于。

这个结果比平均数更有说服力。因为即使有 2 个学生得了 100 分，也不会显著改变中位数，而平均数可能会被拉高到 81 左右。

处理数据框（data.frame）中的中位数计算

在实际项目中，我们通常处理的是结构化数据，比如 Excel 或 CSV 文件导入的 data.frame。这时，我们需要对某一列进行中位数计算。

假设我们有一个学生数据框，包含姓名、班级、数学成绩三列：

students <- data.frame(
  name = paste("Student", 1:6),
  class = rep(c("A", "B"), each = 3),
  math_score = c(88, 92, 76, 85, 79, 90)
)

print(students)

median(students$math_score)

注释：
data.frame() 构建一个包含三列的数据框。
paste("Student", 1:6) 生成 "Student 1" 到 "Student 6" 的姓名。
rep(c("A", "B"), each = 3) 生成 3 个 A 和 3 个 B 的班级标签。
students$math_score 语法提取“math_score”列。
median() 对该列数据计算中位数，结果为 86.5，说明一半学生得分高于此值。

如果你还想按班级分别计算中位数，可以用 tapply() 函数：

tapply(students$math_score, students$class, median)

注释：
tapply() 是 R 中“按组应用函数”的经典工具。
第一个参数是数据，第二个是分组变量，第三个是函数名（这里是 median）。
结果显示：A 班中位数 88.0，B 班中位数 87.5，两班水平接近。

常见问题与注意事项

在使用 R median() – 计算中位数 时，初学者常犯几个错误，我们来逐一排查：

1. 输入非数值类型会报错

names <- c("Alice", "Bob", "Charlie")
median(names)  # 报错：非数值型输入

错误原因：median() 只接受数值型数据，字符串无法排序比较。

2. 忘记处理缺失值（NA）

data <- c(1, 2, NA, 4, 5)
median(data)  # 返回 NA

正确做法：始终使用 na.rm = TRUE，除非你明确想保留 NA。

3. 误以为中位数一定在数据中

data <- c(1, 2, 3, 4)
median(data)  # 输出 2.5

中位数可以是两个数的平均值，不一定等于原始数据中的某个值。这是完全正常的。

4. 在字符向量上使用 `median()` 导致逻辑错误

categories <- c("High", "Medium", "Low")
median(categories)  # 报错：无法排序

除非你将分类变量编码为数字（如 High=3, Medium=2, Low=1），否则不能直接用 median()。

总结：掌握 R median() – 计算中位数，让数据更可信

通过本文，我们系统地学习了 R median() – 计算中位数 的核心用法：从基本语法到参数控制，从单列数据到分组分析，再到常见陷阱规避。中位数不是“可有可无”的统计量，而是你在面对异常值、偏态分布时的“定海神针”。

记住，真正的数据分析能力，不在于你能写出多少代码，而在于你能否选择正确的工具。median() 虽然简单，但它的适用场景极广——无论是金融风控、教育评估，还是用户行为分析，都能派上用场。

下次当你看到一组数据被平均值“误导”时，不妨停下来，用 median() 看一眼“中间的真实情况”。你会发现，数据的世界，远比表面看起来更真实、更可靠。

最后提醒一句：在每次调用 median() 之前，先问自己：我是否处理了缺失值？我的数据是数值型吗？ 这两个问题，往往能帮你避免 80% 的初级错误。