平均值、中位数和众数都是统计学中的集中趋势度量。它们以不同的方式各自告诉我们数据集中的哪个值是典型的或代表性的。
平均值与数据集的平均值相同,通过计算得出。将所有数字相加,然后除以数据集中的数字数量。
中位数是数据集中的中间数字。将数据点从最小到最大排列,找到中间的数字。这就是中位数。如果中间有两个数字,则中位数是这两个数字的平均值。
众数是数据集中出现次数最多的数字。计算数据集中每个数字出现的次数。次数最多的数字是众数。如果有不止一个众数也可以,如果所有数字出现次数相同,则没有众数。
平均值与数据集中的平均值相同。
对于数据集 1, 1, 2, 5, 6, 6, 9,中位数是 5。
对于数据集 1, 1, 2, 6, 6, 9,中位数是 4。取 2 和 6 的平均数,即 (2+6)/2 = 4。
将数据集 x1 ≤ x2 ≤ x3 ≤ ... ≤ xn 从最低到最高排序,中位数是将数据值的上半部分与下半部分分开的数据点。
众数是数据集中出现频率最高的值或值。
对于数据集 1, 1, 2, 5, 6, 6, 9,众数是 1 和 6。
平均数和中位数都衡量数据的集中趋势通常,我们使用平均统计量。
在以下情况之一中,我们更喜欢中位数:
1. 数据包含异常值。
2. 数据非常偏斜,且样本量不大
在这些情况下,一个异常值或一个罕见的极端值可能会显著改变平均值。
中位数不受极端值的影响。
平均值这个词在英语语言中是其他多个词的同音异义词,即使在数学领域,其含义也同样模糊。根据上下文,无论是数学还是统计学,所指的“平均值”都有所不同。在关于数据集的最简单的数学定义中,所使用的平均值是算术平均值,也称为数学期望或平均值。在这种形式下,平均值指的是数据集中离散数集的一个中间值,即所有值的总和除以值的总数。
统计学上的中位数是将数据样本、人口或概率分布分为两半的值。找到中位数本质上涉及找到在其余数字之间物理位置的数据样本中的值。注意,在计算有限数字列表的中位数时,数据样本的顺序很重要。通常情况下,值按升序列出,但实际上按降序列出值并不会提供不同的结果。如果数据样本的总值数为奇数,则中位数就是列表中间的数字。当数据样本包含偶数个值时,中位数是两个中间值的平均值。虽然这可能令人困惑,但请记住,即使中位数有时涉及平均值的计算,当这种情况出现时,它只涉及两个中间值,而平均值涉及数据样本中的所有值。在只有两个数据样本的奇数情况下,或者有偶数个样本且所有值都相同的情况下,平均值和中位数将是相同的。
与平均值和中位数相似,众数也用作表达随机变量和人口信息的方式。然而,与平均值和中位数不同的是,众数是一个可以应用于非数值的概念,例如最常从杂货店购买的玉米片品牌。例如,当比较 Tostitos、Mission 和 XOCHiTL 品牌时,如果发现在玉米片销售中,XOCHiTL 是众数,并且与 Tostitos 和 Mission 品牌玉米片的销售比例为 3:2:1,该比例可用于确定存储多少袋每个品牌的玉米片。如果在给定期间销售了 24 袋玉米片,则商店将存储 12 袋 XOCHiTL 玉米片、8 袋 Tostitos 和 4 袋 Mission。然而,如果商店仅使用平均值并销售每个品牌 8 袋,则如果客户仅想购买 XOCHiTL 玉米片而不是其他任何品牌,商店可能会损失 4 次销售。正如此例所示,尝试从任何数据样本中得出结论时,考虑所有统计值是很重要的。