类别数据(Nominal Data)
纯粹的类别数据,没有大小或顺序关系。
例如:性别(男/女)、血型(A/B/O/AB)、职业(教师/医生/工程师)。
顺序数据(Ordinal Data)
数据有固定顺序,但不同等级之间的间隔不一定相等。
例如:满意度(非常满意/满意/一般/不满意/非常不满意)、教育水平(小学/中学/大学)。
等距数据(Interval Data)
具有固定的间隔(差异可比较),但没有绝对零点。
例如:温度(°C 或 °F),0°C 并不意味着“无温度”。
等比数据(Ratio Data)
具有固定间隔,并且有绝对零点,可进行倍数运算。
例如:身高、体重、年龄、收入。
正态分布(Normal Distribution) 就像考试成绩的常见分布模式,大多数人考中等分数,极高分或极低分的人比较少,数据呈对称的钟形曲线。
特点:
中间多,两边少:数据大多集中在平均值附近,越远离平均值的情况越少。
对称性:左右两边是镜像对称的。
68-95-99.7 规则:
68% 的数据落在平均值 ±1个标准差范围内
95% 的数据落在平均值 ±2个标准差范围内
99.7% 的数据落在平均值 ±3个标准差范围内
例子:
如果某次全国考试的成绩是正态分布:
大多数学生得分在 60-80 分之间(靠近平均值)。
只有少数人低于 40 分或高于 90 分(两端的极端值少)。
在 SPSS 中,你可以使用 偏度(Skewness) 和 峰度(Kurtosis),以及正态性检验(Normality Tests) 来判断数据是否符合正态分布。
1. 偏度(Skewness)
衡量数据是否对称,即数据是否偏向某一边。
数值解读:
0:完美对称(符合正态分布)
正值(>0):右偏(长尾在右,如收入数据)
负值(<0):左偏(长尾在左,如非常简单的考试成绩)
✅ 经验法则:
偏度 介于 -1 到 1 之间,可视为接近正态分布。
偏度 超过 ±2,数据可能严重偏斜,非正态。
2. 峰度(Kurtosis)
衡量数据分布的尖峰程度,即数据集中程度。
数值解读:
0:符合正态分布
正值(>0):高峰(数据集中,如考试大多数人考80-90分)
负值(<0):平坦(数据较分散,如问卷评分分布均匀)
✅ 经验法则:
峰度 介于 -1 到 1 之间,一般可以接受为正态分布。
峰度 超过 ±2,说明数据偏离正态分布较明显。
3. 正态性检验(Normality Tests)
SPSS 提供两个常用的统计检验:
a) Kolmogorov-Smirnov (K-S) Test
适用于 大样本(n > 50),检验数据分布是否与正态分布不同。
p > 0.05:数据符合正态分布
p ≤ 0.05:数据显著偏离正态分布(非正态)
b) Shapiro-Wilk Test
适用于 小样本(n ≤ 50),更敏感。
p > 0.05:数据符合正态分布
p ≤ 0.05:数据显著偏离正态分布(非正态)
✅ 经验法则:
样本 < 50,用 Shapiro-Wilk
样本 ≥ 50,用 Kolmogorov-Smirnov
打开数据 → 点击 Analyze(分析)
选择 Descriptive Statistics(描述性统计) → Explore(探索)
在 Dependent List(因变量框)中加入要检验的变量
点击 Plots(绘图),勾选 Normality plots with tests(正态性检验)
运行后,查看 偏度、峰度 和 正态性检验结果(K-S或Shapiro-Wilk)
4. QQ图 & 直方图
在 Explore 结果中,可以查看 QQ图(Q-Q Plot):
如果数据点大致落在直线上,数据接近正态。
如果数据点偏离直线,可能是非正态分布。
直方图(Histogram) 也可以辅助判断数据是否呈钟形分布。
如果数据显著偏离正态(p ≤ 0.05,或偏度/峰度超出 ±2),建议使用非参数统计方法,如 Mann-Whitney U 检验或 Kruskal-Wallis 检验。
在量化数据分析中,参数统计和非参数统计是两种不同的数据分析方法,它们的区别主要在于对数据的假设和适用情况。
简单比喻
参数统计就像用公式计算一个物体的重量,前提是你知道它的材料密度和体积,否则计算结果可能不准确。
非参数统计则像是直接用天平称重,不需要知道物体的密度,只关心它的相对重量。
参数统计
Parametric Statistics
适用于:数据符合正态分布。
特点:
需要对总体数据的某些特性(如平均数、标准差)做假设。
数据的变异性(标准差)是稳定的(即成绩的波动范围不会过大)。
数据要符合一定的分布形态(通常是正态分布)。
数据服从正态分布(即大多数学生的成绩集中在某个平均值附近,成绩曲线呈钟形)。
适用于大样本,数据量较小时可能不太稳定。
样本能代表总体(即你抽取的学生样本能够反映整个班级的情况)。
常见方法:
t检验(t-test):比较两个组的平均值差异,例如比较两班学生的考试成绩是否有显著不同。
方差分析(ANOVA):比较多个组之间的平均值差异,例如比较三个不同教学方法对学生成绩的影响。
皮尔逊相关系数(Pearson Correlation):分析两个变量之间的线性关系,如身高和体重的相关性。
非参数统计
Non-Parametric Statistics
适用于:数据不符合特定分布,或数据类型是类别数据或顺序数据(如满意度等级)。"Nominal Data" 或 "Ordinal Data"
特点:
不需要数据服从某种特定的分布。
适用于小样本或数据类型较特殊(如排名数据)。
计算方法多基于中位数或秩次Rank(数据的相对大小),而不是平均值。
常见方法:
曼-惠特尼U检验(Mann-Whitney U Test):用于比较两组数据是否有显著差异,适用于数据非正态分布或类别数据(如两种教学方法下的学生反馈)。
克鲁斯卡尔-沃利斯检验(Kruskal-Wallis Test):类似于方差分析(ANOVA),但适用于非正态分布的数据,例如比较三种不同教学方法下的学生评分。
斯皮尔曼相关系数(Spearman Correlation):用于分析两个变量的关系,适用于等级数据或数据分布异常的情况,如调查问卷的评分。