定义、概念、类别等等
BC1 编号14
定义:信度分析用于检验问卷中量表样本是否可靠可信。通俗地讲研究样本是否真实回答问题,测试受访者是否好好答题,具体来说就是用问卷对调研对象进行重复测量时,所得结果的一致性程度。通俗讲,信度就是一次测量很可靠,再测一次,再测10次,结果都是差不多的。克隆巴赫系数是最常用的信度测量方法。
概念:
1.一致性(Consistency)
衡量问卷在相同条件下对相同现象的测量结果是否一致。
2.稳定性(Stability)
测量结果是否在不同时间或不同样本中保持一致。
3.测量误差(Measurement Error)
问卷信度与误差成反比,信度越高,误差越低。
估计问卷信度的不同方法包括:
重测信度(Test-Retest Reliability):通过计算同一参与者在两次或多次问卷填写中得分的相关性来估计信度
复本信度(Parallel-Forms Reliability):通过创建两份或多份内容相同的问卷,并在同一时间对同一受试者进行测试来估计信度
评分者间信度(Inter-Rater Reliability):通过比较两名或多名独立评分者对参与者回答的评分来估计信度;这种比较用于确定评分者的评估是否一致
内部一致性信度(Internal Consistency Reliability):通过评估同一测试中各项结果的一致性来估计信度。
BC2 编号14
定义:
信度分析的目的在于研究样本数据是否真实可靠,如果受访者没有真实回答,则信度不达标,信度仅对量表题进行研究,无法针对性别之类的背景信息项进行分析。
不同维度要分开检验,最后再把所有变量放在一起做一个总的检验。
问卷信度的类别主要包括以下几种:
定义:同一问卷在不同时间对同一群体(如学生、教师)进行两次测试,结果的一致性。
适用场景:
测量学生态度、学习动机等稳定性较高的特质。
评估教育干预的长期效果。
注意事项:时间间隔不宜过长,避免外部因素(如学习环境变化)干扰。
定义:使用内容相似的两份问卷对同一群体进行测试,结果的一致性。
适用场景:
评估教育测试工具(如考试卷)的稳定性。
避免学生在重复测试中产生练习效应。
注意事项:两份问卷的难度和内容需高度一致。
定义:问卷内部各题目之间的一致性,常用Cronbach's α系数衡量。
适用场景:
测量学生对某一课程的兴趣、满意度等单一构念。
评估教师教学效能的问卷。
注意事项:Cronbach's α系数一般需大于0.7,但具体标准取决于研究领域。
定义:将问卷分为两半,比较两部分得分的一致性。
适用场景:
评估学生学习策略问卷的稳定性。
适用于题目较多的问卷(如教育心理量表)。
注意事项:需确保两半问卷的内容和难度均衡。
定义:不同评分者对同一问卷(如开放式问题或行为观察量表)评分的一致性。
适用场景:
评估学生作文、项目报告等主观性较强的任务。
教师对学生课堂表现的评价。
注意事项:需对评分者进行培训,确保评分标准一致。
定义:每个题目与总分的相关性,反映题目对整体测量的贡献。
适用场景:
优化教育问卷的设计,剔除与总分相关性低的题目。
评估学生对某一教学方法的反馈问卷。
注意事项:相关性低的题目可能需要修改或删除。
信度检验方式:
SPSS26 操作:导入数据--分析--度量--可靠性分析--模型位置默认就是Cronbach's Alpha系数--点统计--根据需求来选(一般用不上)--点确定即可
结果解读:
1.Cronbach's Alpha的值在0-1之间,越接近于1,说明信度越好。(>0.7 都是可以接受的)
2.如果α小于0.5,可能需要对量表题目进行重新调正。
概念、操作、范例等等
BC1 编号15
概念:
定义:Cronbach’s Alpha 系数衡量一组调查项目的内部一致性(reliability),即这些项目是否稳定地测量相同的特征。
取值范围:0 到 1 之间,值越高,表示项目之间的一致性越强。
题目之间的关系越紧密(相关性高),Alpha 值就越高。
题目彼此无关(相关性低),Alpha 值就越低。
作用:用于评估问卷、测评工具或测试分数的可靠性,确保多个题项能有效衡量同一构念(construct)。
2. 适用场景
问卷设计:在问卷或测评工具的开发阶段,检查题项是否可以组合形成一个可靠的量表。
心理测量:用于评估心理学量表(如自尊量表、焦虑量表等)是否具有一致性。
教育测试:用于检查考试或评分标准是否能稳定测量学生的能力。
市场调研:确保消费者调查中的相关问题确实测量相同的概念(如“客户满意度”)
3. 计算方法
公式:
公式的直观理解
Cronbach’s Alpha 主要衡量 一组问题之间的一致性(reliability),即这些问题是否在测量相同的概念。如果一个人对某个问题打高分,他/她也很可能对其他相关问题打高分。
这个公式的逻辑可以分解为以下三点:
简单案例
假设我们有一个包含 4 道题目(N=4)的问卷,测量客户对服务速度的满意度。每道题目用 5 级 Likert 量表(1-5 分)作答。
如果这些题目的 回答趋势类似,比如:
A 受试者对四个问题都给了 5 分
B 受试者对四个问题都给了 3 分
C 受试者对四个问题都给了 1 分
→ 这些题目的一致性很高,Alpha 值会比较大。
但是,如果:
A 受试者对第 1 题给 5 分,第 2 题给 2 分,第 3 题给 3 分,第 4 题给 1 分
B 受试者对第 1 题给 4 分,第 2 题给 5 分,第 3 题给 1 分,第 4 题给 2 分
→ 这些题目的回答没有明显一致性,Alpha 值会较低,说明这些题目可能测量的是不同的概念。
4. 结果解释
注意:
值过高(>0.95)可能表示题项冗余,可以考虑删除重复性强的问题。
值过低(<0.7)表示题项可能未能一致测量同一概念,需重新审视题项设计。
5. 注意事项
1. α 高 ≠ 量表有效(Validity)
Cronbach’s Alpha (α) 只是衡量题目之间的一致性(reliability, 信度),但它不代表量表测量的是正确的东西(validity, 效度)。
信度(Reliability):题目是否稳定、一致地测量某个概念。
效度(Validity):题目是否真正测量了它应该测量的东西。
2. 适用于单一构念(Single Construct)
如果你的问卷测量的是多个不同的东西(多维度),就不能用一个整体的 α 值,而应该分别计算。
例如 IQ 测试包含 逻辑推理 和 语言能力 两个部分,它们是不同的构念(construct)。
如果你把所有题目放在一起算一个 α,可能会得出错误的结论,因为逻辑推理题和语言能力题的相关性本来就不高。
正确做法:分别计算逻辑推理部分的 α\alphaα 和语言能力部分的 α。
3. α 过高可能冗余
如果 Cronbach’s Alpha 太高(通常 > 0.95),说明题目可能过于相似,导致测量冗余,影响效度。
例如,你想测量“社交焦虑”,但你的问卷包含:
我在人多的地方会感到紧张。
当我被很多人看着时,我会感到紧张。
当周围有很多陌生人时,我会感到紧张。
几乎是在重复说同一件事,所以它们的 α 会非常高,但并没有提供新的信息
6. 改进方法
检查个别题项影响:
通过 “Omitted Item Statistics”(删除单个题项后的 Alpha 值)查看删除某个题项后整体 Alpha 是否提升。
若删除某题后 Alpha 值显著提高,说明该题可能与其他题项测量的内容不一致,应考虑删除或修改该题。
优化题目设计:
统一题目表述方式,避免歧义或理解偏差。
确保所有题项都在测量相同的概念,而非不同的维度。
若 Cronbach’s Alpha 过高,可合并或删除重复的题项。
增加题项数量:
在保证内容有效的前提下,增加题目数量可以提高可靠性。
7. 实例分析
案例:银行客户满意度调查
银行想知道客户对服务速度是否满意,于是设计了 4 道题:
我的电话、邮件或信件咨询在合理时间内得到回复。
我对所提供服务的及时性感到满意。
我等待服务的时间是合理的。
我对所获得的服务感到满意。
统计结果:
总体 Cronbach’s Alpha = 0.7853(基本可接受)。
但是删除 Item 4 后,Alpha 上升至 0.921674
说明 Item 4 说明前三道题更一致,而第 4 题可能测量的是“整体满意度”而非“服务速度”
调整方案:
删除 Item 4,或重新措辞以确保其测量的是“服务及时性”。
重新测试修改后的问卷,并重新计算 Cronbach’s Alpha。
资料来源:Cronbach’s Alpha: Definition, Calculations & Example - Statistics By Jim
BC2 编号15
定义:内部一致性系数,依一定公式估量量表(或问卷)内部各个题目之间的关联性。
作用:常用于问卷、测验或其他多项测量题目,即一组测量题目(如问卷中的多个问题)是否在测量相同的概念时表现出一致性
取值范围:0 到 1 之间,值越高,表示项目之间的一致性越强。
*仅调查研究
计算公式:
K:量表中题目的数量
σ²_i:每个题目的方差
σ²_total:总分的方差
注意:
α 高 ≠ 量表有效:高 α 仅表示内部一致性高,但不代表量表有效(validity)
适用于单一构念:若量表测量多个维度(如 IQ 测试中的逻辑推理和语言能力),应分别计算 α。
α 过高可能冗余:若 α > 0.95,可能表示题目过于相似,影响测量效度。
影响Cronbach’s Alpha 值的因素
题目数量:题目越多,α 值可能会提高,但不代表更好的测量质量。
题目间的相关性:如果题目间相关性低,α 值也会较低。
单一构念性:如果题目测量的概念不同(比如同时测量“焦虑”和“自信”),α 可能较低。
改进建议:
1. 高 α ≠ 量表有效(内部一致性高 ≠ 量表有效性高)
内容效度(Content Validity):请专家评估题目是否全面、合理地测量目标构念。
进行预测效度检验(Predictive Validity),验证量表得分能否预测未来表现。
2. 适用于单一构念(量表测量多个维度时应分别计算 α)
分别计算每个维度的 α,而不是计算整体 α。
也可使用McDonald’s Omega, 更能准确衡量多维量表的内部一致性。
3. α 过高可能冗余(题目过度相似)
采用项目分析(Item Analysis),检查哪些题目对总分贡献不大,可以删除或修改。
确保题目覆盖目标构念的不同方面,而非重复测量相同点。
案例分析:
背景:一家餐厅的经理希望衡量顾客的总体满意度,因此她向 200 名顾客发送了一份调查问卷。顾客可以根据 12 个不同的类别,按照 1(非常不满意) 到 5(非常满意) 的评分标准,对餐厅进行评价。
量表题目示例:
Q1 餐厅的整体氛围令人愉悦。
Q2 餐厅的座位安排舒适。
Q3 餐厅的清洁程度令人满意。
Q4 服务员的态度友好且专业。
Q5 上菜速度合理。
Q6 菜品的温度适中。
Q7 菜品的口味符合我的预期。
Q8 菜品的分量适中。
Q9 菜品的价格合理。
Q10 餐厅的菜单选择丰富。
Q11 结账流程便捷高效。
Q12 我愿意向朋友推荐这家餐厅。
统计结果:
α = 0.84,表示量表内部一致性较高,题目之间的相关性较强,问卷可靠性较好。
改进方案:
增加题目覆盖范围: 若调查发现某些关键影响因素(如“餐厅停车是否方便”)未被测量,可以补充相关问题,使问卷更全面。
因子分析(Factor Analysis): 进一步分析问卷是否测量多个维度,如“服务满意度”、“环境满意度”和“食品满意度”。若发现子维度,可单独计算 α 值。
资料来源:How to Report Cronbach’s Alpha (With Examples) By Zach Bobbitt