SPSS 进行卡方检验

卡方检验是一种针对「分类」变量进行统计假设检验的方法，可以分为两种：

卡方适合性检验：

检验一组分类变量的频数分布与期望的频数分布是否一致；

例如：检验交通路口从周一到周日发生交通事故的数量是否一致。

卡方独立性检验：

检验两个分类变量之间是否有关联，可以转换成适合性检验。

例如：性别和选择文理科之间是否存在关联

卡方检验需要使用卡方分布来作为统计量的理论统计分布；进行卡方检验前一般想要进行交叉分析或者进行数据透视操作，用来得到交叉表或者频率表；

透视表/交叉表

例如：目前身份的实际频数。

分析－描述－频率

例如：不同性别学生就读的学校类型交叉表。

分析－描述－交叉表

什么是分类数据？

表示类别的数据：

无序分类：性别
有序分类：学历、年龄段、工资区间、问卷满意度调查

分类数据的表示方法：

一般在分析过程中用数字来表示这些类别；（值标签的作用）
用数字表示类别的过程称为编码；

卡方检验原理

卡方统计量：

𝒇𝟎 表示理论频数，𝒇e 表示实际频数，两者之间相差越大，卡方也会越大。

当理论分布与实际分布完全相同，卡方值为 0。

卡方检验的步骤：

第一步：建立假设（原假设为分类变量实际的频数分布与理论分布一致）
第二步：根据实际的频数与理论频数计算 𝝌𝟐 统计量，并根据卡方分布得到对应的 p 值（sig 值）；
第三步：根据 p 值决定是否接受原假设；如果 p 小于 0.05，则拒绝原假设，即认为变量的实际频数与理论分布不一致；

卡方适合性检验

检验实际的频数与给定的理论频数是否一致。一般给出的不是直接的理论频数，而是：

理论的比率
理论上的分布

例题1：

针对大学群体（包括研究生）的研究调查，样本来源于大一、大二、大三、大四、研究生的比例是否为 0.2:0.2:0.2:0.1:0.3 ？（期望频数不等）

SPSS 工具：

分析－非参数检验－旧对话框－卡方
期望值按照顺序依次填入期望的比例（需要根据值标签来查看）

结论：

p = 0.000 < 0.05，拒绝原假设，即实际分布与理论分布不一致。
具体来看，残差越大表明分布越不一致。大四残差最大，其次为大一、研究生，我们需要减少大四、大一和研究生样本。

例题2：

某奶制品厂商在某次对消费者对不同酸奶的口味调查中，对 1000 个人进行了调查，那么消费者对不同口味的酸奶的喜好是否有显著差异？（期望频数相等）

原始数据格式：

SPSS 工具：

数据－个案加权

然后我们通过查看频率可以得到如下结果：

注：如果不做加权处理，则得到的频率应该为 1。

分析－非参数检验－旧对话框－卡方
期望值选择 “所有类别相等”

结论：

p = 0.000 < 0.05，拒绝原假设，即人们对于不同口味是存在差异的。
最喜欢的是草莓味，最不喜欢的是柠檬味。

卡方独立性检验

检验两个分类变量之间是否相互独立，实际上独立性检验是通过转换成适合性检验而完成的。

原假设：两个变量之间相互独立；
备择假设：两变量相互影响；

卡方独立性检验的步骤：

第一步：建立假设（原假设为两个分类变量之间相互独立）
第二步：基于原假设为真的情况，计算理论频数，然后计算卡方统计量；并根据卡方分布得到 p 值；
第三步：判断原假设是否成立；

例题1：

某种植物在不同地形下栽培患病与否有关吗？

原始数据格式：

SPSS 工具：

数据－个案加权

对株数进行加权

分析－描述－交叉表
统计－勾选“卡方”

结论：

交叉表表明了实际频数，理论频数是根据交叉表计算比例得到的
自由度是 (行数-1)*(列数-1)
p = 0.002 < 0.005，拒绝原假设，即地形与患病与否是有关的