例要高出前两种方法很多。数据同时也表明,未婚者更容易发生迁移行为。
比较分析表明,我们的处理方法识别了时变性的影响,年龄、教育、婚姻等时变性因素的均值和方差发生了明显变化,忽略这些因素将带来分析上的风险。
五、时变性影响的Logistic模型分析与比较
上述分析表明,时变性变量的均值及均方差随着时间而变化。进一步还需要确定不同处理方法下变量间关系是否稳定,是否具有统计上的显著意义。下面利用Logistic模型的结果来审视这些问题。Logistic模型是处理二分变量的标准方法,也是迁移研究中的常用工具,表4列出了3种处理方法下Logistic回归分析的结果。通过模型设定选择了参照组,年龄的参照组为45岁及以上组,性别的参照组为男性,婚姻的参照组为曾婚。
(一)模型拟合优度
首先看一下模型的总体拟合效果。王济川、郭志刚(2001)指出,Hosmer和Lemeshow的拟合优度检验是估价Logistic回归模型的拟合优度最为广泛应用的指标,可以据此探讨模型对数据的拟合情况。根据该检验,在自由度为8的情况下,调查时点法下的卡方值为13.10,P值为0.108,局部倒推法下的卡方值为6.93,P值为0.544,全面倒推法下的卡方值为10.90,P值为0.143,卡方统计结果均不显著。因此,不能拒绝3个模型对数据都拟合得很好的假设。
如果利用类确定系数伪R进行比较,3个模型中得到的伪R分别为0.0905、0.0944、0.0674。由此看来,前两种方法具有更高的解释力度,局部倒推法较之调查时点法提升了模型的解释能力,而全面倒推法的解释力度最低③。段成荣(2000)认为,考虑了时变性因素后的模型对迁移风险的类解释系数会上升。本研究证实了他的推断。
笔者认为,模型拟合优度考察的是模型对数据的拟合能力,并不能对数据处理方法的优劣进行有效的判别。就本研究而言亦是如此,因为3个模型各自的样本量不同;其数据结构发生了变化。在此情况下,从回归系数大小的变化及变量影响的统计显著性角度来考察分析方法差异对迁移选择性的影响是可行的选择。
(二)回归系数的差异
总体来看,3种处理方法下各变量对迁移选择性的影响基本一致,尽管变量的回归系数beta值差异明显,而且部分变量的作用在统计显著性上发生了变化,但自变量作用的方向改变。为了分析时变性的影响,下面分别就回归系数的变化和标准误差的变化进行说明(见表4)。
1.年龄。各个模型均显示,与45岁及以上人口相比,其他年龄段人口的迁移风险都较高,其中20~24岁组迁移风险最高,25~29岁组(局部倒推法)、15~19岁组(调查时点法和全面倒推法)迁移风险次之,然后依次是30~34、35~39、40~44岁组人口。即随着年龄增加迁移风险先上升,然后达到峰值,最后迁移风险随年龄增加而下降。这基本反映了迁移的年龄选择性模式,与众多学者的研究一致。
然而,不同模型中相同年龄组的回归系数beta尽管都在1‰的统计水平上显著,但大小明显不同。与调查时点法相比,局部倒推法下所有年龄组的beta偏高,全面倒推法下都偏低。这可能是由于局部倒推法下迁移者的参照组(未迁移者)年龄相对上升,而全面倒推法下迁移者的参照组的年龄平均值下降。
2.性别。性别不是随时间而改变的变量,但不同处理方法下性别对迁移的影响有了一定的变化,而且3种情况下与描述性分析中的结果并不一致。在调查时点法下,beta等于-0.0556,Z值为-1.32。这说明女性比男性迁移风险略低,但这种差异在统计上并不显著。在局部倒推法下,beta值下降为-0.0803,Z值为下降为-1.91,女性比男性迁移风险进一步下降,而且接近了5%的统计显著水平。在全面倒推法下,beta值和Z值与调查时点法基本一致。
|