| 论最小二乘法回归分析中的几个问题 |
|
水文上,常用0.8作为判别相关关系是否密切的监界值。例如文献[1][2] 对于多元线性回归,F检验法的统计量F和复相关系数R分别为[3] m——自变量个数 u——回归平方和 Q——残差平方和 设显著性水平为a、自由度为(m,n-m-1)的F检验法的临界值为:Fa 时相关系数灵敏检验法的临界值,以下简记为Ra 当R≥Ra 对于一元线性回归,令Ra 对于Ra已制成相关系数检验临界值表[3,4] 由上表可知,当a=0.01,n≥10时,|r|>0.8>ra 同时,还应注意,相同a相关系数临界值Ra将随自变量个数m的增大而增大。便如对于三元线性回归,当n=10时,由文献[4] 2 回归系数错误符号的原因及分析方法 为讨论方便,需引进一般多元线性回归模型 最小二乘原则确定回归系数具有良好的性质,例如当假设ε~N(0,σ2 某承压水漏斗区漏斗中心历年最低水位、历年开采量资料见表2。漏斗中心最低水位出现在每年6月底、7月初。利用水均衡方程分析表明,影响第t+1年漏斗中心最低水位的主要因素为第t年漏斗中心最低水位和第t年漏斗区开采量。根据1976~1995年数据建立线性回归方程为: h(t+1)=0.8963h(t)+0.0150Q(t)-9.3952 (5) 式中h(t)、h(t+1)分别为第t年、第t+1年漏斗中心年最低水位m;Q(t)为第t年年开采量,106m3 从物理成因上分析容易得出,开采量对漏斗中心最低水位的影响为负相关,即开采量越大,漏斗中心水位越低,但回归方程中Q(t)的系数却为正值,显然是不合理的。尽管式(5)经过显著性检验回归效果显著(复相关系数R=0.969,相关系数临界值R0.01=0.662),但这样的模型是不符合实际的。 判断设计阵复共线性关系的简便方法是计算自变量之间的相关系数。实例中h(t)与Q(t)的样本相关系数为-0.90,有近似线性关系,也即设计阵X的列向量接近线性相关,这正是导致式(5)回归系数错误符号的原因。 对于复共线关系存在且各自变量确实对倚变量均影响显著,则应该用其它回归方法,例如岭回归、残差绝对值准则回归等,不能将回归系数存在错误符号的回归方程应用于实际。 3 结语 本文论述了水文计算中采用相关系数0.8作为相关是否密切的判别标准的来历和使用条件,指出此标准并不具备普遍意义。结合实例分析了导致回归系数错误符号的原因,给出了判断设计阵存在复共线性的简易方法。搞清这些对于正确使用最小二乘法回归计算,进行有效的数据分析,将具有重要的意义。 ?2?殷兆熊.水文水利计算?M?.北京:中国水利水电出版社,1994. ?3?王俊德.水文统计?M?.北京:水利水电力出版社,1993. ?4?费勤贵.水文统计学?M?.北京:水利电力出版社,1991. ?5?方开泰.实用回归分析?M?.北京:科学出版社,1988.
|