学位专题

目录>
<
DOI:10.7666/d.D462636

缺失数据下线性模型回归系数岭估计的大样本性质

董冬
广西师范大学
引用
在许多实际问题中,由于各种人为或其它不可知因素,都容易导致大量缺失数据的产生,例如,在民意调查、市场调研、医学研究以及社会经济研究等领域中普遍存在数据缺失现象.近年来,缺失数据情形的统计推断已成为当今统计界的一个热门研究领域.在有数据缺失的情况下,通常的统计方法往往不能直接应用,需要对数据进行必要的处理,缺失数据的处理方法常见的有Complete-Case方法和填补法, Complete-Case方法是将有缺失的数据项删除,然后对剩余的项构成的“完全样本”按照通常的统计方法进行统计推断,填补法分为固定填补法和随机填补法,它们都是对缺失值进行必要的补足,继而得到“完全样本”,再按照通常的统计方法进行统计推断.线性模型有很强的实际应用背景,在医学,生物,经济,金融,环境科学及工程技术等领域的数据分析中得到了越来越广泛的应用,在线性模型参数估计理论与方法中,最小二乘法占有中心的基础地位,但当设计矩阵X退化或接近退化时,最小二乘估计变得很不理想,于是一些学者提出了一种新的估计方法――岭估计法,岭估计可以较好地解决设计矩阵接近退化时的统计推断问题.Hoerl和Kennard (Ridge regression biased estimation for non-orthogonal problems[J]. Tech-nometrics, 1970, 12: 55-57.)于1970年提出了岭估计β(k) = (S + kI)?1X Y用来改善最小二乘估计,其中k &gt; 0, S = X X, X和Y分别为设计变量和响应变量的资料阵, I为单位阵.岭估计的研究和应用一直受到广泛的重视且已经成为目前最有影响的一种有偏估计.岭估计理论研究的早期成果见Hoerl和Kennard (Ridge regression biased estimation fornon-orthogonal problems[J]. Technometrics, 1970, 12: 55-57.)及Farebrothers (Further result onthe mean squared error of ridge regression[J]. J Roy Statist Soc B, 1976, 38: 248-259.)的论文,岭估计理论的系统总结可见王松桂等(线性模型的理论及其应用[M].合肥:安徽教育出版社,1987;线性模型引论[M].北京:高等教育出版社, 2004.)的著作,他们给出了一系列岭估计优于最小二乘估计的充分条件.戴俭华(岭估计优于最小二乘估计的条件[J].数理统计与应用概率, 1994, 9(2): 53-58.)讨论在均方误差意义下岭估计优于最小二乘估计的问题,给出了岭估计优于最小二乘估计的必要条件及较一般的充分条件;王启应(回归系数岭估计的相合性[J].数理统计与应用概率, 1987, 3(1): 42-51.)讨论了岭估计的强相合性、r阶相合性及基于岭回归的误差估计的某些极限性质,获得了同等条件下与通常的最小二乘估计完全同样的大样本性质.大量学者对岭估计做了不同的改进,以期望缩小均方误差来提高估计的精度,对岭估计进一步做改进的文章有很多,都在不同程度上提高了估计的精度.在有约束条件的线性模型中,正如郑昌光(约束条件下的线性估计[J].应用概率统计,1986, 2(1): 5-12.)所言,参数β的约束最小二乘估计β?的均方误差在一定条件下可以变得很大,因此效果也不理想,这就促使人们在β的有偏估计类中寻找一类合理的估计去改进β?.雷庆祝(线性模型中回归系数岭估计的相合性[J].广西师范大学学报, 1999, 10(1): 21-24.)讨论了带齐次等式Rβ= 0约束条件的线性模型中回归系数岭估计的强、弱相合性及均方相合性,得到了弱相合性的充要条件及强相合性的充分条件;史建红(约束线性回归模型回归系数的条件岭型估计[J].山西师范大学学报(自然科学版), 2001, 15(4): 10-16.)在齐次等式Rβ= 0约束条件下提出了线性回归模型的一类新的岭型估计β?(k) = (kW + I)?1β?,证明了β?(k)在一定的正则条件和优良性准则下优于参数β的约束最小二乘估计,并讨论了估计的可容许性.农秀丽,刘万荣,李明辉(非齐次等式约束线性回归模型回归系数的条件岭型估计[J].四川师范大学学报(自然科学版), 2007, 30(6): 721-725.)在非齐次等式Rβ= r约束下提出了约束线性回归模型的一类岭估计,讨论了估计的统计性质,并讨论了其与约束最小二乘估计的关系,在一定的正则条件和优良性准则下证明了参数的岭型估计优于约束最小二乘估计.在现实生活中经常会产生数据缺失现象,但是对缺失数据下线性模型回归系数岭估计的统计推断问题尚未有研究.本文在第二章中研究了固定设计下带线性约束的线性模型,在响应变量有缺失的不完全数据情形,用三种不同的处理方法处理缺失数据,即利用观察到的完全数据对、确定性补足得到的“完全样本”、随机性补足得到的“完全样本”分别给出回归系数岭估计的三种估计,并讨论了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性.在第三章中研究了随机设计下带线性约束的线性模型,在响应变量有缺失的不完全数据情形,用三种不同的处理方法处理缺失数据,即利用观察到的完全数据对、确定性补足得到的“完全样本”、随机性补足得到的“完全样本”分别给出回归系数岭估计的三种估计,并讨论了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性.本文的特色体现在以下两个方面:1.在MAR缺失机制下,研究了固定设计下带线性约束的线性模型回归系数岭估计的大样本性质,对缺失的响应变量,利用三种不同的缺失数据处理方法给出了回归系数岭估计的三种估计,证明了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性.2.在MAR缺失机制下,研究了随机设计下带线性约束的线性模型回归系数岭估计的大样本性质,对缺失的响应变量,利用三种不同的缺失数据处理方法给出了回归系数岭估计的三种估计,证明了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性.

缺失数据;线性模型;岭估计;相合性;渐近正态性;MAR缺失机制

广西师范大学

硕士

概率论与数理统计

秦永松

2010

中文

O212.1

2014-05-29(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅