教育频道,考生的精神家园。祝大家考试成功 梦想成真!
会员登录 会员注册 网站通告:

经济学

搜索: 您现在的位置: 经济管理网-新都网 >> 经济学 >> 数量与技术经济学 >> 正文

高维模型选择方法综述(一)

http://www.newdu.com 2018/3/7 《数理统计与管理》(京)2012年4期第640~658页 李根 邹国… 参加讨论

内容提要:模型选择是统计学的热点研究问题。近年来随着数据维数越来越高,传统模型选择方法的应用受到了很多制约。本文着重介绍高维模型选择的新方法,并讨论实现模型选择过程的一个重要环节,即调整参数的选取。最后文章总结归纳了未来可能的研究方向。
    关键词:高维数据 模型选择 惩罚因子 降维 调整参数
    作者简介:李根,北京师范大学数学科学学院(北京100875),北卡罗来纳大学教堂山分校统计与运筹系(美国27510);邹国华,中国科学院数学与系统科学研究院(北京100190);张新雨,中国科学院数学与系统科学研究院。
    0引言
    所谓模型选择,就是利用统计学方法和准则从多个候选模型中选择最佳的一个。换言之,我们并不总是建立一个包含所有变量的模型,而是选取其中信息量最大的子集进行建模。模型选择自六七十年代以来一直是统计学的热点研究问题,各种方法和准则相继被提出。传统的模型选择方法可概括为子集选择法,包括全子集法、最优子集法、逐步(向前、向后)选择法等。评判模型好坏的准则包括AIC准则、BIC准则、Mallows'CP、交叉验证等。
    模型选择的目标可归结为两个。一为模型预报的准确性,即选择合适的子模型使得其对新数据的预测更为准确。有些地方也将其称为模型的有效性。例如在判别问题中,研究者往往并不关心哪些变量被选入了模型或这些变量的系数估计是多少,而是关心所选择的模型能否将新样本点正确地归入相应的类别。二为选择模型的相合性,即选择模型是否与真实模型相同。弱相合性表述为样本量增加时选择模型依概率逼近于真实模型;强相合性表述为选择模型几乎必然是真实模型。通常我们并不假定真实的模型存在于候选模型中,上述相合性表述中的真实模型可由候选模型中最接近真实的模型替换。例如在遗传疾病研究中,人们最关心哪些位点(自变量)与疾病(因变量)有密切关联,这时选择模型的相合性显得尤为重要。不同的模型选择方法侧重于不同的目标,而有效性和相合性一般无法同时满足。
    近年来,生物信息、图像处理、金融管理等领域产生的高维数据为模型选择提出了更大的挑战。这些领域的实验数据维数甚至超过样本量大小。例如在基因学中,受试者(样本)可能只有几百人,而观测的基因位点(变量)可能达到数千个。科学家需要通过这些样本选取与疾病相关的基因。传统的子集模型选择法存在计算成本大、最优化难以实现等问题不能满足分析的需要,进而促使一系列新兴选择方法如LASSO等的诞生。可以说高维数据的出现极大地推进了统计思想的改革和发展。
    高维模型选择在实际中应用广泛。例如,在计算生物学中,利用微阵列和蛋白质数据的肿瘤判别和聚类问题严重依赖于模型选择方法,科学家需要在成千上万的基因表达数据中提取与疾病真正相关的变量;在医疗健康的实验中,有时会面临多维的纵向数据,每个病例在一段时间内的生命体征都会被记录多次,而真正与患病相关的风险因素只占很小的一部分,这也需要用统计的方法进行选择;在金融工程和风险管理领域,跨国公司为了抵御市场波动的影响,会根据历史数据选择一些重要的财政指标进行干预;除此之外,在网络数据挖掘、机器学习等领域,高维模型选择方法也被大量应用。更多的可参见Fan和Li[1]的文章以及其中的参考文献。
    本文旨在给出高维数据模型选择方法的综述,以介绍新方法为主。传统的模型选择准则的综述性介绍可参考Claeskens和Hjort[2],子集模型选择方法综述可参考Hocking[3],Guyon和Elisseeff[4]以及王和张[5]。高维数据模型选择方法综述可参考Fan和Li[1]、Li和Xu[6],Hesterberg等[7]以及Fan和Lv[8]。本文将涵盖上述文献之重要观点,并从更全面的方法总结来给出模型选择的发展概况及未来方向。我们的讨论主要集中在线性模型的选择问题。大多数方法可以自然地推广到广义线性模型。半参数模型选择和非参数模型选择与线性模型选择有很多相似的地方,但不完全相同。感兴趣的读者可参考Bertin和Lecue[9]关于高维非参数模型选择的综述以及Li和Liang[10]对半参数模型选择的讨论等。
    
    本文的结构安排如下:第一节将介绍惩罚因子模型选择方法,并给出判断方法好坏的一个标准,即Oracle性质。第二节介绍Dantzig Selector方法。第三节对从降维角度出发的模型选择方法进行概述。第四节将着重介绍实现模型选择的一个重要步骤,即调整参数的选择。第五节给出高维模型选择领域尚存的一些问题和可能的发展方向。
    1惩罚因子模型选择法
    惩罚因子法是目前较为流行的可以较好处理高维模型选择的方法。该类方法可以同时实现变量选择和参数估计,即在估计参数时,通过将部分系数压缩到零来实现模型选择。本文将讨论限制在惩罚似然函数(或惩罚最小二乘),即最小化下述式子得到参数估计
    
    1.1LASSO方法及其推广
    1.1.1LASSO方法
    Least Absolute Shrinkage and Selection Operator(LASSO)方法是Tibshirani[11]在Nonnegative Garrote(NG)方法[12-13]的基础上发展而来的,也是Bridge方法的一种特殊形式[14]。NG方法的参数估计如下:
    
    当设计阵非列正交时,可给定λ然后使用二次算法求解参数估计。更一般地,可使用最小角回归算法(LARS)求解。具体可参见Efron等[15]以及王和张[5]。
    LASSO方法形式简单,其利用F104W606a.jpg惩罚项在零点的奇异性,以较大的概率将一部分不重要的变量系数压缩到零。除此之外,相比于岭回归,LASSO方法对重要变量(参数估计较大的变量)的系数压缩较轻,因此提高了参数估计的准确性。LASSO方法最重要的意义在于其计算复杂度较小,且参数估计具有连续性,可用于高维数据的模型选择。可以说,LASSO方法开辟了高维模型选择的新方向。
    但LASSO方法也存在一些固有的缺陷。例如当p>n时,LASSO方法最多只能选取n个变量。它对变量之间的强关联性也十分敏感,Tibshirani[11]通过数据模拟得出在自变量存在共线性的情形下,LASSO方法的模型选择效果不及岭回归方法。值得指出的是,LASSO方法为预测指向型,即选择模型有较高的预测准确度,但相合性不好。只有在满足较强的条件时,LASSO模型选择法才是相合的。Zhao和Yu[16]模型选择的相合性进一步区分为强符号相合性和弱符号相合性,即选出的变量的系数估计的符号也应和真实的符号一致。他们还给出了LASSO方法满足符号相合性的几乎充要条件,即“不可表示条件”,并证明了“强不可表示条件”推出“强符号相合性”推出“弱符号相合性”推出“弱不可表示条件”。“不可表示条件”表述如下:
    
    则称满足强不可表示条件。若将上述不等式右端换为“<1”,即为弱不可表示条件。显然,强不可表示条件蕴含弱不可表示条件。在实际中,真实系数往往是未知的,Zhao和Yu[16]给出了“强不可表示条件”的一些可以验证的充分条件,有兴趣的读者可以参考其文章。
    LASSO方法在更多的模型选择问题中得到了进一步完善。针对参数估计的相合性、有序模型选择、群组模型选择等问题,人们将LASSO方法进行推广,得到了如下的一些衍生方法。
    (未完待续)

 

Tags:高维模型选择方法综述(一)  
责任编辑:admin
相关文章列表
没有相关文章
请文明参与讨论,禁止漫骂攻击。 昵称:注册  登录
[ 查看全部 ] 网友评论
| 设为首页 | 加入收藏 | 网站地图 | 在线留言 | 联系我们 | 友情链接 | 版权隐私 | 返回顶部 |