相信很多投资者一看这个题目会头晕,过度拟合其实一开始是一个统计学术语,用来形容统计模型过度地对历史数据进行优化,从而使模型预测过去的能力很强,而运用到未来的实际效果却不好。后来随着投资领域中量化一脉愈发发扬光大,统计理论逐步移植到了日常的投资中,从而过度拟合亦如同幽灵一般神出鬼没,时不时影响着投资人的业绩。更为可怕的是,在投资领域的过度拟合甚至更难被发现,你永远不知道模型的劣变究竟属于模型本身原理与结构的问题还是参数过度优化导致的历史数据拟合。
传统的统计模型归根截底是回归或分类问题,比如说在肿瘤筛选中,利用肿瘤的大小,患者的年龄等参数,计算出肿瘤是良性还是恶性的;再比如房价预测,利用房屋地段,卧室个数,面积大小,是否沿街,计算出房屋的估价……通过对于历史数据的研究,人们总能找到一个数学方程来表征该模型,使历史预测数据和历史真实数据最大程度上匹配。
通过计算机技术,人们可以轻易地使历史数据匹配做到完美,触碰过度拟合的红线。但是人们设计模型的目的不是预测过去,人们更多地希望通过该模型为未来的决策作参考。因此,人们便设法去除一些人为的优化,使其在未来的表现更为一致。
对付过度拟合的方法也十分简单——引入参数的惩罚机制:模型参数结构越复杂,其预测错误的代价也就越大。通过这种机制,人们得以轻易地把一些令模型变得奇怪的因素剔除。举个例子:一个模型发现某地天气情况与当地气温,季节,以及物价指数之间有很好的联系,通过后三者预测天气的准确率在95%以上。常识告诉我们物价指数和天气其实并没有直接的联系,我们如果仅仅以气温、季节来预测当地天气,也许模型对于过去数据的预测准确率不那么高,但是毕竟新的模型逻辑上更通顺,用它预测未来更为合理。
另一种方法是将历史数据打乱顺序并分成二块,第一块数据用作模型设计,挑选合适的参数,第二块数据作为样本外测试。如果样本外测试的结果显著劣于样本内测试,则说明参数过度拟合。通过计算机优化,人们可以比较容易地得到一组参数使得样本内、样本外测试都获得最佳的结果。
统计模型的过度拟合容易对付,而投资模型的过度拟合就没那么简单了。
投资中最常见的模型莫过于各种形式的追涨杀跌,比如说同时比较几个资产的涨跌幅,买入涨得最好的那个,又比如当一个资产的价格突破某一个阈值时买入,期待后续上涨。相较于统计学模型,这类投资模型结构颇为不同:统计学使用的是简单的等式模型,投资模型更像是一种逻辑过程的模型——当事件触发,则执行命令。模型结构上的不同,造成投资模型在其原理上很难消除过度拟合的影响。
我们无法采取统计学上增加代价惩罚的方法,因为投资模型本质上不是回归或者分类;另一方面,资产成交价格的客观性不如其他统计数据,资产成交价同时受基本面、买卖双方预期,以及其他人性的因素所左右。这就造成了一个问题:在设计模型的时候,往往样本内、样本外的收益风险比都达到了预期的效果,但是也许未来哪一天整个市场的微观结构变化,造成整个模型失效。
判定这类失效是摆在全世界投资人面前的一道难题,你不知道在这之后,模型会不会又变得和当初设计时一样理想,你也不知道此时修订模型(改逻辑结构、参数)是否会令模型重新步入正轨。
也正因如此,量化投资的团队对于模型失效、过度拟合这类问题都是他们的不传之秘。行业经验在这种情况下,或许是解决该问题最好的方法。而在没有对过度拟合有足够深刻的认识前,投资者必须认识到,凡是模型就都会遇到这个问题,而这个问题在投资领域里,解决起来没有那么容易。
发布于2016-01-01 21:59来自雪球
https://xueqiu.com/7927956241/62859338
0