/ 未分类 / 0浏览

量化策略的过度拟合与过度优化

过度拟合(overfitting)是统计学、机器学习中的概念,即模型与参数过度地拟合了样本内的数据,或许把很多噪音数据也拟合了,而这些并不能反映数据总体的本质特征,以至于在样本外的数据中拟合效果很差;实际上optimization翻译成中文是“最优化”,要么最大要么最小,既然目标是“最”了,何来过度一说?其实他本质上也是过度拟合的另一种表述,但很多量化策略的研究框架缺乏拟合的目标函数,所以不存在“过度拟合”一说,为了表达类似的意思,就采用了“过度优化”一词。

解决过度拟合的方法是正则化(regularization)或收缩化(shrinkage),本质上是限制参数优化的范围,使之不能完全拟合样本内的数据,牺牲样本内的拟合精度,换取样本外的拟合精度。比如图像处理也有低通滤波和高通滤波,一幅图像有整体轮廓以及细节纹理,整体轮廓具有普适性,细节纹理则每幅图差异很大。如果一个图像识别算法能更好地捕捉整体轮廓,牺牲对细枝末节的识别,则在样本外的测试中或许可以表现更好一些。

一般量化策略的过度优化是指先采取一定的标准,在样本内选取“最好”的策略,但这些策略在样本外表现不好。一般这个领域有一些专有名词,比如“参数高原”之类的,正规的统计、机器学习是没有的。

过度拟合产生的原因包括:

数据分布改变。金融数据是非平稳时间序列,波动时大时小;另外之前没有夜盘现在有了夜盘,夜盘时间也有所改变;还有就是最小买卖价差和手续费的调整也会有影响;另外,如果把太大量分布不同的数据放在一起训练也未必能得到好的结果。

因子预测能力变弱。有些因子在样本内跟预测对象正相关,到了样本外突然变成负相关。比如有时候小盘股更好,有时候大盘股更好,单纯的市值因子不够稳定;

正则化使用不当。正则化太强会弱化模型,即使样本外预测准确,但也未必能盈利,这是欠拟合;如果正则化太弱,样本外则很可能亏钱,这是过度拟合。

数据分析是一门极度依赖经验的学科,如何调整参数技巧性极强,有时也未必有很靠谱的理由。这跟工科比较像,工程师很多工作也高度依赖经验,科学家才讲道理,有时候也未必学历高就能解决问题。

举个例子。比如我老家的旧电视,显示有问题,我怎么按都不行,但我10岁的小堂弟却能打的开,他总结了一条规律——右边第二个键按3下,右边第一个键按4下,就能开了;我试了确实可以,虽然这没有什么道理,但试了几年都可以,我也不知道什么时候突然就不行了。这算不算过度拟合?


发布于 2017-05-10 14:59
https://zhuanlan.zhihu.com/p/26823648

“过度拟合”如何影响投资策略https://wallstreetcn.com/member/articles/3351166

0

  1. This post has no comment yet

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注