华泰证券华泰人工智能系列之十四:对抗过拟合,从时序交叉验证谈起

.PDF

资源格式

559

浏览次数

2.6M

资源大小

94

下载数量

5

宽币价格

时序交叉验证方法适用于时间序列数据, 能够有效防止过拟合
交叉验证是选择模型最优超参数的重要步骤, 本文关注传统交叉验证和时
序交叉验证的比较。我们采用机器学习公共数据集以及全 A 选股数据集,
分别比较两种交叉验证方法的表现。结果表明,对于时序数据, 时序交叉
验证方法在训练集上的表现相对较差,但是在测试集上表现更好。 传统交
叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能
够有效防止过拟合。 借助时序交叉验证的机器学习选股策略能够获得更高
并且更稳定的收益。 推荐投资者在选择机器学习模型超参数时,使用时序
交叉验证方法。
传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为
交叉验证的核心思想是将全部样本划分成训练集和验证集,考察模型在两
部分的表现是否接近。如果训练集的表现远优于验证集,说明模型存在过
拟合的风险。根据训练集和验证集的划分方式,传统交叉验证方法可细分
为简单交叉验证、 K 折交叉验证、留一法和留 P 法。当样本是时间序列时,
数据存在序列相关性,不满足样本独立同分布假设。采用传统交叉验证会
将未来数据划入训练集,历史数据划入验证集,进而出现用未来规律预测
历史结果的“作弊”行为。时序交叉验证既能保证数据利用率,又能保留
时序数据之间相互关系,适用于时序数据的调参。
从多角度比较时序交叉验证与传统 K 折交叉验证
从交叉验证方法使用的前提看,时序数据不满足样本独立同分布原则,违
背传统 K 折交叉验证的前提假设。 从模型选择的最优超参数角度看, 时序
交叉验证倾向于选择超参数“简单”的模型,体现出更低的过拟合程度。
从不同基学习器的比较看,两种交叉验证的差异在逻辑回归等简单模型上
体现不明显,而在 XGBoost 等复杂模型上体现较为明显; 复杂模型更易表
现出过拟合,时序交叉验证能够带来更大提升。 从合成单因子分层回测以
及构建策略组合回测的结果看,时序交叉验证在获取收益方面具备较大优
势, 在控制回撤方面具有一定优势。
时序交叉验证思想可以应用于其它量化策略的参数寻优
除机器学习模型涉及到超参数选择以外,很多量化策略也都涉及参数寻优。
传统的参数寻优方法是将全部样本按时间先后分为样本内和样本外,寻找使
得策略在样本内表现最好的参数,最终应用于样本外。未来可以借鉴时序交
叉验证的思路,将样本内数据按时序切分为若干折,寻找使得策略在多个验
证集平均表现最好的参数,从而提升策略的稳定性,避免过拟合的发生。
风险提示: 时序交叉验证方法是对传统模型调参方法的改进,高度依赖基
学习器表现。该方法是对历史投资规律的挖掘,若未来市场投资环境发生
变化导致基学习器失效,则该方法存在失效的可能。时序交叉验证方法存
在一定欠拟合风险。

免责声明:信息仅供参考,不构成投资及交易建议。投资者据此操作,风险自担。
如果觉得资源对你有用,请随意赞赏收藏
相关推荐
登录后评论
Copyright © 2017 宽客在线 京ICP备15046776号