机器学习量化

先去噪再谈深模型,创业板高频动量的教训比架构更重要

围绕一篇关于创业板高频动量策略的研究,讨论为什么金融预测任务里数据去噪和模型简化常常比继续叠网络层数更重要。

2026-04-249分钟
金融机器学习里经常有一种习惯:只要任务复杂、噪声大,就继续堆更复杂的模型结构,希望网络自己把有用模式学出来。本文反过来处理这个问题。作者先承认中国创业板高频动量数据里存在显著的 microstructure noise、流动性扰动和短期异常成交影响,然后把 wavelet denoising 放到建模之前,先试着提升输入信号质量,再去比较不同复杂度模型的表现。
这种思路其实更贴近量化研究的常识。很多时候策略弱,不是因为模型不够深,而是输入本身已经被噪声污染得太厉害。论文在这一点上给出的信息量很高:对 turnover 序列做 wavelet 去噪后,平均 Signal-to-Noise Ratio 提升达到 10.7 dB,而后续表现最稳的并不是最复杂的深层网络,而是更克制的线性或浅层模型。
  • 在高噪声市场数据里,先提纯输入再谈模型复杂度更合理。
  • 去噪效果本身就是研究对象,不该被藏到 preprocessing 附录里。

论文做得好的地方,是它没有把“模型赢了”误写成“复杂度赢了”

摘要里最值得保留的结论,不是某个架构名字,而是“single-layer neural networks and regularized linear models surpassing deeper architectures”。这句话在金融机器学习里非常重要,因为它直接挑战了一个流行但脆弱的直觉:数据复杂就一定需要更深模型。本文给出的证据恰恰说明,当去噪做得足够好,复杂度未必继续带来净增益,反而可能因为自由度太高,吃掉本来就稀薄的可泛化信号。
从策略研究角度看,这也意味着 preprocessing 和 architecture 不能混在一起评价。若只看最终 Sharpe 或组合表现,团队可能会把“数据被处理得更干净”误读成“某个模型结构更先进”。作者把这一层拆开,虽然仍然是一篇偏应用型论文,但至少让结论更容易转成研究流程上的改进。
  • 复杂模型输了,不代表深度学习无效,而是说明 preprocessing 贡献更大。
  • 把输入处理和模型结构拆开比较,能减少技术叙事误导。

这篇论文的不足,在于实证环境和交易可实现性仍然偏理想化

尽管论文强调高频动量,但从摘要和前文设定看,它仍然更像日频层面的高维横截面预测,而不是队列位置、盘口冲击和真实成交约束下的高频交易。对中国创业板这类流动性和制度特征都很鲜明的市场来说,若没有更完整的交易成本与容量分析,很难把 Sharpe 结果直接转成可实现收益。
另外,样本单一市场单一板块的特征也限制了外推力度。创业板的噪声结构和风格轮动,很可能和其他市场或其他股票池不一样。如果团队把本文结论直接推广成“任何高频动量任务都该先上 wavelet”,那就又把方法论读过头了。更准确的吸收方式是:先系统检测信号噪声,再决定是否值得上复杂模型。
  • 高频表述不等于已经覆盖真实执行摩擦和容量约束。
  • 单市场结果更适合做方法提醒,不适合直接上升成普适结论。

对量化团队更可执行的启发,是把“去噪收益”单独列成研究指标

很多团队做模型评审时,只比最终收益和回撤,很少把 preprocessing 的收益单独算出来。本文给出的最好启发,就是以后每个预测项目都应新增一列:预处理增益。里面至少要回答,信号质量提高了多少,模型复杂度因此是否可以下降,以及在更简单的架构下能否保留大部分性能。只要这列不单独看,团队就会不断把工程复杂度往模型堆,而忽略数据层面本来就能解决的问题。
对学习者来说,这也是一堂很重要的金融 ML 反直觉课。不是所有任务都需要更深网络,有时候真正该做的是先把噪声剥掉,再让模型保持节制。把这个顺序倒过来,往往就是金融预测项目越做越复杂、却越来越不稳的起点。
  • 预处理增益应单列评估,不能只埋在最终回测结果里。
  • 模型克制本身也是研究纪律,不只是算力妥协。

关键结论

  • 高频预测里最容易被低估的,不是模型不够深,而是输入噪声没处理好。
  • 论文用创业板数据再次提醒我们,复杂模型并不自动等于更强泛化。
  • 模型评估里应当把 preprocessing 和 architecture 分开看,避免把两者混成一个故事。

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105