机器学习量化

做金融时序深度学习基准,为什么该先优化 Sharpe 而不是 MSE

基于深度学习金融时序大规模基准论文,解释为什么金融模型比较应该以风险调整收益为核心,而不是把 MSE 或方向准确率当成唯一评价标准。

2026-03-319分钟
很多机器学习基准天然倾向于用 MSEMSEMAEMAE 或分类准确率来比较模型,因为这些指标和监督学习的标准范式高度兼容。但金融时序研究的任务并不只是“把下一个数猜准”,而是要把预测翻译成仓位、仓位翻译成收益、收益再接受风险与成本约束。因此,真正更接近任务目标的写法通常是
Sharpe = sqrt{252} imes rac{E[r]}{sigma(r)}
,也就是让模型直接对风险调整后的持仓结果负责。
这篇大规模基准最重要的价值之一,就在于它没有把模型比较停留在误差层,而是把任务定义成预测加持仓分配问题。这样一来,线性模型、RNN、Transformer、状态空间模型和新型序列表征方法就被放到了更公平的交易目标上比较,而不是只比谁在静态预测误差上更漂亮。
金融时序基准最该盯的,不只是预测误差 真正有意义的比较,要把风险、成本和稳健性一起拉进来。 目标函数 Sharpe 比较模型时先看风险调整收益是否更强。 样本范围 15Y 跨市场周期的长样本,比单一牛熊区间更重要。 资产覆盖 Futures 商品、股指、债券、外汇一起看,才能知道泛化能力。 鲁棒性 Seeds/Cost 随机种子和成本缓冲会改变模型排序。
基准测试真正难的不是比模型,而是把比较目标定义对。
  • 金融时序模型最终交付的是收益分布,不是误差分布
  • 把目标写成 Sharpe 优化,更接近真实持仓任务
  • 误差低不等于交易后表现一定更好

大规模比较告诉我们的,不是“哪种架构永远最强”,而是哪种归纳偏置更适合金融

论文在 2010–2025 的多资产期货数据上比较了线性模型、循环网络、Transformer、状态空间模型和更近年的序列表征方法,结论并不是“参数越大越赢”,而是能够显式学习时序结构、同时对持仓目标友好的架构更占优势。这背后最值得记住的不是某个模型名,而是一个更通用的原则:金融时序里的有效模型,往往不是算得更复杂,而是归纳偏置更贴近非平稳、噪声高、信号弱而成本真实存在的世界。
这也解释了为什么有些看上去理论上更先进的模型,在金融基准里并没有稳定压倒一切。金融数据不是语言数据的简单变种,时间依赖、状态切换、收益分布厚尾和市场摩擦都会改变模型真正该学什么。
  • 模型效果常常取决于归纳偏置是否贴近金融世界
  • 更复杂的架构,不一定自动带来更强的风险调整收益
  • 跨资产、跨周期的基准,能更早暴露模型的伪优势

对研究团队来说,最重要的升级是把“误差比较”改成“决策比较”

如果一套模型在误差层面略优,但它对随机种子极敏感、成本缓冲很薄、尾部风险更差,那它在真实研究流程里就未必值得优先投入。真正成熟的机器学习量化流程,应该把模型比较改成决策比较:这套模型是否能稳定地产生更好的仓位建议?它的表现是否足够覆盖交易成本?它在不同市场状态下会不会快速失真?
一旦用这个视角回看金融模型,很多“学术上更先进”的争论会变得平静很多。最终重要的不是谁在表格里多赢 0.01,而是谁更适合进入真实的研究-回测-执行闭环。
  • 模型比较要从误差层升级到决策层
  • 成本、尾部和种子敏感度都会改变基准结论
  • 金融深度学习最该交付的是可部署的持仓能力

关键结论

  • 金融时序基准更应以 Sharpe 为核心目标而不是 MSE
  • 金融深度学习的胜负常取决于归纳偏置而不是规模崇拜
  • 模型比较最终应该服务真实持仓决策而不是静态误差表

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105