机器学习量化

横截面标签和时序标签不要混做:机器学习量化里最常被忽略的目标函数错位

从目标函数设计、样本结构和评估口径三个层面解释,为什么横截面标签与时序标签应该分开建模、分开验证,并说明这对机器学习量化与全流程课程的实际意义。

2026-04-0810分钟
横截面任务的核心是,在同一时点比较不同标的谁更强、谁更弱;时序任务的核心是,对单个标的或整体市场在时间上的方向、幅度或状态做预测。它们都可能使用收益率作为标签,但目标函数完全不同。一个更重排序和相对优先级,另一个更重时间依赖和路径结构。把这两类问题混在一起,会让数据组织、损失函数和评估指标都变得含糊。
很多量化实验会犯的错误是:标签写成未来 n 日收益,然后同时拿去做横截面排序和单资产时间序列预测,最后又用同一组评估图解释结果。表面上看模型在“预测收益”,实际上比较对象已经变了。你会得到一些看似还不错的统计量,却很难判断它到底在捕捉相对强弱还是绝对方向。这种目标函数错位,是机器学习量化里非常常见但不够被重视的问题。
  • 横截面和时序问题的比较对象不同
  • 同名标签不等于同类任务
  • 目标函数错位会让评估结果变得难以解释

分开建模的收益,在于每一层设计都能更精确地对齐目标

横截面任务通常需要强调同日标准化、行业或风格中性化、分位排序、截面 IC 和组合分层表现;时序任务则更需要关注滞后结构、状态持续性、序列分布漂移、命中率、收益路径和回撤。两条管线从一开始就应该拆开:样本表结构不同、切分方式不同、损失函数不同、基线模型不同,甚至部署方式也可能不同。
一旦拆开,你会发现很多原本混乱的问题都清晰了。比如一个特征在横截面排序中很有用,但在时序方向预测中不稳定,这并不矛盾,而是说明它擅长回答相对排名而不是绝对方向。同样,一个序列模型在单资产场景表现不错,也不代表它能直接迁移到股票截面排序。分开设计,反而能让特征的能力边界更明确。
  • 拆分管线能让数据、损失函数和评估指标更精确对齐
  • 同一特征在不同目标下可能呈现完全不同的价值
  • 明确任务边界有助于理解模型真正擅长什么

这类目标函数意识,是机器学习量化从“会调模型”走向“会设计问题”的关键

基础课程会讲完整流程,全流程课程会强调研究到部署的闭环,机器学习量化真正的升级点则在于学会先设计问题,再挑模型。很多人停留在模型竞赛思维里,总想比较谁的网络更复杂、谁的参数更多,却忽略了标签与任务设定本身才决定上限。目标函数一开始错位,后面做再漂亮的模型选择,结论都很难可靠。
因此,如果你发现自己的实验总是“回测似乎有点效果,但解释不清”,最值得先回看的往往不是模型结构,而是你是否把横截面和时序任务混成了一锅。把这一步拆开,很多后续验证、组合、风控甚至上线策略都会顺得多。
  • 机器学习量化的真正升级在于问题设计而非单纯调模型
  • 目标函数对齐是解释性和可部署性的前提
  • 先拆清任务,再讨论模型复杂度,往往更有效

关键结论

  • 横截面标签与时序标签虽然都可能预测收益,但目标函数并不相同。
  • 两类任务应在数据结构、切分、损失函数和评估指标上分别设计。
  • 目标函数意识是机器学习量化从模型堆叠走向问题设计的关键一步。

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105