科学评估

因子评估为什么不能只看一次样本外:市场状态梯子比单次切分更重要

围绕因子工程科学评估的核心难题,解释为什么单一样本外切分不够用,并提出更贴近企业级因子体系的市场状态梯子、层级保留集和上线 gate 设计。

2026-04-059分钟
在很多教学材料里,样本内训练、样本外测试仍然是最常见的评估框架。但真正做过中长期因子研究的人都知道,只做一次切分,很容易把一个偶然适配某段风格的结构误认成可长期复用的 alpha。因为市场并不是均匀时间轴,而是由风险偏好、流动性、政策预期和板块轮动组成的状态序列。
如果一个因子只在流动性充裕和趋势顺滑的环境里表现很好,那么单次切分刚好把这段环境留在测试集,它就会显得特别优秀。可一旦进入缩量、去杠杆或行业风格切换阶段,所谓稳定性就迅速消失。所以真正该问的,不是“这个因子有没有通过一次 OOS”,而是“它在不同状态梯子上会不会系统性退化”。
  • 单次切分容易把偶然环境当成因子能力
  • 制度切换会让传统 OOS 评价失真
  • 评估目标应从一次通过,改成跨状态稳定

市场状态梯子,才是更接近企业级评估的结构

更稳妥的设计,是把评估拆成多级梯子。第一层是时间切分,保证未来信息不泄漏;第二层是市场状态切分,把高波动、低波动、风格切换、拥挤交易等环境分开;第三层是资产池和行业结构切分,看因子是不是只在少数子样本中成立。这样做虽然更麻烦,却能更清楚地定位因子到底是在什么时候、什么地方有效。
这套方法与学院高级评估课程强调的企业级因子工厂非常一致。真正的工厂不追求“总表上看起来都很好”,而是希望知道每个因子的能力边界、退化速度和替代方案。只有这样,因子上线后出现问题时,团队才能快速判断是标签漂移、环境变化,还是研究假设本来就过于脆弱。
因子评估梯子时间分层市场状态分层资产池分层上线 gate从时间、状态到资产池,逐层缩小偶然性。
从时间、状态到资产池,逐层缩小偶然性。
  • 时间切分负责防泄漏,状态切分负责识别退化,资产切分负责查边界
  • 层级评估比单一总分更适合做上线决策
  • 评估报告应当回答因子何时失效,而不是只回答何时成功

把评估做厚,反而能让策略上线更快

表面上看,加入更多评估层会拖慢研究速度,但长期看它反而能提升产能。因为当你知道某个因子只在特定状态下有效,就可以更快决定它适合进入主策略、作为辅助过滤器,还是只保留在观察池。评估越清楚,后续组合、风控和部署的讨论越不容易陷入争论。
这也是 AI 时代做量化必须坚持的原则。模型能让你更快生成候选因子,却不能替你建立可信的证据链。真正决定研究质量的,仍然是评估架构。如果这一步偷懒,后面只会用更快的速度生产更多噪声。
  • 厚评估不是拖慢研发,而是在减少后续返工
  • AI 生成候选因子后,更需要分层证据链
  • 上线前清楚知道因子边界,比上线后补锅更便宜

关键结论

  • 因子评估不能停留在一次样本外切分,因为真实市场由多种状态组成
  • 更稳的框架是时间、状态、资产池三层梯子,再接上线 gate
  • AI 能加速因子生成,但不能替代企业级评估证据链

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105