科学评估

AI 因子评估为什么需要分层留出集,而不是只做一个样本外

解释在 AI 时代的因子工厂中,为什么评估需要引入分层留出集、阶段留出和任务留出,才能更真实地衡量自动生成因子的稳健性。

2026-04-028 分钟
传统量化研究里,一个 clean 的 train / validation / test 切分已经能解决不少问题。但当你开始用大模型、搜索算法或模板工厂批量生成因子时,研究尝试次数会迅速上升。即使你没有显式修改 test set,团队也很可能在无数轮筛选、提示调整、模板淘汰和 rerun 里逐渐学会“哪类东西更容易在这个样本外里好看”。到了最后,所谓 OOS 已经不再真正独立,只是变成被间接学习过的赛题。
因此,AI 因子时代需要的不是更漂亮的单一 OOS,而是更难被反复试错污染的 holdout hierarchy。你可以同时保留时间留出集、资产留出集、市场留出集,甚至任务留出集。例如某批因子只在股票日频上被调过,那就应该保留从未接触过的期货、行业或事件样本来验证迁移性。这样做的目标,不是把门槛抬高到无法研究,而是防止工厂式生成把评估变成一场会偷看答案的迭代游戏。
  • AI 因子工厂会显著放大“间接偷看样本外”的风险
  • 分层留出集的意义,是让不同类型的过拟合都没有轻易藏身之处
  • 图示建议:展示时间、资产、市场、任务四层 holdout hierarchy

分层留出集具体该怎么设计

第一层仍然是时间留出,因为未来信息泄漏永远是首要风险。第二层是资产或横截面留出,用来检查模型是否只是记住了特定标的结构。第三层是市场或制度留出,例如把另一类资产、另一交易时段或另一撮合制度保留下来,看看表达能否跨场景成立。第四层可以是任务留出,比如某类因子只围绕动量家族训练过,就拿波动结构或流动性相关任务做外部挑战。
这种设计会让结果更难看,也更诚实。你可能发现很多 AI 生成因子在主样本里并不差,但一旦跨到不同资产或不同任务就迅速失灵。这个发现并不是坏事,恰恰说明评估在替你节约未来的部署成本。高级因子评估真正追求的,也从来不是证明策略“赢过历史”,而是及早发现它输给真实世界的方式。
  • 时间、资产、市场、任务是四类最有价值的留出维度
  • 分层留出会让结果更严格,但也更接近实盘约束
  • 越早暴露迁移失败,越能节约后续部署和运维成本

为什么这会成为未来因子工厂的默认配置

当 AI 成为因子生成器后,研究效率提升是必然的,但评估标准如果不升级,效率只会更快地产生假发现。也正因为如此,未来的因子工厂应该把 holdout hierarchy 设计成平台默认项,而不是由研究员临时决定。系统可以在每次新因子入场时自动生成它的验证地图:哪些时间段被看过,哪些资产暴露过,哪些市场和任务还没验过。这样一来,评估会从“事后补救”变成“流程内置”。
这也和学院高级评估课程的方向完全一致。课程一直强调,评价标准必须随研究产能同步升级。AI 让因子生产更快,评估就必须变得更分层、更制度化。否则,所谓智能化只是在放大统计幻觉。
  • AI 提升了生成效率,也必须同步抬升评估标准
  • 把 holdout hierarchy 做成平台默认项,比人工临时约束更稳
  • 未来因子工厂的竞争力,将越来越体现在评估制度而非表达数量

关键结论

  • AI 因子时代的核心风险,是单一样本外会被反复试错间接污染
  • 分层留出集能从时间、资产、市场和任务四个维度限制假发现
  • 把分层评估制度化,才是因子工厂升级到 AI 时代的关键动作

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105