这篇文章最值得优先关注的要点是什么？

AI 因子时代的核心风险，是单一样本外会被反复试错间接污染；分层留出集能从时间、资产、市场和任务四个维度限制假发现；把分层评估制度化，才是因子工厂升级到 AI 时代的关键动作

读这篇文章时，建议优先看哪些部分？

建议优先阅读：自动生成时代，单个样本外已经不够用了、分层留出集具体该怎么设计。

科学评估样本外验证因子评估AI因子研究方法

AI 因子评估为什么需要分层留出集，而不是只做一个样本外

解释在 AI 时代的因子工厂中，为什么评估需要引入分层留出集、阶段留出和任务留出，才能更真实地衡量自动生成因子的稳健性。

2026-04-028 分钟

传统量化研究里，一个 clean 的 train / validation / test 切分已经能解决不少问题。但当你开始用大模型、搜索算法或模板工厂批量生成因子时，研究尝试次数会迅速上升。即使你没有显式修改 test set，团队也很可能在无数轮筛选、提示调整、模板淘汰和 rerun 里逐渐学会“哪类东西更容易在这个样本外里好看”。到了最后，所谓 OOS 已经不再真正独立，只是变成被间接学习过的赛题。

因此，AI 因子时代需要的不是更漂亮的单一 OOS，而是更难被反复试错污染的 holdout hierarchy。你可以同时保留时间留出集、资产留出集、市场留出集，甚至任务留出集。例如某批因子只在股票日频上被调过，那就应该保留从未接触过的期货、行业或事件样本来验证迁移性。这样做的目标，不是把门槛抬高到无法研究，而是防止工厂式生成把评估变成一场会偷看答案的迭代游戏。

AI 因子工厂会显著放大“间接偷看样本外”的风险
分层留出集的意义，是让不同类型的过拟合都没有轻易藏身之处
图示建议：展示时间、资产、市场、任务四层 holdout hierarchy

分层留出集具体该怎么设计

第一层仍然是时间留出，因为未来信息泄漏永远是首要风险。第二层是资产或横截面留出，用来检查模型是否只是记住了特定标的结构。第三层是市场或制度留出，例如把另一类资产、另一交易时段或另一撮合制度保留下来，看看表达能否跨场景成立。第四层可以是任务留出，比如某类因子只围绕动量家族训练过，就拿波动结构或流动性相关任务做外部挑战。

这种设计会让结果更难看，也更诚实。你可能发现很多 AI 生成因子在主样本里并不差，但一旦跨到不同资产或不同任务就迅速失灵。这个发现并不是坏事，恰恰说明评估在替你节约未来的部署成本。高级因子评估真正追求的，也从来不是证明策略“赢过历史”，而是及早发现它输给真实世界的方式。

时间、资产、市场、任务是四类最有价值的留出维度
分层留出会让结果更严格，但也更接近实盘约束
越早暴露迁移失败，越能节约后续部署和运维成本

为什么这会成为未来因子工厂的默认配置

当 AI 成为因子生成器后，研究效率提升是必然的，但评估标准如果不升级，效率只会更快地产生假发现。也正因为如此，未来的因子工厂应该把 holdout hierarchy 设计成平台默认项，而不是由研究员临时决定。系统可以在每次新因子入场时自动生成它的验证地图：哪些时间段被看过，哪些资产暴露过，哪些市场和任务还没验过。这样一来，评估会从“事后补救”变成“流程内置”。

这也和学院高级评估课程的方向完全一致。课程一直强调，评价标准必须随研究产能同步升级。AI 让因子生产更快，评估就必须变得更分层、更制度化。否则，所谓智能化只是在放大统计幻觉。