研究方法

高维资产定价里,为什么要主动追求“稀疏因子集合”

结合高维资产定价中的 shrinkage、spanning regression 与滚动窗口设定,解释为什么因子筛选需要显式稀疏化、如何避免前视偏差,以及稀疏框架能给研究者带来什么。

2026-03-3110分钟
高维因子世界最麻烦的地方,不是没有候选项,而是候选项太多、太像、太容易互相替代。传统资产定价里,一个常见的 spanning 回归写法是
rf,t=αf+βfFt+εtr_{f,t} = \alpha_f + \beta_f^{\top} F_t + \varepsilon_t
,也就是用一组基准因子去解释另一个候选因子的收益。如果 αf\alpha_f 不显著,我们倾向于认为这个候选项并没有提供独立信息。
可一旦候选池膨胀到几十、上百甚至更多个异常因子,回归就会面对严重的多重共线、参数不稳定和样本长度不足问题。此时“多放一些因子更全面”这件事本身就可能开始伤害识别能力。模型在样本内看起来几乎什么都能解释,到了样本外却只剩下漂移与失真。高维研究真正需要的,不是更多想法,而是更严的裁剪纪律。
  • 候选池变大后,噪声管理比发现新名词更重要
  • 高维回归最常见的问题是共线和参数不稳定
  • 候选因子越多,不代表有效维度越多

稀疏化不是审美偏好,而是一个明确的优化目标

材料里提出的启发在于,把经典因子模型里隐含的“少数核心因子”假设显式化。最常见的稀疏优化写法之一可以表达成
minbyXb2+λb1\min_b \lVert y - Xb \rVert^2 + \lambda \lVert b \rVert_1
。前半项要求模型保留解释力,后半项则惩罚过多变量同时进入。λ\lambda 越大,模型越倾向于只留下少量真正有边际价值的候选项。
这类框架的价值,不在于让模型看起来更简洁,而在于它能把“删谁、留谁”从拍脑袋变成可重复的流程。先做压缩,再对被筛出的变量做重新估计,再对结果进行显著性和样本外比较,研究者才有机会分清哪些因子是提供新信息,哪些只是换了名字的重复特征。
高维因子筛选的更稳流程 先压缩,再重估,再对样本外和基准,不要一步到位。 1 建候选池 先明确异常因子全集和样本窗口。 2 做稀疏筛选 用 shrinkage 压缩掉明显冗余维度。 3 重新估计 只对留下的因子再做更严格检验。 4 滚动样本外 在时间滚动中反复检验是否稳定。 5 对严格基准 确认不是换一种叙事就显得更优。
高维因子筛选需要的是流程纪律,而不是单次最好看的结果。
  • 稀疏化的目标是保留边际信息,而不是追求视觉上的简洁
  • lambda 控制的是解释力与变量数量之间的平衡
  • 先压缩再验证,比直接全量回归更适合高维候选池

真正决定可信度的,是滚动窗口和前视偏差控制

如果用 2026 年才知道的全样本信息,去决定 2021 年哪些因子最该被保留,那么结论天生就带有前视偏差。更接近真实研究流程的写法应该是:Train[t-W, t-1] -> Select factors -> Predict[t, t+H]。也就是说,每个时点只能依赖当时已经可见的历史数据,先做选择,再让未来来给答案。
这一点看似基础,却是高维因子研究最容易偷懒的地方。因为静态全样本选择常常更稳定、更好看,也更容易讲故事。但如果选择步骤本身已经看到了未来,那么后面的任何优异表现都可能只是信息泄漏后的产物。对量化团队来说,滚动窗口不是形式主义,而是把研究结论从“回忆录”变成“可执行流程”的关键分界线。
所以,高维因子筛选最后真正要回答的不是“我能从一百个因子里挑出几个最好看的”,而是“我能否在每个时点都用一套不看未来的规则,稳定地留下少数仍然有边际价值的因子”。这才是稀疏化真正有意义的地方。
  • 滚动筛选比全样本一次性筛选更接近真实世界
  • 不控制前视偏差,任何筛选结果都可能被高估
  • 稀疏化的终点不是少,而是样本外依旧有解释力

关键结论

  • 高维因子研究需要显式面对稀疏选择问题
  • 稀疏化流程必须和更严格基准一起评估
  • 滚动窗口与前视偏差控制决定筛选结论是否可信

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105