科学评估

结构化策略最容易高估的,不是收益率,而是回测能不能活到实盘

围绕《Evaluating Structured Strategy Backtests: Peer Benchmarks, Regime Timing, and Live Performance》,讨论结构化策略回测为什么在 live 阶段大幅衰减,以及团队该如何重写评估标准。

2026-04-269分钟
很多结构化策略在募资和渠道分发时,最抓人的永远是那条历史净值曲线。问题在于,那条曲线通常是 pro-forma backtest:策略上线之前按既定规则回放历史数据拼出来的假想记录。对买方和研究团队来说,真正关键的问题不是这条曲线漂不漂亮,而是它在 live 之后还能留下多少。本文用 1,726 个由十家机构分发的结构化策略样本,直接把这个问题抬到样本层回答,难得地把营销材料与真实上线结果放在同一张桌子上比较。
作者最有用的处理,不是只看 raw return,而是继续把比较口径推进到 peer benchmark 和外部 benchmark。一旦把策略收益放进更严肃的相对框架里,很多上线前看起来很亮眼的曲线开始明显掉色。论文因此给出的不是一句“回测没用”,而是更锋利的提醒:很多回测表现其实在描述 launch 之前的共同因子环境,而不是策略本身的稳定 skill。
  • 这不是一篇继续优化 backtest 展示方法的文章,而是一篇直接质问 backtest 可迁移性的文章。
  • 把营销回测和 live 成绩放进同一样本里看,是这篇论文最稀缺的地方。

论文做得扎实的地方,是它没有停留在“回测会衰减”这种空话上

回测上线后会衰减,这件事很多人直觉上都知道,但大部分讨论都停在口头层。本文往前多走了一步:它拆开了不同 benchmark 口径、不同策略 bucket、不同 launch regime,并且把 live-relative decay 单独做成回归问题。这样研究者不只是知道“会变差”,而是能回答“在哪种 launch 环境里变差得最严重”“相对同行之后还剩多少”。这比单看一个 live minus backtest 的平均值更有解释力。
作者还把 launch density 之类更接近 crowding 的变量放进检验里,虽然结果不支持最简单的拥挤解释,但这一步本身值得肯定。因为真正严肃的策略评审,不能只把一切衰减都怪给市场变脸,也要区分是 regime timing、同类策略竞争,还是原始回测构造就有偏。
  • 它把“回测衰减”从一句行业抱怨,变成了可估计、可分组、可解释的问题。
  • 相对基准口径越严格,论文结论越有实务含义。

但它的边界也很明显:样本强在机构覆盖,弱在外部可复现性

这篇论文最大的现实约束,是数据本身来自机构分发样本,而不是完全公开可重复的开源数据库。作者已经披露雇佣关系,这种透明度值得肯定,但也意味着外部研究者难以独立复刻全部结果。对这种研究,正确态度不是因为利益披露就直接否定,而是把它视为“高价值但低可复制”的证据。
另外,结构化策略本身品类复杂,很多产品带有很强的包装差异、期限差异和客群差异。即便论文已经尽量做 benchmark 映射,仍然无法完全消除产品条款层面的异质性。所以它更适合作为评审框架的修正依据,而不是一个可以被机械搬运到所有策略产品上的统一折扣率。
  • 这篇论文的结论可信,但不是那种任何人都能轻易复刻的开放证据。
  • 结构化产品异质性很高,论文更适合改评审框架,不适合做简单系数化折扣。

对量化团队最有用的启发,是把策略上线审查从“看曲线”改成“审 regime”

如果把这篇论文转成团队动作,最有用的变化是把上线前评审表改掉。除了常见的回测收益、Sharpe、最大回撤之外,至少应新增三栏:第一,策略 launch 前所处的 factor 或 bucket regime 是否异常火热;第二,回测优势对 peer benchmark 的超额还剩多少;第三,若用 live 后前 6 到 12 个月做后验校验,回测与实盘差值是否超出该品类常态。没有这三栏,团队讨论很容易继续被单条历史曲线绑架。
这也是本文比很多“如何做更好回测”文章更有价值的原因。它不是教你把故事讲得更圆,而是提醒你:真正会让资金在实盘里受伤的,往往是把强 regime 误当成稳定 skill。
  • 评审结构化策略时,regime 审计应该和收益展示一样靠前。
  • 回测如果不做 peer-relative 和 regime-relative 审查,实盘里很容易被环境反转打回原形。

关键结论

  • 结构化策略营销材料里的回测成绩,远没有很多销售话术暗示得那么可迁移。
  • 把 live 表现改成相对 peer 和外部 benchmark 的比较后,回测优势衰减会更明显。
  • 策略上线时所处的强 regime,本身就是一项必须单独审计的风险暴露。

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105