科学评估

选择偏差:为什么测试得足够多,总会挑出一条完美曲线

解释量化研究中的选择偏差机制,帮助研究者理解为什么海量尝试会制造大量假阳性策略。

2026-03-309分钟
很多研究员以为自己是在大量尝试里“逐步发现”好策略,实际上统计学上的真相更接近另一种描述:只要尝试足够多次,你总会从一堆随机结果里选出一个看起来非常优秀的幸存者。测试 100 个因子、500 个过滤条件、几千个参数组合,本身就意味着你会看到大量看似显著的结果。它们并不一定代表真实规律,只是代表“在这批尝试里它们运气最好”。
选择偏差最大的迷惑性在于,它会把幸存者包装得极其有说服力。你最终看到的不是 1000 次失败,而是那一条夏普特别高、回撤特别小的冠军曲线。于是大脑会自然把注意力集中在这个“最好结果”上,忽略它本身就是从极大搜索空间里挑出来的事实。就像 1000 个人同时抛硬币,总会有人连续抛出 10 次正面,但这个人站出来说自己发现了控制硬币的方法,显然并不可信。量化研究里,如果不控制尝试次数,所谓的“最优策略”经常就是这种抛硬币冠军。
  • 尝试次数越多,假阳性越多
  • 最优结果常常就是偏差最重的结果
  • 评估策略时必须把搜索空间一起纳入判断

更稳的研究和验证方式是什么

更稳的处理方式,是把测试次数纳入评估本身。每当你找到一个好结果,都要同步记录自己到底试过多少版本、多少参数、多少候选模型,然后再问:在这么多次尝试里,出现若干个漂亮假象是不是概率上本来就很正常。进一步还需要引入多重检验校正、PBO、CSCV 之类的工具,用概率的方式去约束“冠军策略”的可信度,而不是只看它在回测里的单次得分。
选择偏差并不是量化研究里的小瑕疵,而是最常见、最系统性的误判来源之一。它之所以难防,是因为研究者几乎都喜欢不断测试、不断优化,而这种积极探索本身又会自然扩大偏差。想真正建立可靠研究框架,就必须接受一个不那么令人兴奋的事实:很多时候,排名第一的结果并不值得最先相信,反而最该被优先审问。

关键结论

  • 选择偏差会系统性高估回测冠军
  • 不记录测试次数,几乎无法诚实评估结果
  • 真正严谨的研究要同时评估策略和搜索过程

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105