这篇文章最值得优先关注的要点是什么？

选择偏差会系统性高估回测冠军；不记录测试次数，几乎无法诚实评估结果；真正严谨的研究要同时评估策略和搜索过程

读这篇文章时，建议优先看哪些部分？

建议优先阅读：为什么这个问题会反复坑到量化研究者、更稳的研究和验证方式是什么。

科学评估选择偏差多重检验假阳性策略评估

选择偏差：为什么测试得足够多，总会挑出一条完美曲线

解释量化研究中的选择偏差机制，帮助研究者理解为什么海量尝试会制造大量假阳性策略。

2026-03-309分钟

很多研究员以为自己是在大量尝试里“逐步发现”好策略，实际上统计学上的真相更接近另一种描述：只要尝试足够多次，你总会从一堆随机结果里选出一个看起来非常优秀的幸存者。测试 100 个因子、500 个过滤条件、几千个参数组合，本身就意味着你会看到大量看似显著的结果。它们并不一定代表真实规律，只是代表“在这批尝试里它们运气最好”。

选择偏差最大的迷惑性在于，它会把幸存者包装得极其有说服力。你最终看到的不是 1000 次失败，而是那一条夏普特别高、回撤特别小的冠军曲线。于是大脑会自然把注意力集中在这个“最好结果”上，忽略它本身就是从极大搜索空间里挑出来的事实。就像 1000 个人同时抛硬币，总会有人连续抛出 10 次正面，但这个人站出来说自己发现了控制硬币的方法，显然并不可信。量化研究里，如果不控制尝试次数，所谓的“最优策略”经常就是这种抛硬币冠军。

尝试次数越多，假阳性越多
最优结果常常就是偏差最重的结果
评估策略时必须把搜索空间一起纳入判断

更稳的研究和验证方式是什么

更稳的处理方式，是把测试次数纳入评估本身。每当你找到一个好结果，都要同步记录自己到底试过多少版本、多少参数、多少候选模型，然后再问：在这么多次尝试里，出现若干个漂亮假象是不是概率上本来就很正常。进一步还需要引入多重检验校正、PBO、CSCV 之类的工具，用概率的方式去约束“冠军策略”的可信度，而不是只看它在回测里的单次得分。

选择偏差并不是量化研究里的小瑕疵，而是最常见、最系统性的误判来源之一。它之所以难防，是因为研究者几乎都喜欢不断测试、不断优化，而这种积极探索本身又会自然扩大偏差。想真正建立可靠研究框架，就必须接受一个不那么令人兴奋的事实：很多时候，排名第一的结果并不值得最先相信，反而最该被优先审问。