数据工程

为什么 EDA 在量化里不是可选项,而是必修动作

解释探索性数据分析在量化研究中的真正作用,帮助学习者理解为什么数据体检是特征工程和模型训练前最不能跳过的一步。

2026-03-306分钟
量化研究里最容易被低估的一步,就是 EDA。很多人觉得探索性数据分析只是“看几张图、感受一下分布”,于是花很少时间快速略过。但在金融数据里,缺失值、极端值、复权口径差异、频率对齐错误、交易日历不一致、某些字段异常跳点,都会直接扭曲后面的特征和回测结果。没有 EDA,你很可能以为自己在研究策略,实际上只是在研究数据错误。
第一场公开课把 EDA 放在数据输入与预处理之后,正是在强调这件事。只有先确认数据是健康的,后面的 OHLCV 特征、技术指标、模型训练和绩效评估才有意义。
量化 EDA 至少要先查这四类风险 先体检数据,再谈信号,否则回测很容易被脏数据劫持。 缺失值 查完整性 不同市场和字段的缺口会直接影响窗口计算。 异常值 查极端点 跳点有时是行情,有时只是坏数据。 时间对齐 查口径 频率和交易日历不一致会让特征错位。 字段分布 查稳定性 先看字段是否有明显漂移和畸形分布。
EDA 文章适合用数据体检卡片图,让读者形成固定检查清单。

真正好的 EDA,不是花哨展示,而是给后续决策服务

好的 EDA 不是画更多图,而是更快找到对研究真正有威胁的问题。比如某段缺失值会不会影响滚动窗口、某个字段分布偏斜是不是需要稳健标准化、某类极端值是不是应该被单独标记而不是直接删除。只要这些问题提前想清楚,后面的特征工程和模型训练就会稳定很多。
换句话说,EDA 在量化里的价值不在“看起来专业”,而在于它是整个研究流程的第一道风险闸门。

关键结论

  • 量化 EDA 的目标是替后续研究排雷,而不是做展示
  • 很多模型问题,其实根源是数据体检做得不够
  • 先把数据健康状况看清,后面的特征和回测才可信

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

入门基础体系新手友好
查看详情

AI量化基础课程班

适合零基础或弱基础学员,覆盖 Python 入门、交易理念、期货市场基础、策略编写、回测测试、结果分析与 CTA 模拟/实盘对接。

AI量化基础课课程封面
4.9 (2120评价)2120人学习12小时6节

适合零基础或弱基础学员,覆盖 Python 入门、交易理念、期货市场基础、策略编写、回测测试、结果分析与 CTA 模拟/实盘对接。

¥4,999
新手友好
免费公开课腾讯会议录播免费公开课
查看回放

公开课:AI量化交易全流程

适合想快速建立 AI 量化全流程认知的人,通过一节公开课理解数据处理、特征工程、模型训练、对冲策略与回测陷阱。

AI量化交易全流程公开课封面
免费回放腾讯会议录播公开课回放14个专题

适合想快速建立 AI 量化全流程认知的人,通过一节公开课理解数据处理、特征工程、模型训练、对冲策略与回测陷阱。

免费
腾讯会议录播

继续阅读

微信:446860105