特征工程

Level-2 逐笔订单里,大小单与长短单可以怎样组合成可研究因子

基于 Level-2 逐笔订单研究材料,解释如何从订单大小、成交完成时长与开收盘时段切分出结构化特征,并用更工程化的方法理解微观结构因子。

2026-03-3110分钟
Level-2 数据真正珍贵的地方,不是“比 Level-1 更密”,而是它把交易订单的结构显性化了。逐笔订单里除了价格和数量,还能看到订单编号、时间戳、拆分成交关系以及买卖两侧更细的属性。这样一来,研究对象就不再只是 bar 数据,而是一个个可被重新组织的订单事件。
材料里对“大小单”和“长短单”的定义非常适合做成工程模板。一个直观写法是
Big(size;k)=1[size>μsize+kσsize],Long(duration;k)=1[duration>μdur+kσdur]Big(size; k) = \mathbf{1}[size > \mu_{size} + k \sigma_{size}], \quad Long(duration; k) = \mathbf{1}[duration > \mu_{dur} + k \sigma_{dur}]
。也就是说,先用均值加若干倍标准差去定义什么叫大、什么叫长,再在这个基础上做后续交叉。源材料采用了 k=1.0,1.5,2.0k = 1.0, 1.5, 2.0 三档阈值,本质上就是在控制因子对稀有大单和极端长单的敏感度。
从逐笔订单到订单因子,通常要经过这几层 不是直接堆字段,而是先把对象、标签、时间窗和归一化串起来。 原始订单层 时间、价格、数量、订单号、买卖方向等逐笔属性。 大小/长短标签层 先按成交量和完成时长定义 Big、Small、Long、Short。 时段切片层 全日、开盘 15/30 分钟、收盘前 15/30 分钟分别统计。 订单因子层 把方向、标签和时段交叉成可批量检验的特征家族。
微观结构研究的关键,是把逐笔数据整理成稳定的特征生产线。
  • Level-2 研究的起点是订单事件,而不是更密的 K 线
  • Big 和 Long 都是阈值化定义,关键在于阈值与样本分布的关系
  • 先把订单对象定义清楚,后面的因子工厂才有一致口径

为什么要把大小单与长短单交叉,而不是只盯“大单流入”

“大单”和“长单”看起来都像在描述主力行为,但它们并不是同一件事。订单大小描述的是成交量级,完成时长描述的是一笔委托在撮合机制中的完成过程。一个大订单可能被迅速吃掉,也可能被慢慢消化;一个长时间完成的订单,也未必一定很大。把这两个维度交叉起来,才有机会区分信息优势订单、流动性承接订单和纯噪声交易。
工程上常见的做法,是把买卖方向、大小标签、长短标签和时段切片一起组合。例如可以围绕 BigBuy、BigSell、LongBuy、LongSell 这类状态做统计,再用归一化写法构造强弱对比。一个常见模板可以表达成
It=AmtBigLongBuyAmtBigLongSellAmtBigLongBuy+AmtBigLongSell+εI_t = \frac{Amt_{BigLongBuy} - Amt_{BigLongSell}}{Amt_{BigLongBuy} + Amt_{BigLongSell} + \varepsilon}
。这里的重点不是死记某个比值,而是理解:归一化的目的,是让不同时段、不同股票、不同活跃度之间的信号可以被横向比较。
源材料通过“大小 x 长短 x 时间窗口”的交叉,最终扩展出了大规模订单因子族。真正值得学习的地方,是这种从微观概念到批量特征工厂的展开方式,而不是只盯着某个缩写命名。
  • 大小单和长短单是两个相关但不重合的结构维度
  • 交叉的意义在于区分交易动机,而不是制造更多缩写
  • 归一化处理是让订单信号可比较、可横截面的关键动作

240 个因子之后,真正拉开差距的是验证纪律和组合能力

材料报告里提到,在给定样本期内,这组订单因子里有相当数量在 20 日换仓设定下表现出不错的 RankIC。一个常见的评价写法可以记成
RankICh=corr(rank(ft),rt+h)RankIC_h = corr(rank(f_t), r_{t+h})
,也就是比较当期因子排序与未来 hh 日收益排序之间的相关关系。这个指标能快速告诉你某类微观结构特征是否有横截面解释力。
但对课程体系来说,更关键的不是记住“哪几个因子在某个样本期好”,而是知道这类信号为什么必须继续经过多层过滤:5 日与 20 日收益预测是否一致,平滑后提升是不是只是减少噪声,换手和交易成本会不会吃掉优势,不同板块和指数成分上的稳定性是否一致。只有经过这些验证,你才能判断自己挖到的是结构信号,还是某一段历史里的偶然形状。
所以,Level-2 因子挖掘的终点从来不是“列出 240 个名字”,而是把逐笔订单研究接到标准化评估、相关性控制、样本外验证和组合构建上。真正能落地的团队,最后拼的不是谁能造出更多因子,而是谁能把订单特征稳定地接入整条研究生产线。
逐笔订单研究走向落地,至少要经过这五步 从定义对象到组合验证,每一步都在过滤噪声。 1 定义订单 先统一大小单、长短单和方向标签。 2 做时段切片 把开盘、全日、收盘行为分开统计。 3 构建因子族 交叉出一组可批量比较的结构信号。 4 严格评估 看 RankIC、成本、换手和板块稳定性。 5 组合落地 最后才进入相关性控制和组合构建。
挖因子只是前半段,验证和组合决定它能否进生产。
  • RankIC 只是入口,不是微观结构因子研究的终点
  • 时间窗、平滑、成本和板块稳定性都必须一起验证
  • 微观结构研究要走向生产,必须接上完整的评估与组合流程

关键结论

  • Level-2 的优势在于能直接研究订单结构而不只是价格快照
  • 大小单、长短单与时间切片的交叉能系统扩展微观特征空间
  • 逐笔订单因子要走向落地,必须接上完整的验证与组合流程

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105