这篇文章最值得优先关注的要点是什么？

Level-2 的优势在于能直接研究订单结构而不只是价格快照；大小单、长短单与时间切片的交叉能系统扩展微观特征空间；逐笔订单因子要走向落地，必须接上完整的验证与组合流程

读这篇文章时，建议优先看哪些部分？

建议优先阅读：先定义订单对象，再谈因子，否则只是把高频字段堆在一起、为什么要把大小单与长短单交叉，而不是只盯“大单流入”。

特征工程Level-2逐笔订单微观结构订单因子

Level-2 逐笔订单里，大小单与长短单可以怎样组合成可研究因子

基于 Level-2 逐笔订单研究材料，解释如何从订单大小、成交完成时长与开收盘时段切分出结构化特征，并用更工程化的方法理解微观结构因子。

2026-03-3110分钟

Level-2 数据真正珍贵的地方，不是“比 Level-1 更密”，而是它把交易订单的结构显性化了。逐笔订单里除了价格和数量，还能看到订单编号、时间戳、拆分成交关系以及买卖两侧更细的属性。这样一来，研究对象就不再只是 bar 数据，而是一个个可被重新组织的订单事件。

材料里对“大小单”和“长短单”的定义非常适合做成工程模板。一个直观写法是

Big(size; k) = \mathbf{1}[size > \mu_{size} + k \sigma_{size}], \quad Long(duration; k) = \mathbf{1}[duration > \mu_{dur} + k \sigma_{dur}]

。也就是说，先用均值加若干倍标准差去定义什么叫大、什么叫长，再在这个基础上做后续交叉。源材料采用了

k = 1.0, 1.5, 2.0

三档阈值，本质上就是在控制因子对稀有大单和极端长单的敏感度。

微观结构研究的关键，是把逐笔数据整理成稳定的特征生产线。

Level-2 研究的起点是订单事件，而不是更密的 K 线
Big 和 Long 都是阈值化定义，关键在于阈值与样本分布的关系
先把订单对象定义清楚，后面的因子工厂才有一致口径

为什么要把大小单与长短单交叉，而不是只盯“大单流入”

“大单”和“长单”看起来都像在描述主力行为，但它们并不是同一件事。订单大小描述的是成交量级，完成时长描述的是一笔委托在撮合机制中的完成过程。一个大订单可能被迅速吃掉，也可能被慢慢消化；一个长时间完成的订单，也未必一定很大。把这两个维度交叉起来，才有机会区分信息优势订单、流动性承接订单和纯噪声交易。

工程上常见的做法，是把买卖方向、大小标签、长短标签和时段切片一起组合。例如可以围绕 BigBuy、BigSell、LongBuy、LongSell 这类状态做统计，再用归一化写法构造强弱对比。一个常见模板可以表达成

I_t = \frac{Amt_{BigLongBuy} - Amt_{BigLongSell}}{Amt_{BigLongBuy} + Amt_{BigLongSell} + \varepsilon}

。这里的重点不是死记某个比值，而是理解：归一化的目的，是让不同时段、不同股票、不同活跃度之间的信号可以被横向比较。

源材料通过“大小 x 长短 x 时间窗口”的交叉，最终扩展出了大规模订单因子族。真正值得学习的地方，是这种从微观概念到批量特征工厂的展开方式，而不是只盯着某个缩写命名。

大小单和长短单是两个相关但不重合的结构维度
交叉的意义在于区分交易动机，而不是制造更多缩写
归一化处理是让订单信号可比较、可横截面的关键动作

240 个因子之后，真正拉开差距的是验证纪律和组合能力

材料报告里提到，在给定样本期内，这组订单因子里有相当数量在 20 日换仓设定下表现出不错的 RankIC。一个常见的评价写法可以记成

RankIC_h = corr(rank(f_t), r_{t+h})

，也就是比较当期因子排序与未来

h

日收益排序之间的相关关系。这个指标能快速告诉你某类微观结构特征是否有横截面解释力。

但对课程体系来说，更关键的不是记住“哪几个因子在某个样本期好”，而是知道这类信号为什么必须继续经过多层过滤：5 日与 20 日收益预测是否一致，平滑后提升是不是只是减少噪声，换手和交易成本会不会吃掉优势，不同板块和指数成分上的稳定性是否一致。只有经过这些验证，你才能判断自己挖到的是结构信号，还是某一段历史里的偶然形状。

所以，Level-2 因子挖掘的终点从来不是“列出 240 个名字”，而是把逐笔订单研究接到标准化评估、相关性控制、样本外验证和组合构建上。真正能落地的团队，最后拼的不是谁能造出更多因子，而是谁能把订单特征稳定地接入整条研究生产线。