架构设计

TradeFM 想解决的,不是下一笔成交预测,而是订单流的通用表征问题

基于 TradeFM 论文,解释订单流基础模型为什么首先是一个表征学习问题,以及 scale-invariant features、universal tokenization 和模拟器联动为何关键。

2026-03-3110分钟
TradeFM 的重要性,不只是“J.P. Morgan 训了一个 5.24 亿参数的 Transformer”,而是它把微观结构研究重新表述成了一个通用表征问题。订单流数据天然高度异质:不同股票价格尺度不同、成交频率不同、盘口深度不同、交易时段结构也不同。如果不先解决表示统一问题,再大的模型也只会学到一堆资产特定噪声。
因此,这篇论文真正先解决的是:怎样把多资产、异构、连续的订单事件流压进一个统一离散序列空间里,让同一个模型能跨 9000 多只股票共享参数、共享模式、共享迁移能力。换句话说,TradeFM 的核心难题是 representation,而不是 parameter count。
  • 微观结构基础模型首先要解决异构数据表示问题
  • 订单流数据跨资产差异巨大,不能直接硬拼在一起
  • 通用表征比单纯做大模型更决定最终泛化能力

论文真正的关键创新,是 scale-invariant features 与 universal tokenization

TradeFM 的设计亮点在于,它没有沿用传统那种每个资产单独校准、单独标准化的做法,而是尝试构建 scale-invariant features 和 universal tokenization。直觉上,你可以把它理解成先把不同资产的价格、数量、时间间隔等属性转换到更可比的尺度,再把这些尺度统一映射成可被 Transformer 吃下的离散 token 序列。
一旦这层做对,模型学到的就不再只是“这只股票在某个价位的某种跳动”,而更接近“订单流里某类可迁移的结构模式”。这也是论文能在模拟器联动下重现 heavy tails、volatility clustering 和 return autocorrelation 缺失等 stylized facts,并对 Hawkes 基线取得更低分布误差、还能 zero-shot 到 APAC 市场的根本前提。
TradeFM 的关键链路,不是“大模型”三个字 真正决定跨资产泛化的是从原始事件到统一表示再到模拟器的整条链路。 原始订单事件 价格、数量、时间间隔、方向等异构微观结构数据。 尺度无关特征 先把不同资产的事件压到更可比较的表达空间。 统一 token 化 把异构连续流转成统一离散序列。 基础模型 + 模拟器 学习迁移结构,并在生成与 stress test 中验证
TradeFM 真正的创新在于整条表示与验证链路,而不只是参数规模。
  • scale-invariant features 的目标是让不同资产的事件可比较
  • universal tokenization 让微观结构序列能进入同一模型空间
  • 没有这一步,所谓基础模型很容易退化成资产特定记忆器

对量化团队更现实的启发,是把微观结构模型的用途从预测扩到生成和压力测试

这篇论文还有一个很重要的视角转变:订单流基础模型的价值不应只用“能不能预测下一笔成交”来衡量。它还能服务于生成式 rollouts、模拟器增强、压力测试、极端场景合成,甚至学习型执行代理的训练环境搭建。也就是说,基础模型在微观结构里的真正用途,可能比直接 Alpha 预测更宽。
这对 AI 量化课程体系非常重要,因为它提醒我们:高频与微观结构模型的终点不一定是“明天赚更多”,也可能是让研究和执行系统拥有更强的合成环境、更好的鲁棒性测试和更低的实验成本。TradeFM 的意义,最终在于让订单流研究从专用模型世界,开始走向基础设施世界。
  • 订单流基础模型的价值,不应只用短期预测来衡量
  • 生成、模拟和压力测试可能比直接 Alpha 更先落地
  • 微观结构基础模型更像研究基础设施,而不是单点策略

关键结论

  • TradeFM 的核心问题是订单流通用表征,而不只是做更大的模型
  • 尺度无关特征与统一 token 化是跨资产泛化的关键前提
  • 微观结构基础模型的用途应扩展到生成、模拟和压力测试

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105