机器学习量化

LLM 读公告最有价值的增量,不是三票表决谁赢,而是把分歧本身做成监督聚合特征

基于原论文《Learning to Aggregate Zero-Shot LLM Agents for Corporate Disclosure Classification》,讨论为什么公告理解里更值得沉淀的是跨代理分歧特征,而不是简单投票。

2026-04-0911分钟
一旦团队开始让多个大模型一起读公告,最直觉的做法通常是投票。三个代理各给一个方向判断,再看多数意见是什么,或者用一点置信度做加权,最后得到一个更“稳”的标签。这种方法看起来合理,因为它把复杂系统压缩成了熟悉的 ensemble 模式。但公告类任务和普通分类任务并不完全一样。真正有信息量的部分,很多时候不是大家一致说了什么,而是为什么会在某一类披露上出现持续分歧。比如业绩不错但指引偏弱、表面利好但风险措辞增多、现金流改善却管理层语气保守,这些边界场景往往正是公告交易最值得关注的区域。
这篇论文最重要的提醒就在这里:多代理系统最不该浪费的,不是投票结果,而是代理之间的差异结构。谁更容易悲观、谁对风险措辞更敏感、谁在管理层指引变化上反应更大,这些差异一旦被记录下来,就可以转成一组新的监督特征。这样二层模型学习的就不只是“平均观点”,而是“哪些披露会让代理系统发生结构性分歧”,而这类分歧往往比单一情绪分数更接近市场真正难判断的地方。
  • 公告多代理不该只保留投票结果
  • 边界披露里的分歧往往比一致更有信息量
  • 代理差异结构可以直接变成新特征

更成熟的做法,是把分歧、理由和置信度一起做成元标签输入

如果把多代理公告系统当作工程对象看,更成熟的路径不是“更多代理更多票”,而是把代理输出拆成三层:标签、置信度和理由摘要。标签告诉你方向,置信度告诉你判断强弱,理由告诉你模型关注的是风险、盈利、指引、资本开支还是管理层措辞。当这三层同时进入二层聚合器时,系统得到的就不只是一个简单共识,而是一张结构化判断表。二层模型可以学习:哪些代理在高风险措辞上更可靠,哪些代理在乐观语气里容易误判,哪些公告类型只要出现高置信分歧就值得提高风险惩罚。
这条路线对 AI 量化全流程很重要,因为它把 LLM 从“黑盒阅读器”变成“可监督特征发生器”。公告理解不再是一次性 NLP 结果,而是进入正式因子栈的一组元特征:一致度、置信差、理由相似度、风险措辞偏差、指引分裂程度。这样做的最大收益,是团队终于能研究“代理系统在什么地方失败”,而不是每次都只看最终准确率起伏。对于量化研究来说,能把失败结构化,通常比把单次预测再抬高一点更有长期价值。
  • 标签、置信度、理由应同时进入二层聚合器
  • 元标签思路让 LLM 进入正式因子栈
  • 结构化失败分析比单次准确率更值钱

真正稳定的公告系统,不是更像投票器,而是更像分歧放大镜

一旦把代理分歧当作正经对象来研究,公告系统的定位也会变化。它不再只是一个更复杂的情绪打分器,而更像市场困难样本的放大镜。系统最有价值的时候,未必是所有代理都迅速得出同一结论,而是它能告诉研究员和组合器:这里存在高风险分歧,应该降低仓位、延后动作、或者让后续规则做二次复核。这样公告理解就自然进入了组合管理和风险管理,而不是停在信号层孤军奋战。
所以,多代理 LLM 读公告更值得沉淀的,不是三票表决谁赢,而是把分歧本身做成监督聚合特征。这件事会让 LLM 公告系统更像一层研究基础设施,而不是一层脆弱的“更聪明情绪分数”。对量化团队来说,这种基础设施化路径通常更稳,也更容易长期积累。
  • 公告系统最强价值常在识别高分歧样本
  • 分歧应进入组合和风险层,而不是停在信号层
  • LLM 公告系统更适合做基础设施而非投票器

关键结论

  • 公告多代理系统最该保留的是分歧结构,而不是简单投票结果。
  • 标签、置信度和理由可共同构成元标签输入。
  • 把分歧做成特征,比把 LLM 当表决器更适合长期量化研究。

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105