特征工程

新闻共现图最值得保留的,不是又叠一层 GNN,而是把事件关系显式写回特征工程

基于 QuantML 对新闻共现矩阵与图神经网络实践的整理,讨论为什么事件关系显式化比单纯叠加 GNN 更适合沉淀成量化特征工程资产。

2026-04-0910分钟
新闻共现图和图神经网络进入量化研究后,最容易出现一种熟悉场景:研究阶段图做得很漂亮,实体、主题、行业、公告、舆情之间的关系被画成复杂网络,模型输出一个看起来很聪明的分数;可一旦进入团队协作和持续迭代,这套东西却难以沉淀。原因通常不是图方法本身没价值,而是研究成果没有被拆回可复用对象。最终留下的只有一个黑盒分数,其他同事很难理解这个分数究竟在捕捉什么关系,也很难把它和已有因子库对齐。
QuantML 这类实践文章真正有价值的地方,是帮我们意识到:图模型最可贵的增量,不一定是“端到端预测分数”,而是把新闻之间、主题之间、股票之间的关系结构显式提炼出来。比如一条事件对多个股票的扩散跨度、某个行业主题在几天内的重复触发次数、负面事件沿供应链传播的深度,这些都可以从图结构里抽出来,变成团队可读、可回测、可组合的特征列。这样,图方法就不再只是一个高门槛模型,而会变成特征工程资产的一部分。
  • 黑盒图分数难以沉淀为团队资产
  • 图模型真正可复用的部分往往是关系结构
  • 显式化关系后才能进入常规因子库管理

更实用的路径,是先定义事件关系字段,再决定是否上 GNN

从工程角度看,更稳的顺序不是“先上 GNN 再解释结果”,而是先定义好一组事件关系字段,再决定哪些字段需要由图网络辅助提取。关系字段可以包括实体共现强度、主题扩散半径、事件持续时长、行业同步度、供应链传播层级等。这些字段一旦定义清楚,图结构的职责就会更明确:它不是来神秘地替代所有特征,而是负责帮助我们从原始新闻流里抽取这些难以线性描述的关系对象。
这种顺序带来的直接好处,是研究系统变得更可审计。团队可以先不用最复杂的模型,也能比较基础版关系特征和图增强版关系特征的差异。你可以知道增量到底来自图卷积本身,还是仅仅来自把事件关系写清楚。与此同时,图特征还能自然接入科学评估流程:它们可以像普通因子一样被做滞后、做衰减、做横截面分层、看成本敏感性,而不是停在“模型有效”这一句空话上。
  • 先定义关系字段,再上图模型,研究边界更清楚
  • 显式关系字段让增量来源变得可解释
  • 图增强特征也应进入常规因子评估流程

当事件关系被写回特征工程,图模型才真正进入生产语境

把事件关系显式写回特征工程,还有一个经常被低估的收益:它让图方法不再孤立于量化系统之外。很多团队之所以放弃复杂方法,并不是因为它们完全没用,而是因为它们和现有研究资产没有接口。可一旦图模型输出的是一组结构清楚、时间对齐明确、口径可追踪的事件关系特征,后面的组合器、风控器和实盘监控都能接上来。此时图方法才真的从“展示型研究”进入“生产型研究”。
所以新闻共现图最值得保留的,不是为了炫技再叠一层 GNN,而是借这个过程把事件关系从文本洪流中提纯出来,写回特征工程的公共语言。这种语言一旦建立,团队即便未来换模型、换语料、换图结构,已有研究也不会白费。真正沉淀下来的,是一套可复用的事件关系资产。
  • 显式关系特征能让图方法接入现有量化系统
  • 图模型进入生产的前提是接口清楚而非网络更深
  • 沉淀的核心资产应是事件关系语言而不是单次黑盒分数

关键结论

  • 新闻图模型更该沉淀为显式事件关系特征,而不是只留下黑盒分数。
  • 先定义关系字段,再选择图模型,研究会更可审计。
  • 图方法真正进入生产,靠的是接口和资产沉淀,不是复杂度本身。

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105