特征工程

电视广告数据不是天然 alpha,先把它做成像样的注意力因子才有资格回测

解读 Stock Return Prediction Using Television Advertising Data,讨论电视广告曝光如何转成注意力因子、为什么它在日本市场里能打出较高 Sharpe,以及这类 alternative data 信号最脆弱的地方。

2026-04-288分钟
替代数据研究最容易出的问题,是先被数据本身的新奇感迷住,再去拼一个像样的回测。Hirata 这篇文章相对难得的一点,是它没有停在“广告多的股票可能更热”这种叙述层,而是先把 660 万条电视广告记录清洗成可聚合的 TV Index,再用 coverage 与 concentration 两个维度去构造组合。也就是说,它先把原始媒体记录压成了一个像因子一样可比较、可筛选的信号,后面才谈收益。
这一点对于量化团队特别关键。因为很多替代数据不是不能用,而是没有经过足够严密的特征工程,导致它们在样本里只是散乱的 attention 痕迹,根本谈不上稳定信号。论文至少说明了一件事:如果想让媒体曝光进入系统化投资流程,第一步不是更复杂的模型,而是把注意力变量做得足够可复现。

方法上的优点,是它把 attention 信号做成了分层实验而不是单点演示

作者没有只展示一条最优曲线,而是把 firm-level 和 industry-level 两种聚合方式,以及不同 coverage threshold、不同 concentration level 放进同一个参数网格里。这种做法虽然不复杂,却能让研究者更清楚地看到:收益表现究竟是稳定来自某个 attention 机制,还是只在一小块参数区间里偶然显眼。
论文还补了 Fama–French 三因子滚动回归,试图说明 TV Index 不是纯粹的市场风险暴露替代品。对替代数据研究来说,这一步是必要的。因为如果一个新信号连基本的 risk decomposition 都不做,最终很容易只是用新的数据源重新包装已有因子。

但这类结果也最容易被样本期、筛参和选择偏差放大

样本覆盖 2019 到 2024 年,本身就处在媒体消费习惯、疫情冲击和日本市场风格波动都很特殊的一段时间里。电视广告的边际信息含量会不会在更长样本里持续存在,论文没有完全回答。更现实的问题是,热力图里可调参数较多,研究者完全可能在 ex post 选择最漂亮的区间,这会让 headline 结果显得比真实可复现性更强。
另外,广告曝光与公司规模、品牌成熟度、消费行业属性天然相关。即便作者做了风险回归,也很难完全排除 attention 变量和这些基本面结构共同移动的影响。若团队想复刻这类信号,必须优先做 transaction cost、数据时滞和 out-of-sample 再验证,而不是只盯着样本内 Sharpe。

对特征工程团队更有价值的启发,是替代数据先要变成规范特征,再谈模型

这篇论文最可迁移的经验不是 Golden Cross 本身,而是它把异构媒体记录变成了规则清晰的 attention feature。很多团队处理替代数据时容易一开始就丢给深模型,但真正决定成败的,常常还是聚合规则、覆盖率阈值、缺失值处理和时间对齐。广告数据只是一个案例,卫星图、招聘文本和门店流量也一样。
所以更稳的落地顺序应当是:先把数据整理成跨公司可比较的规范化指标,再做风险暴露检查,最后才决定是否值得送进更复杂的模型。这篇文章如果当成“广告也能选股”的故事,收获有限;如果当成“替代数据怎样才算被做成因子”的案例,价值会大得多。

关键结论

  • 替代数据能否进入量化流程,关键在于它能不能被稳定地转成可比较特征,而不是它听上去多新。
  • 论文最有价值的部分,是用 coverage 与 concentration 两层筛法把广告记录做成了可分层信号。
  • 这种结果极度依赖样本期和信号构造,若不做交易成本与选择偏差审计,很容易被 attention 故事带着跑。

关联课程

如果你想把这篇文章里的方法系统化学习,可以从这些课程继续深入。

继续阅读

微信:446860105