(来源:东方金工研究)
核心观点
研究动机
在前期研究中,我们构建的AI深度学习因子展现出显著优势——基于海量样本的非线性收益预测模型具备超强拟合能力,而传统人工构建的时序统计类因子往往难以匹敌。然而,当前因子挖掘面临两大瓶颈:一是挖掘的新因子虽单独有效,但在多因子组合中易受相关性衰减影响,边际效用递减明显;二是深度学习在小样本事件(如低频的盈余公告)中难以发挥优势,人工因子挖掘更具优势。
基于此,我们聚焦盈余公告事件窗口,探索未被充分开发的低相关量价因子空间,其稀缺性体现在:1)公告信息释放引发的价格漂移现象具有独特信息含量;2)事件驱动型量价因子与日频量价和基本面因子相关性低。
AOG因子的缺陷及改进
盈余公告窗口附近量价因子典型的代表是盈余公告次日开盘跳空超额AOG因子。AOG因子2021年10月以来大部分时间十分组的多头组超额收益走平,而其他几组并没有失效,只是其多头组由于超预期的投资模式被大量投资者熟悉后导致在公告前后过度透支业绩从而在公告后没有超额收益。我们围绕AOG因子构建过程中的两个问题进行改进,一个是跨日的时序可比性问题,一个是知情交易者在盈余公告前后提前透支业绩的知情交易者干扰的问题。
改进后得到两个因子,一个是以公告前最大开盘跳空幅度为“真实预期”进行环比操作的DEMAX超预期因子,一个是取公告前开盘跳空的“盈利质量下限”而构造的QUANTILE的盈利质量因子,都具有稳健的选股能力而且近3年的超额收益比历史上更显著,加入现有的多因子体系也能带来超额的提升。
盈余公告异象类衍生因子挖掘
我们将上述因子改进过程抽象为盈余公告事件上的价量特征的因子挖掘框架。复用因子结构加入其他价量特征,例如盈余公告次日最低价涨跌幅、盈余公告次日早盘大单资金净流入占比特征,都能衍生出一批显著的选股因子。这些因子和传统的日频量价类因子低相关,同时又和基本面因子低相关,因此复用这套结构可以很容易构造出一批和现有因子低相关的因子加入因子库中。
一
研究动机
在前期研究中,我们构建的AI深度学习因子展现出显著优势,例如《DFQ-FactorVAE-pro:加入特征选择与环境变量模块的FactorVAE模型》(20250218),《ADWM:基于门控机制的自适应动态因子加权模型》(20250409),基于海量样本的非线性收益预测模型具备超强拟合能力,而传统人工构建的时序统计类因子往往难以匹敌。然而,当前因子挖掘面临两大瓶颈:一是挖掘的新因子虽单独有效,但在多因子组合中易受相关性衰减影响,边际效用递减明显;二是深度学习在小样本事件(如低频的盈余公告)中难以发挥优势,人工因子挖掘更具优势。
下表我们将现有的因子构造体系做了一个梳理。日频量价类因子挖掘是边际效用衰减最快的类型,尤其是在各种深度学习模型的应用之后,人工因子相对于这些模型的增量非常小。而基本面类财务因子本质是盈余公告事件型的因子,并且我们之前的研究《基本面因子的重构》(20240321)和《相对定价类基本面因子挖掘》(20241011)中都做了一些基本面因子挖掘的研究。分析师类因子的研究覆盖同样已经较为充分。
从当前的研究覆盖来看,盈余公告窗口附近的量价类因子的研究较少。而且这些事件是一些小样本事件,很难用复杂的深度学习模型去拟合,基于此,我们聚焦盈余公告事件窗口,探索未被充分开发的低相关量价因子空间,其稀缺性体现在:1)公告信息释放引发的价格漂移现象具有独特信息含量;2)事件驱动型量价因子与日频量价和基本面因子相关性低。

盈余公告窗口附近量价因子典型的代表是PEAD(盈余公告后价格漂移)类因子。自从 1967 年芝加哥大学的 Ray Ball 教授和 Philip Brown 教授在“Analysis of Security Prices”研讨会上首先提出 PEAD(盈余公告后价格漂移)效应后[Ball@1967],预期外盈利异象受到了 50 多年的广泛关注,并且在各个股票市场及长时间尺度上被验证一直持续有效。
我们认为在A股市场,不仅盈余公告后会产生价格漂移现象,在盈余公告前同样也会存在价格漂移现象。在上市公司披露盈余公告前,长期投资型知情交易者可能会持续托举股价,而短线知情交易者可能会提前介入大幅拉升股价;披露盈余公告当天,事件驱动型交易者可能会追逐基本面变化带来的超预期的交易机会;在披露公告当天日内及之后,趋势跟踪交易者可能追逐趋势而持续买入。
这些交易行为不仅仅发生在盈余公告后,也会在盈余公告前体现,并且都会在价和量上产生交易的痕迹,因此围绕盈余公告我们可以尝试依靠这些投资者的价量特征来挖掘一系列的量价异动型因子。

AOG是经典的盈余公告事件驱动因子,如果盈余公告次日开盘高开,可以认为市场对于其盈余公告业绩的认可,由于上市公司并不会都在同一天披露盈余公告,为了跨日可比,一般我们将股票盈余公告次日的开盘收益减去当日市场指数开票收益率作为开盘跳空超额(Alpha of Open Gap,简称AOG)因子:


可以看到该因子的多空收益长期向上,但是2021年9月以来的斜率相比历史略有下降,从累计IC来看近3年稳定性略有下降,但趋势仍然向上。因此从多空收益和累计IC的角度,我们会认为该因子近几年仍然具有不错的选股能力。
然而下图是我们统计了其十分组后月度超额收益的累计单利收益曲线,以及以AOG单因子构建沪深300、中证500、中证1000指数增强MFE组合后的超额收益表现情况等报告),为了降低个股特异性的影响,我们控制了行业0暴露、市值0暴露、个股权重最大偏离0.3%、成分股占比80%、次日VWAP调仓并扣除双边0.3%费用构建月频MFE组合。
可以看到,2021年10月以来大部分时间该因子十分组的多头第10组和第9组累计单利是平的,而第1-8组的收益曲线和2021年10月前没有明显变化,说明该因子近3年从全市场维度并没有失效,而只是其多头组由于超预期的投资模式被大量投资者熟悉后导致在公告前后过度透支业绩从而在公告后没有持续的超额收益。


而从不同指数的MFE增强组合超额曲线来看,2021年10月以来也基本是平的,明显低于历史的超额斜率。
下表统计了各宽基指数上MFE组合的各年超额收益表现情况。可以看到AOG因子以各个宽基指数上近3年的超额收益都在1-2%附近,明显低于其长期年化超额收益。

该因子历史表现优秀,我们希望尝试改进该因子,使得近几年的表现能够提升。这种改进的过程如果能够泛化,进而就可以构造一批新的因子。
二
AOG因子构建的缺陷与改进
从上文AOG因子的构建方式和表现可以看到,该因子的构造过程存在两个明显可以改进的地方。一个是跨日的时序可比性问题,一个是知情交易者在盈余公告前后提前透支业绩的知情交易者干扰的问题。
2.1 时序可比性
在不同上市公司披露盈余公告往往并不在同一个交易日,虽然我们在构建AOG因子时扣除了披露当天市场指数同期收益降低了不同日期市场的系统性影响,但是如果市场指数的开盘收益本身在时序上不是一个随机扰动,那这样的处理方式可能引入了一些bias。下图展示了过去15年每年4月份中证全指指数的开盘涨跌幅的日度均值以及全市场股票日度开盘涨跌幅的标准差均值。可以看到:
4月初到4月末,中证全指有持续性低开的趋势,在4月中下旬披露的盈余公告可能享受到市场的低开从而拉高因子取值的排序。指数持续低开的原因我们认为是4月底大量业绩不及预期的公司披露财报,造成股价低开,从而导致了指数的低开。
4月下旬全市场股票截面开盘收益分化度持续拉高,不同天的收益大小可比性变差。分化度持续增大的原因也是类似,4月底部分公司业绩超预期股价高开而部分公司业绩低于预期股价低开,因此收益分化相比于其他时间段分化更剧烈。

这些现象都导致直接减去当天市场指数的开盘涨跌幅的方式得到的因子跨日的可比性较弱。为了降低这种影响,我们以盈余公告披露当日截面全市场股票开盘涨跌幅的rank分位数作为因子取值,以避免不同交易日的可比性问题。

截面分位数的方式降低了绝对数值的影响更好地刻画了相对强弱程度,对于选股问题来说会更稳健。从下图可以看到,调整后的因子月度IC均值仍然保持0.041,ICIR从3.83提升到4.03,近3年的多头第10组的超额略有改进。

以该AOG_RANK因子构建各宽基指数MFE增强组合的表现如下表所示:
沪深300上年化超额从3.26%提升到3.38%,信息比从1.85提升到1.88;
中证500上年化超额从4.41%提升到4.97%,信息比从1.7提升到1.84;
中证1000上年化超额从7.15%提升到7.68%,信息比从2.31提升到2.48。

2.2 知情交易者干扰
有些公司在盈余公告披露前会有知情交易者提前埋伏拉升,进而透支未来潜在收益;同行业龙头公司披露公告也可能导致市场已经在交易该公司,导致同步高开进而提早透支收益。因此我们认为单纯观察盈余公告当天的高开并不能充分说明其超预期的程度,而要结合公告前的高开幅度作为其“真实预期”。

上图展示了瑞贝卡(600439.SH)在2024年Q3季报发布前后的股价走势。可以看到,在披露盈余公告后第二天股价一字涨停,以AOG因子的构造方式我们会认为其业绩大超预期,将其归入多头组,但是其公告后就开始大幅回撤。主要原因在于其公告前已经大幅拉升过度透支了未来收益。一种常见的处理方法是用公告前一段时间的超额收益作为反转的惩罚项,但是这种方式有个隐含假设是股价炒作会到公告披露当天为止,但是并不是每只股票的炒作都有这么强势,部分股票在公告前可能已经完成了上涨-下跌的提前透支过程,截止公告当天的累计超额并不能反映这种情况。
我们认为隔夜收益更多由基本面定价而日内更多是多空博弈交易的结果。因此我们同样取公告前的开盘跳空幅度作为基本面定价的结果,同上文一样,为了跨日可比我们都将个股开盘涨跌幅转为截面rank分位数,然后取公告前20个交易日的最大值,以此作为公告前知情交易者提前透支的最大暴露程度,也以此作为衡量是否超预期的“真实预期”水平。以公告前AOG_RANK的滚动20日最大值作为因子:

该因子的十分组超额累计单利收益表现如下左图所示。可以看到该因子的前9组差异较小,因为大部分股票在公告前不会有明显的高开行为,而少数股票例如上图中的瑞贝卡,在公告前存在大幅高开的行为,该组的超额收益持续负向,只有2015年有短暂的正向收益。说明公告前大幅高开过的股票在未来大概率是持续跑输市场。

我们以盈余公告次日AOG减去公告前AOG的20日最大值,以此得到AOG_RANK_DEMAX_20d因子,以此来降低知情交易者的交易带来的过度透支收益的问题,也可以理解为以公告前20日开盘跳空最大值作为预期,和公告次日的开盘跳空来比较,衡量其真实的超预期程度。

该因子月度IC均值0.042,年化ICIR为4.04,IC胜率88%,十分组超额累计单利收益如上右图所示。可以看到其多头第10组的超额收益持续保持正向。下图是该因子十分组多空净值,以及单因子MFE指数增强组合的表现情况。

从上面左图看到,因子的多空收益持续向上,尤其是2021年以来明显强于图2中的原始因子的表现。而从各宽基指数MFE增强组合的表现来看,2021年以来超额也是持续正向,并没有走平的迹象。

以该因子构建各宽基指数MFE增强组合的表现如下表所示,大部分年份尤其是2022-2024年的超额得到了明显提升:
沪深300上年化超额从3.26%提升到3.75%,信息比从1.85提升到2.21;
中证500上年化超额从4.41%提升到5.22%,信息比从1.7提升到2.06;
中证1000上年化超额从7.15%提升到7.61%,信息比从2.31提升到2.59。

以公告前AOG_RANK的最大值作为参考的预期值,可以改善业绩超预期类因子的表现。而最大值只是一种特殊的统计量,我们可以做更详细的统计,例如公告前的最小值、20%分位点、40%分位点、60%分位点、80%分位点、最大值的统计表现。下表展示了这些统计量构建的因子的表现情况。

可以看到随着统计量从最小值到最大值,因子的选股能力从“动量到反转”呈现单调下滑的趋势,最小值及20%-40%分位点都体现出显著的动量效应。我们认为其反映了盈利质量的下限,即盈利的“凸性”。最小值是指公告前20个交易日隔夜收益截面排序的下限,其反映了公司股价最差的低开幅度,下限越高说明公司的盈利质量越够硬,其未来收益越好。从左图的十分组收益来看,我们并不推荐用最小值作为因子,因为其分组收益单调性并不好,第9-10组的超额弱于7-8组,原因在于最小值是过去20个交易日最差一天的开盘截面rank,极容易收到异常交易的干扰从而导致因子取值的波动。我们建议用抗异常值的版本,即20%分位点作为该因子,其分组收益单调性也更好。

该因子的月度IC均值0.044,年化ICIR2.36,IC月度胜率76%。

从上图因子月度IC来看,2016年以来其IC均值呈现出比2016年之前更强的表现,而从右图十分组的多头超额来看,2021年前后没有明显变化。下图是以该因子构建的各宽基指数的MFE增强组合的表现情况。可以看到,在沪深300上2021年以来的超额曲线比历史更强,在中证500上2018年以来的超额就持续走强,在中证1000上也是类似的结果。可见其和原始的AOG因子收益在时序上有很强的互补性。


以该因子构建各宽基指数MFE增强组合的表现如下表所示,近几年的超额收益并没有明显衰减。

下面我们对比了上述因子的相关性及因子风格暴露情况。可以看到,AOG_RANK_DEMAX因子和原始AOG因子相关性在0.95以上,可以认为是同一个超预期风格的因子,而其和AOG_RANK_QUANTILE因子相关性极低,只有0.09左右,因为AOG_RANK_QUANTILE更偏盈利质量风格,两者的风格完全不一样。
右图是各因子的Barra风格暴露情况,也可以看到显著差异,AOG_RANK_DEMAX微弱暴露在Value、Trend、Volatility上,而AOG_RANK_QUANTILE因子明显更多暴露在Volatility和Value上,呈现出明显的低波低估的特征,这和盈利质量类因子偏防守的风格暴露是一致的。

下图展示了因子的月度效应情况。AOG_RANK_DEMAX因子偏成长超预期风格,在上半年表现更强,尤其是1、4月份。而AOG_RANK_QUANTILE因子在下半年表现更强,体现出更强的防守性特征,尤其是11月的IC胜率是100%凸显了其盈利质量偏低波低估的防守特性。

为了观察构建的因子是否相对于现有多因子体系有增量,我们将AOG_RANK_DEMAX_20d、AOG_RANK_PRE_QUANTILE_20_20d加入现有指增模型(共79个因子,其中包含60个基本面因子,18个人工量价,1个深度学习量价因子)中进行前后对比,因子复合我们仍然沿用对称正交后滚动一年ICIR加权的方式进行线性复合,这两个因子的权重占比在1%左右。下图展示了加入这两个因子前后中证500指数增强组合的超额表现对比情况。加入因子后新组合能够持续跑赢原组合。

下表是前后两个增强组合的超额收益表现对比,虽然新因子只有1%左右的权重,但是能够带来年化0.56%左右的提升,大部分年份的超额收益都有提升,每年的相对最大回撤都有下降,信息比和月度胜率都有提高,说明这两个因子确实相对于现有模型有增量信息。

三
盈余公告异象类衍生因子挖掘
前文中我们针对AOG因子的问题进行了调整并构建了两个新的因子,AOG_RANK_DEMAX和AOG_RANK_QUANTILE因子,分别代表了业绩超预期和盈利质量两个风格。这一节我们设想上述因子构建过程本质上是盈余公告事件上的针对开盘跳空幅度的价量特征的两个算子。如下图所示,我们可以从事件类型、算子类型、特征类型多个角度对因子构建的过程进行扩展。

下面我们从特征维度对因子构建的过程进行扩展,事件和算子维度各位读者可以自行尝试。
3.1 盈余公告最低价涨幅跳空因子
我们首先将前文中的开盘涨跌幅替换为最低价涨跌幅AOG_LOW,并复用其分别构建DEMAX和QUANTILE两个因子。改造后的DEMAX和QUANTILE因子的十分组超额均值及IC表现如下所示,可以看到这两个因子都具有较为单调的选股能力。

我们对比原AOG_LOW因子和AOG_LOW_RANK_DEMAX因子分别构建宽基指数MFE增强组合的收益表现如下表所示。可以看到单因子年化超额能够提升10%左右,近几年的超额收益也能得到明显提升。

下表是AOG_LOW_RANK_QUANTILE因子构建宽基指数MFE增强组合的收益表现情况。可以看到各宽基上都能够持续贡献超额收益,并且2022-2024年的超额收益非常显著。

3.2 盈余公告早盘大单资金流入因子
我们进一步将前文中的开盘涨跌幅替换为盈余公告次日早盘10点前主力净流入金额/流通市值占比OPEN_MONEYFLOW_PCT_VALUE_L,并复用其分别构建DEMAX和QUANTILE两个因子。改造后的DEMAX和QUANTILE因子的十分组超额均值及IC表现如下所示,可以看到这两个因子同样都具有单调的选股能力。

我们对比原开盘大单资金流入因子和DEMAX因子分别构建宽基指数MFE增强组合的收益表现如下表所示。可以看到单因子年化超额都能够得到显著提升,沪深300上能提升0.83%,中证500上能提升1.35%,中证1000上能提升2%,近几年的超额收益也能得到明显提升。

下表是开盘大单资金流入QUANTILE因子构建宽基指数MFE增强组合的收益表现情况。可以看到各宽基上都能够持续贡献超额收益,尤其是沪深300上超额收益最为稳健。

3.3 事件驱动因子挖掘框架总结
以上的因子虽然输入的都是价量特征,但是经过事件上的算子改造后因子的更新频率很慢从而衰减速度很慢,其和传统的日频量价类因子低相关,同时又和基本面因子低相关,因此复用这套结构可以很容易构造出一批和现有因子低相关的因子加入因子库中。
从以上两个特征构造的新因子可以看到,复用这套因子结构可以衍生出一些新的具有显著选股能力的因子,但是这个结构并不是任意的日度量价特征都可以构建出显著选股能力因子。可以看到这两个特征和原始的开盘跳空幅度都具有共性,一个是都偏动量特征,另一个维度是基本都接近事件发生当时或相近时的特征。我们也测试了一些偏全天统计量的特征例如5分钟k线收益率的均值、标准差、偏度、峰度等指标,代入并不能构造出显著的选股因子,其本质是因为我们这套框架的底层是事件驱动的框架,只有在交易事件本身的动量才符合这个大逻辑,而全天的统计量更多包含的是日内的博弈信息,更偏反转特征,因此复用这个结构并不能构造出显著的选股因子。如果我们沿着这个思路出发,构建更多的盈余公告次日的早盘类因子,例如集合竞价、早盘15分钟等时间的量价特征,可能可以构造出更多的有效因子。
量化模型失效风险。
极端市场环境可能对模型效果造成剧烈冲击,导致收益亏损。
说明:
证券研究报告:《盈余公告异象类因子改进与挖掘——因子选股系列研究之一一四》
发布日期:2025年4月22日
分析师:杨怡玲 执业证书编号:S0860523040002
重要提示(向上滑动浏览):
本订阅号为东方证券股份有限公司(以下称“东方证券”)研究所金融工程研究团队运营的唯一订阅号,并非东方证券研究报告的发布平台, 本订阅号仅转发东方证券已发布研究报告的部分内容或对报告进行的跟踪与解读。通过本订阅号发布的资料仅供东方证券研究所指定客户参考。因本订阅号无法设置访问限制,若您并非东方证券研究所指定客户,为控制投资风险,请您请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。东方证券不因任何单纯订阅本公众号的行为而将订阅人视为客户。