【广发金融工程】信息不对称理论下的因子研究:高频数据因子研究系列六(广发核心精选股票)

时间:2023-09-05 19:36:46来源:网络整理
导读本篇专题探讨日内高频数据在因子选股中的应用。基于信息不对称理论下的市场微观结构构建VWPIN因子,研究该因子在选股中的应用。本篇专题报告通过学术上关于高频相关的

概括

因子开发的迭代更新变得越来越重要。

近年来,随着传统多因子模型在市场上的逐步应用,因子波动特征逐渐加强,因子拥挤等因素导致因子利润逐渐恢复。 为了找到更好的Alpha收益,在多因子模型框架中,因子作为底层基础,因子的开发、迭代、更新变得越来越重要。 目前低频相关数据对要素发展的边际贡献已经越来越小。 高频数据在量化投资中具有一定的优势。 本专题讲解日内高频数据在因子选股中的应用。

信息不对称理论。

个股交易中,基于市场的非充分有效特征,存在着具有信息优势的交易者,这种优势在市场的微观结构中可能会更加明显。 微观结构理论将市场参与者定义为具有信息优势的交易者和不具有信息优势的交易者,并认为信息对资产定价的影响较大。 基于信息不对称理论下的市场微观结构创建VWPIN因子,并研究该因子在选股中的应用。

VWPIN 因素的实证分析。

因子评级实证分析结果表明,在周调仓频率下,回测期间全市场、中证1000、中证800、中证500、创业板VWPIN因子的因子评级具有明显的单调性。 从整体来看,VWPIN因子的选股效果在整个市场中较好。 中和因子的平均IC为0.06,正IC占76.59%。 16.15%,最大回撤33.71%,信息百分比1.18; 中证500指数中,VWPIN因子IC平均值为0.04,IC为正的比例为66.12%。 多空对冲策略的年化收益率为17.61%,年化波动率为9.99%,信息比为1.76,最大回撤为18.60%。 只有当与BARRA因子的相关性较低时,才可以将其作为新的高频技术因子添加到多因子模型中。

风险提示。

该策略模型并非100%有效。 市场结构和交易行为的变化,以及类似交易参与者的增加,都可能导致策略失败。

文本

1. 考虑高频因素

1.1

从低频信息到高频信息

近年来,A股市场机构化趋势明显,量化私募机构管理规模也迅速扩大,形成了一批管理规模超过100亿的量化私募机构。 与此同时,传统风格因素的波动性降低,从市场获取超额利润变得不再困难。

要素拥挤是要素利润下降的原因之一。 这些因素代表市场某些方面的低效率,或一段时间内的定价失败。 当某一类要素的收益较高时,会吸引更多的资金投入,造成要素拥堵,降低该要素的预期利润。 一旦有新的因子公开,套利资金的介入就会导致错误定价增加,因子利润也会相应增加。 为此,在多因素选股模型中,因素的开发和更新变得越来越重要。

基于传统日频率价格量和低频金融数据的因子开发是一种研究方法。 由于基本因素众所周知,在此基础上进行因素挖掘的利润提升空间相对有限。 而且,由于日频数据的数据量和信息内容有限,过度挖掘会降低过拟合的风险。

精选广发核心股票怎么样_精选广发核心股票是什么_广发核心精选股票

基于高频价量数据的要素开发目前具有较大的利润提升空间。 与低频因素相比,高频数据在量化投资方面具有一定的优势。

首先,高频价格和成交量数据量明显小于低频数据。 以分钟行情为例,存储2020年市场所有股票的分钟行情数据(包括分钟频次开盘高低收盘价数据、取消订单数据等)压缩效果较好的mat格式,大约12GB。 如果是快照市场(目前沪深交易所都是3秒交易)或者二级市场,数据量就大得多。 为此,高频数据因子挖掘对信息处理能力和处理效率提出了更高的要求。 而且,盘中数据,尤其是2级数据,通常需要额外付费,甚至需要自己下载存储实时行情数据,而在此基础上建立的因素则不那么拥挤。

其次,高频价格和成交量数据通常是多维时间序列数据,数据中的噪声比例相对较高。 与ROE、PE等低频指标具有选股能力不同,原始的高频行情数据通常不能直接作为选股因素,但可以作为选股因素通过信号变换、时间序列分析、机器学习等从高频数据中建立特征。该因子与低频信号相关性较低,但由于因子开发过程相对复杂,不同投资者建立的因子较多各种各样的。

据悉,高频数据开发的因子通常调整周期较短,这意味着在检验因子有效性时,同一检验周期内的独立样本较多。 例如,在一年的测试周期中,仅使用了12个独立样本周期来测试每月频率调整因素,而测试每周频率调整因素则需要大约50个独立周期,超过240个独立周期被用来测试每日频率位置调整的因素。 独立样本的增加有助于检验高频因素的有效性。

高频数据中因子挖掘的难点在于数据维度大、噪声高。 根据专业投资者的经验或者参考已发表的文献,可以从高频数据中提取一些具有选股能力的特征。 据悉,机器学习方法擅长发现数据中的模式和特征,是高频数据因子挖掘的有力工具。 本专题报告借鉴高频相关的学术研究成果,从高频价量数据中提取选股因素。

2 研究进展

传统有效市场假说认为,在完全有效的金融市场中,价格能够充分反映资产的所有公共和私人信息。 然而,在现实世界中,由于交易摩擦、投资者的非理性行为以及信息披露的不完全等原因,拥有较多私人信息的市场参与者往往比信息匮乏的市场参与者在市场中处于优势地位。 市场微观结构理论将市场参与者定义为有私人信息的交易者和无私人信息的交易者。 他们认为信息对资产价格的决定有重大影响。 当市场存在信息不对称时,拥有私人信息的交易者会利用自己的信息优势进行交易,做出对自己有利的投资决策。 同时,这些行为对于信息落后的交易者来说也是一种投资风险,使其在市场交易过程中处于不利地位,从而蒙受损失。 为此,如何判断信息不对称程度并规避由此带来的投资风险,成为理论研究者和业界的热门话题。

根据学术研究成果,信息不对称的测量主要经历了两个阶段:间接测量阶段和直接测量阶段。 在研究初期,利用买卖价差、换手率、股价残差等指标来替代信息不对称的变量。 尽管该变量与信息不对称之间存在因果关系,但它在一定程度上可以反映股票交易固有的信息不对称程度,以及知情交易产生的间接指标描述投资风险的准确性仍有改进的空间。

1996 年,伊斯利等人。 发表论文《流动性、信息和不频繁交易的股票》,根据交易订单数据建立混合泊松分布模型,并通过最大残差法估计信息优势交易者在总交易中的比例,即信息交易的有利概率(Probability of information-based trade,简称PIN)导致信息不对称的测量进入了直接测量阶段。 近二十年来,国内外学者对PIN模型进行了深入的分析。

在理论研究方面,学者们借助参数和非参数模型对原有的PIN模型进行了改进,并对这种测量方法提出了更深入的阐述。 例如,Easley 等人在论文“高频世界中的 FlowToxicity and Liquidityina”(2012)中。 避免了PIN模型残差极大或方法估计复杂、数值优化过程耗时较长的缺陷。 借助非参数或方法,在基于相同交易量时间间隔的情况下,为了衡量信息优势的交易概率,在严格的物理过程中建立了交易量内买单和卖单的交易量不平衡情况。推理。 为了应对实证研究中VPIN模型计量失效的现象,李平等人于2020年发表论文《知情交易概率与风险定价——基于不同PIN计量方法的比较研究》,继承了买VPIN模型隐含的卖单交易只有成交量不平衡的程度才能体现信息优势交易信息的逻辑,模型同时将订单数不平衡纳入模型中,并得出成交量加权的知情交易概率(提出了基于数学时间和交易量加权的VWPIN)模型。 实证分析方面,借助国内外多个股票市场数据,分析其在股票资产定价、风险管理等领域的应用。

2.1

引脚型号

Easley等人在其论文《Price, tradesize, and informationinsecuritymarkets》(JournalofFinancalEconomics, 1987)中,基于计量经济学分析和经济理论,提出了用于分析市场资产价格发现过程的序贯交易模型(Sequentialtrademodel)。 经典的基于信息的交易概率(简称PIN)模型是在顺序交易模型的基础上,通过建立服从混合泊松分布的买卖订单流,并采用大残差法进行比较得到的解决。 详细建模步骤如下:

精选广发核心股票是什么_精选广发核心股票怎么样_广发核心精选股票

精选广发核心股票是什么_广发核心精选股票_精选广发核心股票怎么样

广发核心精选股票_精选广发核心股票怎么样_精选广发核心股票是什么

广发核心精选股票_精选广发核心股票是什么_精选广发核心股票怎么样

2.2

实时更新交易量的知情交易概率(VPIN)模型

交易量实时更新的VolumeSynchronizedPIN模型,简称VPIN模型,是一种非参数或可能的模型。 与PIN模型相比,它不需要进行复杂的最大残差或获取知情交易概率的隐含参数,而是通过估计等交易量区间内的交易量不平衡程度来获得信息优势交易概率的度量。 该模型的内在逻辑是:在高频交易的现实世界中,当信息不断到达市场时,投资者也会不断地分析信息并做出交易决策。 由于投资交易并不服从均匀分布,而是存在一定的不规则性,因此同一信息引起的交易行为会以不同的速率到达市场。 基于上述思路,通过衡量单位时间交易量不平衡程度建立的PIN模型与实际情况存在误差,因此VPIN模型对此进行了优化。 该模型定义了相同交易量的交易范围,并认为只有当交易量达到设定的阈值时,信息才完全融入市场。 具体VPIN模型建立步骤如下:

广发核心精选股票_精选广发核心股票是什么_精选广发核心股票怎么样

2.3

成交量加权知情交易概率 (VWPIN) 模型

3. VWPIN因子构建

3.1

VWPIN因子构建

本专题报告基于信息不对称理论和VWPIN模型的定义,建立了VWPIN因子,用于判断反映信息不对称程度的市场个股知情交易概率。

3.2

VWPIN 因子估计步骤

VWPIN模型的估计是借助个股区间交易量和区间内主力买(卖)交易数量来实现的。 买卖方向是根据 Lee-Ready 算法提前确定的。 具体估算如下:首先,在t日第i个交易区间内,根据个股主力买(卖)交易数量来估算交易数量的不平衡程度,以描述知情交易的概率; 其次,根据t日的总交易笔数和第i个交易区间的交易量数据,估算出该个股区间的交易量占比,以反映该个股交易金额的重要性。该区间内知情交易概率中包含的信息; 再次,将前两步得到的第i个交易周期的交易量比例权重与交易概率相加; 最后,将t日该个股所有交易区间的加权概率相加广发核心精选股票,得到VWPIN因子。 为了获得VWPIN平滑因子,还需要根据VWPIN因子对周/月内个股的VWPIN因子数据进行平均。 如果频数显示中没有数据,则剔除该交易日,然后对个股进行估算。 VWPIN平滑因子,VWPIN因子估计步骤流程如右图所示:

精选广发核心股票怎么样_广发核心精选股票_精选广发核心股票是什么

广发核心精选股票_精选广发核心股票是什么_精选广发核心股票怎么样

3.3

VWPIN 因子估计示例

假设当前交易日为t,以每5分钟为一个交易区间,则交易区间i=1,2...48,因此VWPIN因子估计示例如右图所示。 特此声明,根据右图建立的VWPIN因子仅为原始因子值。 在后面的实证分析、相关性分析和敏感性分析中,所使用的因子值均在原始因子值的基础上,经过MAD方法去除极值、Z-Score标准化和行业估值中和处理。 VWPIN 因子和 VWPIN 平滑因子。

4、基于VWPIN因子的选股策略建立

4.1

VWPIN因素策略建立框架

基于此,本专题报告制定如下交易策略:根据个股的信息优势交易概率测算,在调仓日买入VWPIN最大的组合,卖出VWPIN最小的组合。

5、实证分析

5.1

数据显示

选股范围:全市场、中证500、中证800、创业板指数、沪深300

股票预处理:不含非上市、退市、ST/ST*、涨停板、上市不满1年的股票

因子预处理:MAD去极值、Z-Score标准化、行业估值中和

回测时间间隔:2010.01.01-2021.12.31

分箱格式:根据当前股票的因子值从小到大分为十/五级。

调仓周期:每月/每周最后一个交易日午间价格调仓

交易费用:千分之三(出售时支付)

5.2

因子分箱性能

在月调仓和周调仓历史回测下,VWPIN因子对沪深300档次影响不显着,分辨率一般。 其他蓝筹股中,5级档次下,整体因子单调性明显。

5.3

VWPIN因子实证结果

精选广发核心股票是什么_精选广发核心股票怎么样_广发核心精选股票

精选广发核心股票是什么_广发核心精选股票_精选广发核心股票怎么样

广发核心精选股票_精选广发核心股票怎么样_精选广发核心股票是什么

广发核心精选股票_精选广发核心股票怎么样_精选广发核心股票是什么

全市场选股中,VWPIN因子表现出良好的选股分辨率广发核心精选股票,平均因子IC值为0.063,正IC比例为76.59%。 在沪深800指数多头对冲回测中,该策略整体年化收益率为19.07%,信息百分比为1.181。 2010年、2013年、2015年市场走势较大时表现相对较好,除2017年、2020年外,其他年份均实现超额利润。 该策略最大回撤发生在2015年,为33.71%,整体换手率维持在55.73%左右。

5.3

VWPIN因子与BARRA因子的相关性分析

CNE6版本的BARRA因子模型将股票因子定义为市场、价值、增长、盈利能力、波动性等主要因素。 传统的BARRA因子早已被市场证明,可以更有效地描述股票的特征。 本节将对VWPIN因子、VWPIN_SMOOTH因子和BARRA因子进行相关性分析。

广发核心精选股票_精选广发核心股票是什么_精选广发核心股票怎么样

广发核心精选股票_精选广发核心股票是什么_精选广发核心股票怎么样

本节对数据预处理后的VWPIN因子、VWPIN平滑因子和BARRA原始因子值(MAD法去极值、Z-Score标准化、行业估值中和)进行Spearman等级相关分析。 相关性如下表所示。 可以发现,VWPIN(VWPIN平滑)因子与BARRA因子的相关性较低,因此可以将其作为新的高频技术因子添加到多因子模型中。

5.4

VWPIN因子敏感性分析

虽然上述分析表明,基于VWPIN因子和VWPIN平滑因子的选股策略在全市场和创业板选股范围内表现相对较好,并且在年度换手率分析中,两类因素均表现出较高的换手率。 手费率的特点会让策略对手续费的设置更加敏感。 因此,本节将重点分析VWPIN因子和VWPIN平滑因子对手续费的敏感性。 具体来说,我们测试了千一、钱3、钱5费率设置下不同选股区间因子的多头基准套保净值走势。

精选广发核心股票是什么_广发核心精选股票_精选广发核心股票怎么样

支付千三手续费后,全市场、中证1000、中证500的选股策略可以获得超额利润。

六、总结

本报告从信息不对称理论的直接衡量指标出发,综合考虑多个指标的理论逻辑后,建立了VWPIN和VWPIN平滑因子,以期从信息不对称带来的风险贴现中获利。

从因子分箱结果来看,VWPIN因子和VWPIN平滑因子在整个市场、中证1000、中证800、中证500和创业板都有显着的分箱效应。

从因子IC值统计结果来看,VWPIN因子和VWPIN平滑因子的平均IC值在0.033-0.064范围内,正IC比例保持在60%以上,近六年累计IC值一直在20以上。总体来看,五级周调仓参数下,VWPIN因子选股全盘表现良好,平均因子IC值为0.063,正IC占比76.59%,累计IC值为38.72在过去的六年里。 从多头指数对冲策略的表现来看,VWPIN因子和VWPIN平滑因子的整体年化利润率在7%-20%范围内。

通过分析数据预处理后的VWPIN因子、VWPIN平滑因子和BARRA因子之间的相关性,可以发现VWPIN(VWPIN平滑)因子和BARRA因子之间的相关性较低,因此可以作为一种新的高频技术将因素添加到多因素模型中。

据悉,本报告还测试了VWPIN因子和VWPIN平滑因子对手续费的敏感性。 结果表明,VWPIN因子因其较高的周转率而对费率设置更为敏感。

风险提示:策略模型并非100%有效。 市场结构和交易行为的变化以及类似交易参与者的增加可能会导致策略失败。

详细研究内容请参阅《工业金属加工专题报告》

《信息不对称理论下的因子研究:高频数据因子研究系列六》

最新文章