彩票平台 分类>>

官网合法彩票平台_赛车_时时彩_体彩【官方推荐】中信建投 市场微观结构系列研究:从分钟频到Level2的探索与发现

2025-12-19 19:23:36
浏览次数:
返回列表

  时时彩平台,腾讯分分彩,北京赛车,北京赛车pk10,北京赛车pk10技巧,幸运飞艇,彩票平台推荐,飞艇开奖,幸运飞艇官网,大发彩票,彩票平台推荐,500彩票,六合彩,大乐透,双色球,体彩足球,体育彩票基于高频数据的因子研究,从本质上而言始终伴随着取舍的权衡。相较于中低频价量数据聚焦趋势性、方向性信息的特点,高频数据凭借其毫秒级的颗粒度与高密度的观测维度,能穿透中长期数据难以覆盖的微观交易细节,为Alpha挖掘提供更丰富的潜在线索,在拓展因子计算广度、捕捉瞬时市场异动信号上的优势尤为突出。但与此同时,数据量的指数级倍增带来的挑战同样不容忽视:不仅直接推高了存储、算力层面的难度,更催生了显著的信息噪音干扰,大量无效、冗余的瞬时波动数据极易掩盖核心信号,增加有效信息的筛选成本。

  作为市场中较早涉足高频数据与因子研究的团队,我们已对高频因子的样本外表现开展了长期、持续的跟踪验证,完整经历多轮市场牛熊周期与风格切换。在扎实的实践积累中我们深刻洞察:一方面,市场微观结构(如买卖盘深度、订单流特征、流动性分层、交易成本变化等)会直接作用于高频因子的信号传导效率,进而显著影响其有效性边界;另一方面,高频因子的构造过程本身更易受噪音数据干扰,导致过拟合风险相较于中低频因子更为凸显,且其背后的信息来源高度分散、影响因素交织复杂,既涵盖中观的主题热点,也涉及微观资金博弈、订单执行节奏等多重维度,进一步提升了因子筛选、验证与落地的复杂度。

  在过去一段时间内,行业内倡导的高频因子低频化使用的方式,凭借其对高频信号的适度平滑、落地门槛的显著降低,以及与中低频策略的良好兼容性,推动高频因子策略的应用普及度实现快速攀升;AI技术在量化研究领域的深度渗透与工具化普及,彻底改变了传统因子挖掘的效率边界,大量基于高频数据构造的因子被批量生成、快速迭代。这一趋势既极大丰富了量化策略的因子储备,也带来了新的行业挑战:一方面,批量挖掘催生了明显的策略同质化现象,部分因子的逻辑重叠度偏高;另一方面,易于捕捉的线性或简单非线性信号逐渐被挖掘殆尽,传统高频因子的可拓展研究空间持续收窄,行业内对高频数据价值再挖掘的需求日益迫切。

  在测算因子表现时,我们剔除行业与市值的影响,同时排除不具备交易条件(如ST、涨跌停)的股票,在月度(20日)的调整频率下观察因子在全市场十分组的收益表现。单笔金额分位数_QUA因子IC为-0.054,Rank IC-0.078,全样本内每年的多空收益可以达到35.7%;在时段1(2018-2021)与时段2(2021-2025)内,QUA因子的分组效果基本保持一致,均在空头端表现出异常高的负向收益。

  QUA因子在空头部分的收益尚可,但在多头部分的收益明显较弱(图2),可实现的收益偏低,这也是一般量价因子的通病。在风格偏离上,截止2025年8月,QUA因子在市值上的暴露程度仅为0.18,但是在2013年1月至2014年10月和2016年4月至2019年1月两段区间内为负值;流动性风格暴露长期稳定在0.3附近,在扣除流动性部分收益之后,多空收益由35.7%降低至17.8%,IC仅为-0.036,这说明了QUA本质上还是以风格收益为主导的Half-Alpha。

  单笔成交金额与流动性关系密切:当市场流动性不足时,其最小值能够逼近最小交易单位对应的金额,而最大值往往与市场交易活跃度直接相关。尽管我们已采用比值形式构造因子,用以规避不同价格股票之间的差异,但QUA因子与换手率因子的IC序列相关系数仍高达0.85。若对流动性暴露施加约束,该因子可能难以在组合优化过程中拓宽有效边界。事实上,我们并不排斥由风格带来的收益,而是顾虑在因子贡献的超额收益中风格收益成分占比过高,这可能会在某些极端行情下,引发组合的超额大幅回撤。

  以价格涨跌为例,我们发现在日内不同时间段在“反转”与“动量”特性上存在差异。由图4的数据分布特征可见,隔夜时段涨跌幅与开盘后首个半小时涨跌幅的IC为正值,其余日内交易时段尤其是临近收盘的T8时间段的IC显著为负值。早盘竞价是对隔夜信息的集中反映,涨跌幅对于后续价格的预示作用更强,尾盘竞价则容易出现价格过度反应从而出现短期反转。考虑到这一规律或与市场一字板连涨股票相关,我们在统计过程中剔除了该类股票样本,发现核心结论并未发生改变:隔夜时段与开盘后首个半小时的涨跌幅仍对未来涨跌具有正向预示作用,统计期间为2013年1月4日至2025年11月5日。

  作为描述数据分布特征的核心统计指标,一至四阶中心矩在截面选股因子的构造中表现出差异化的选股有效性:奇数阶中心矩(一阶、三阶)更擅长捕捉偏态样本的结构特征;偶数阶中心矩(二阶、四阶)用以刻画数据的分布离散程度,其选股效果在数据呈现显著对称分布特征的场景下更为突出。由于在分钟频率的观测窗口下,价格的变动通常不是特别明显,整体表现为“尖峰厚尾”的分布规律,在价格出现连续上涨或者连续下跌的时候才会表现为偏态分布。

  我们观察到一个值得关注的市场现象:无论是流动性充裕的大市值股票,还是流动性相对匮乏的小市值股票,其交易日开盘后特定时段内的成交量占当日总成交量的比重均呈现持续攀升趋势。这一现象本质上反映了市场投资者形成的隐易共识:若隔夜市场出现明确的利好或利空信息,投资者次日需要执行相关买入或卖出决策时,倾向于选择在开盘后尽早执行交易。其核心诉求在于通过抢占交易时点,规避因其他投资者集中买入导致的买入成本抬升,或因集中卖出引发的市场踩踏风险。

  图16展示了盘中成交占比与当天换手率的关系,盘中时段交易量占比越高,说明当日成交越不活跃,换手率相对偏低;图17展示了上述三个指标在20日换仓的分组测试下,多空收益以及因子IC均值。三类成交占比因子整体相关性偏高,如盘中成交占比与早、尾盘的相关系数分别为0.85和0.53。在剥离早盘和尾盘成交占比的收益之后,盘中成交量占比的超额收益显著变差,多空年化收益下降30%,说明盘中成交占比仅是另外两个指标在交易总量维度的间接映射,并不是我们要寻找的逻辑主因。

  早盘和尾盘的成交占比指标,我们认为分别代表了成交量时序维度的不同信息。早盘属于全天交易量最为集中的一段区间,早盘成交占比的高低反映了全天交易的热情度,间接可用于判断是否为当天是否放量;尾盘成交量的交易不同于早盘,其主要贡献者为散户等以短线交易为主的个人投资者,在信息来源上也并非与是否放量相关的换手流动性完全重合。早盘成交占比因子与尾盘成交占比因子的IC序列相关系数为0.38,若是将两者相互中性化,多空收益率分别下降至19.4%(原值23.6%)和15%(原值20.9%)。

  分时成交量占比指标的核心逻辑在于捕捉某种“低流动性”特征对应的风险溢价。早盘与盘中的成交量占比因子是换手率的近似代替,尾盘交易反应的信息与早盘存在一定差异。当天放量的结果通常可以通过早盘交易情况预估,而尾盘交易的情况则与投资者结构中偏好短线交易类的资金相关,即流动性的来源不相同。本文创新性地构建一种刻画时序分布特征的时间重心算子:首先,将分钟频时序变量的时间戳转换为可用于运算的序号值,再与原始变量执行内积运算,最终得到时序变量在时间维度上的分布重心指标。

  上述两个指标的计算参数均为寻优结果,出于篇幅原因不再展开介绍。图19分别展示了两个指标的多空收益净值曲线,二者的IC均值分别为-0.046和-0.041。这两个指标的IC序列相关系数为0.92,因其Alpha信息来源相同,高相似程度属于正常现象。笔者本意是对成交占比类因子进行算子优化,但这两个指标描述尾盘资金聚集现象的角度不同(其一从变化趋势角度,其二从占比角度),两类指标可互相补充,故而均予以保留。

  表7和表8分别展示了短线交易拥挤度_STC和时间重心偏离_TGD两个因子在中证1000指数成分股中优选组合的月度超额收益率。其中,STC因子在2021年和2022年表现均不错,年化超额在15%左右;TGD因子在经过中性化和标准化处后的表现整体不如STC因子,但从过往较长时间观察结果来看,在中证1000指数成分股中仍然能够优选出表现优于指数的组合,且因子在2022年前后表现基本稳定,仍然值得继续跟踪。

  本节聚焦高频时序变量在选股策略中的信息价值与作用机制。需明确的是,日内不同交易时段的市场特征在截面选股上存在显著异质性,这一现象的核心驱动因素在于机构与散户日内分布的不均衡。具体而言,早盘市场流动性相对充裕,而机构投资者往往偏好在流动性较好的时段完成交易,因此形成了以机构为主导的交易结构;尾盘时段受A股市场“T+1”交易机制约束,散户与游资倾向于集中完成筹码兑换(表现为尾盘成交量显著放大),导致该时段的交易结构呈现散户化、短期化特征,进而与早盘时段形成了明显的特征分化。

  在因子体系构建中,针对日内时段信息的差异化价值,本文首先开发修正收益率偏度_CSKEW,其在样本外测试中表现出优异的稳定性与超额收益捕获能力;更具创新性的是,本文提出的“时间重心”算子通过量化资金与价格变动在日内的时间分布集中度,突破了传统高频因子的构造思路;将其与分钟成交量、分钟涨跌幅数据深度融合,分别构建了短线交易拥挤度_STC与时间重心偏离_TGD两大经典因子,不仅实现了对信息的精准挖掘,更在因子构造的创新性、表达式丰富度上形成突破,完善了高频选股因子的覆盖维度。

  例如,价格与数量的协同变化可作为主力资金参与的参考信号,但这一信号并非绝对,仍存在一定不确定性。单一指标视角下,价格上涨或许只是散户跟风引发的短期波动,成交量放大也可能源于普通投资者的零散交易,两者单独出现时,均难以精准捕捉资金动向的核心逻辑;若价格呈现持续稳步攀升态势,且成交量同步温和放大,这种“价涨量增”的协同关联,能够传递出单一指标难以覆盖的关键信息:背后大概率存在主力资金持续入场吸筹、推动行情的行为,而非单纯由市场情绪主导的短期扰动。反之,若价格上涨但成交量持续萎缩,这一关联则可能暗示上涨缺乏足够资金支撑,后续行情回调的概率相对更高。

  相关性强弱是判断多维度指标关联因子有效性的标准之一。我们逐个交易日处理,选择任意两个指标的分钟时序数据,包含9:25集合竞价的时段,同时排除14:58与14:59的缺失数值(合并至15:00),计算上述两组时间序列之间的Pearson相关系数,以量化其线性关联程度,将其作为因子的日频信号。依据全文的统一测试框架,我们滚动20个交易日计算日频信号的均值作为选股因子并在全市场内测算中性化后的IC(取绝对值)。

  图31展示了基于上述31个指标构造的465个“指标对”因子的IC与对应指标间相关系数分布情况,二者的相关系数达到60%以上,并存在明显的样本分层现象(虚线),两个指标间相关性较低的“指标对”因子有效性整体偏低。从统计有效性的维度分析,这一现象的内在逻辑具有可解释性。相关系数本身即是判断两个指标线性关系的统计量(其二次方值为OLS回归中的R方),若两个指标并不存在线性相关性,也即回归模型不成立,基于相关假设的估计结果也将失去意义。此类数据挖掘方式,容易让我们忽视结果的逻辑合理性,进而陷入过度拟合历史样本的误区。

  微观解释:涨跌幅(Y轴)与振幅(X轴)本质上不具备显著线性相关性,二者散点的分布形态近似呈现侧倒U型,因为涨跌幅带方向而振幅则属于绝对值的范畴。影响二者线性相关系数测算结果的关键因素,在于日内上涨与下跌分钟的样本分布失衡。比如,日内上涨分钟(通常是上下影线比较短、实体较长的)样本偏多,涨跌幅与振幅相关系数会因样本“挤压”而增大;反之,若是下跌的分钟样本的数量占比更多,相关系数则会下降。这一相关系数间接统计了股票日内涨跌样本的分布结构,其核心反映的是市场上典型的反转效应。

  首先,我们需要将指标A与指标B置于同一坐标系下,在对样本点进行聚类前,分别对两个指标做去量纲处理得到可比的样本点坐标值(X,Y);然后,我们再根据K-means聚类方法将样本点分为若干个群类,从而得到N个簇中心,分别计算得到以自适应坐标系原点(X_min, Y_min)到上述簇中心的向量长度;最后,再按照向量长度由大到小的顺序对簇中心进行排序分类,其中距离原点最远的簇内样本为远样本,距离原点近的簇内样本为近样本。我们的目标在于分析这两类样本之间是否存在选股信息的差异。

  实际应用的Level 2数据包括逐笔成交、逐笔委托和Tick行情。与日频或分钟频的行情数据不同,逐笔成交和逐笔委托数据包含了每笔交易明细,通常能够更为直接地用以分析投资者的交易意图;Tick行情则是对当前订单簿的“快照”,结构上也更加接近Level 1的行情数据,其中包含最新成交价和累计成交量等。因其描述每个时刻全部待成交的订单的价量信息,我们可以借此进一步观察交易的细节和筹码动态。对于日间选股策略开发而言,我们并不需要过度关注数据本身的“高频”属性,而应在逻辑层面深入理解并挖掘有效因子,利用高频数据丰富的结构特征,捕捉日频乃至分钟频无法捕捉到的交易细节与动态。

  Level2数据的应用方向十分广阔。逐笔成交和逐笔委托数据既可用以还原得到实时订单簿,生成任意时刻的盘口数据,还可对任意笔交易委托在时序上汇总,识别出订单流的完整生命周期。这两类数据的无论是数据量还是信息量都更为丰富,也是我们订单流系列研究中的重点。在过往研究中,我们已尝试多种此类数据的开发方法,本节将结合三个典型的主题进行介绍,分别是:(1)探究订单背后的线)关于投资者性质的猜想;(3)交易算法演变与逆向策略面临的挑战。

  图45记录了某只股票在开盘后短时间内一笔特殊的委托挂单,这是一笔大额卖出委托,对应的订单ID是896710,属于部分撤回的类型。该委托在9点30分14.28秒提交给交易所,因其价格在当前盘口附近,很快与其他订单撮合成交。但在9点30分14.52秒的时候,这笔委托剩余的部分就被迅速撤回,中间间隔时间甚至不超过1秒,实际成交的比例仅为28.7%。从A股的订单流数据里,我们能够轻松筛选出此类委托,因此,我们自然会提出一个疑问:是否这些撤回的订单可直接或间接反映投资者的交易意图,并且能够作为Alpha的信息来源被构造成有效的因子策略?围绕这一核心命题,本文展开了系统性的理论分析与探讨。

  买卖行为存在诸多不对称现象,例如买单数量多于卖单,且买单金额相对更小。造成这类现象的原因既包括交易规则限制,也涉及投资者决策的人为因素。从市场规则来看,A股实行T+1交易制度,买卖的交易限制不对等,当天买入的股票无法立即卖出,进而导致可供卖出的股票数量在筹码流通过程中逐渐减少;从投资者的行为模式来看,散户在买入股票时倾向于降低成本,而在卖出股票时,则更多会考虑如何高效且快速地变现筹码。一方面这会使得买入委托金额偏向小,另一方面价格敏感还会催生大量的买入撤单(见图49)。

  借助行情数据,我们仅能获取订单流中已成交部分的相关信息,而撤回订单则可以提供补充信息。成交的订单促成价格和交易量的变化,撤回的订单中往往隐含投资者的特殊交易意图,例如,以涨停价挂单的卖出委托、以跌停价格挂单的买入委托(类似于购买“彩票”等待兑现),抑或在盘口附近委托的高频撤回订单(实则提供有毒的流动性),或是包含在部分撤回中的大额委托(用于打压或者支撑目标价位)等等,我们对其进行数据切片,观察不同类型的撤回委托是否具备特殊的选股能力。

  上述因子表现不佳的原因在于,大额委托的有效性在于成交部分而非撤回,真实交易的筹码具备可被定量的成本,且后续的资金跟随效应可能持续验证前置交易;大额部分撤回委托实则多为无逻辑、无固定规则的数据片段,数据噪音较高。这类订单数量较少、来源杂乱,且撤回后可重新委托,其委托价格通常集中于盘口(即买一价或卖一价),这表明此类委托多以实际交易为目的。因此其在因子层面的表现并不显著,本文不再单独基于这类委托构造因子表达式,也不进一步讨论其有效性。

  极端价格委托等待成交,本质上与买彩票无异,都在赌运气而非理性投资。我们基于逐笔委托数据,可以观察到一类非常有意思的挂单行为:部分投资者选择以涨停价卖出股票或者以跌停价买入股票。这部分委托由于不会干扰当前价格,并不会触发“价格笼子”(报价幅度不超过3%)的限制条件,依然能够正常申报;此类投资者相当于以极低成本买入短时看跌期权(涨停价卖出)或是看涨期权(跌停价买入)。由于订单成交概率极低,加之在价格变化至目标价之前均可撤销,笔者将其称之为“彩票委托”。

  以简单的占比来统计跌停价买单与涨停价卖单的区别,构造两类指标:一是以当日涨停价卖单或是以跌停价买单的主动撤单比例;二是测算买卖的彩票委托各自占当天所有同向委托的比例。前者反映了市场上此类交易的主观意愿强弱,后者则是判断当前市场的流动性。从测试结果来看,图53的变化曲线与我们先前讨论的结论基本一致:相较于有“无限供应”属性的现金,当天仅能支撑一倍换手率的股票,才是实际可交易的真实筹码。如果我们进一步把彩票委托的定义放宽,选取低于涨停价或高于跌停价的卖出或买入委托,分别测试指标在全市场的选股效果,如图53所示。

  资金流Alpha衰退的原因,主要是伴随交易的“拆单”算法不断普及和演化,机构类大单的识别准确度正在逐渐降低。为此,我们曾尝试过对资金流的划分标准进行修正,分别使用绝对阈值法和相对比例法,确定资金流中的大单交易动向。以绝对阈值法为例,我们遵循“由低到高、先密后疏”的原则,人为设定了一系列划分阈值,具体涵盖0.5万元、0.6万元至100万元,以此作为区分机构大单与散户小单的核心界限。为探究区分大小单的阈值标准,我们选取形式较为简单的净流入率NIR作为分析载体:

  结合表20与表21的统计数据,我们在历史观测区间内发现一个显著现象:2022年、2023年及2024年的订单结构中,小额委托的数量占比呈现持续偏高的特征。这一结构性变化直接导致大单与小单的理论划分边界趋于模糊,使得基于传统金额阈值的订单分类效果显著弱化。需要明确的是,该现象的成因并非源于拆单颗粒度进一步细化导致的识别失效,而是由于市场中机构拆单行为的发生比例显著提升,且拆分后的委托金额大多集中于2万至10万元这一传统分类标准下的模糊区间。此类集中的拆单操作,使得原本用于区分机构与散户交易行为的订单金额边界失去了明确的辨识度,最终造成机构与散户订单分类的有效性下降。

  金额分布出现漂移,我们判断核心驱动因素有二:其一,机构采用算法交易模式处理委托,将原本的大额订单拆分为多笔小额订单,在单笔委托绝对金额下降的同时,小单总量实现大幅增长;其二,低延时、高频化的日内交易策略对价差波动较为敏感,这类策略通常不会发起大额委托,这一特征也使得2022年至2024年期间,小额委托数量呈现异常增多的态势。上述两大因素共同导致统计结果出现失真,最终影响了我们所构造资金流因子的选股效果,使其未能达到预期水平。

  然而,另外一种观点认为,资金流本质上是主力资金的交易行为,相关指标表现较弱,原因在其市场主体本身寻找超额收益的能力在不断减弱,也即存在“牛熊切换”。本文认为这一观点不失为一种理解方式,但从数据角度观察,这一论点似乎又站不住脚。结合前面图66展示的数据,资金流的IC在2013年至2021年期间始终都能保持较高的水平,这说明资金流背后的逻辑(跟随效应)具备穿越牛熊的能力。市场上的机构投资者选股能力(如,超额收益的中位数)出现波动或许能在某些时段与资金流因子的IC变化趋势吻合,但也只是策略相互博弈得到的结果,而非是内在原因。市场微观结构改变使得资金流Alpha减弱,反其道而行会遇到不少阻力。可见,隐藏与识别是未来市场微观结构讨论的一个重要课题。

  我们在上一章节中讨论了订单中的撤单行为,分析了其中部分撤回委托、废单等。然而,撤单类型中主动撤回委托的情况比较复杂,其中亦不乏属于投资者有目的地撤回订单。这类主动撤单并非随机行为,而是大量投资者基于特定交易目标的策略性操作:例如,T0策略中,投资者为捕捉日内价格波动,常会在买入后快速卖出委托(持有底仓交易),若短期未达成预期成交价格便会主动撤销委托以避免持仓风险或释放资金用于下一笔交易;又如,冰山委托等算法交易中,程序化交易算法会根据市场冲击成本等指标动态调整委托单,当预设条件触发时,自动执行撤单操作以优化交易效率。

  无论是T0套利,还是算法交易,这类撤单行为都具备同一个特征:高速。这种高速性不仅体现在订单提交与撤销的毫秒级响应效率,更依赖于低延迟交易通道、近距离托管服务等专业基础设施的支撑。对于一般的散户投资者而言,由于缺乏接入这类专业交易通道的资源与资质,其交易指令发出及执行的速度往往处于显著劣势。因此,在订单流中表现出的高频、高速撤单行为,通常源自具备技术与资源优势的机构投资者,这也成为区分散户与机构交易行为的重要微观特征之一。我们对毒流动性进行定义:

  结合实际经验我们知道,根据对手盘口委托的订单并非最终都能成交,委托与成交的差额部分可能是真实流动性,也有可能是毒流动性,区别在于对手单“拒绝”当前交易的事实是否为主观策略所致,核心要素是交易对手方寻租意愿的强弱:寻租的过程会频繁出现挂单后快速撤单的现象,导致盘口的结构出现快速变化,基于盘口结构委托的优先限价单成交概率随之降低。在股票市场中,部分“活跃”订单实则会反向制造流动性不足的市场矛盾,此类订单也由此被定义为毒流动性。

  从图76展示的结果中,我们可以发现,在2013年至2016年(算法交易还未兴起)期间,连续订单的委托金额并没有特别明确的变化规律。此时市场上的挂单行为相对并不透明,跟踪订单行为并以此为依据指定的交易策略较少,机构投资者大多是基于过去或预估未来一段时间内的委托成交情况制定交易清单。然而,在2016年后,算法交易的应用逐渐铺开,更加高级的盘易策略不断迭代出新,其中一类较为典型的策略是盘口动态调整委托价格。这类策略利用低延时、高效率的交易通道,在有大单改变当前盘易状态时候,迅速在己方盘口挂单以争取更优先的序列。这些机构类订单的委托金额通常较小,申报的时间通常在同方向的大额交易委托挂单之后,表现为图中委托金额呈现逐渐减小的变化趋势。这部分委托逐渐减少以后,后续跟随的非机构类的订单会使得委托金额重新恢复到一般水平。而对方发现己方流动性充足,会主动委托吃掉当前己方的委托订单,从而形成相反方向的连续委托,如此循环往复。

  本报告中所有数据结果是基于历史统计结果的展示,未来有可能发生风格切换导致因子失效的风险。模型运行存在一定的随机性,初始化随机数种子会对结果产生影响,单次运行结果可能会有一定偏差。历史数据的区间选择会对结果产生一定的影响。模型参数的不同会影响最终结果。模型对计算资源要求较高,运算量不足会导致结果存在一定的欠拟合风险。本文所有模型结果均来自历史数据,模型存在统计误差,不保证模型未来的有效性,对投资不构成任何建议。

搜索