订单簿模型与基线方法在竞争均衡价格预测中的能力边界评估
1. 项目概述:CEP预测模型评估的核心要义
在金融预测与市场建模领域,我们常常面临一个根本性的拷问:一个模型表现好,究竟是因为它真正捕捉到了市场的微观结构信号,还是仅仅因为数据本身存在某种易于拟合的简单模式?这个问题在预测竞争均衡价格(CEP)时尤为关键。CEP是市场理论中的一个核心概念,它代表了在完全竞争、无摩擦的理想状态下,供需达到平衡时的价格。在实际的预测任务中,无论是用于算法交易、市场机制设计评估,还是作为复杂经济仿真的基准,准确预测CEP都具有极高的价值。
然而,CEP预测的挑战在于,它并非一个可以直接观测的市场成交价,而是一个需要从嘈杂、动态的市场数据(如订单簿)中推断出来的潜在均衡状态。这就引出了本次深度分析的核心:基于订单簿信息的复杂模型(如OB-RLM和GBT)与仅依赖简单统计或瞬时价格的基线方法(如Treatment-Mean和Book-Midpoint),在预测CEP时的真实能力边界究竟在哪里?
简单来说,订单簿模型试图解读市场这本“书”的每一页——买卖双方的挂单量、价格分布(分位数)——来推断未来的均衡点。而简单基线,比如直接用历史CEP的均值(Treatment-Mean)或者当前买卖盘中间价(Book-Midpoint)来预测,则更像是只看了一眼封面标题就做出了猜测。前者复杂但可能更深刻,后者简单但可能只是巧合。我们的工作,就是通过一套严谨的评估框架,剥开这些模型的外衣,看看在预测CEP这场考试中,谁是真正理解了题目,谁只是在死记硬背答案。
这篇文章适合所有对市场微观结构建模、机器学习在金融中的应用,以及模型评估方法论感兴趣的研究者、量化分析师和开发者。无论你是想了解如何构建一个稳健的CEP预测器,还是想深入理解为何某些“看似不错”的简单方法在实际应用中会失灵,这里的系统对比、原理拆解和避坑经验,都将为你提供直接的参考。
2. 核心模型与基线方法原理深度拆解
要理解评估结果,首先必须吃透每个参与对比的模型和基线方法的内在逻辑、输入输出以及它们各自的“世界观”。这不仅仅是知道它们叫什么,更要明白它们为什么这样设计,以及这种设计背后隐含的关于市场如何运行的假设。
2.1 预测目标:竞争均衡价格(CEP)与配置效率(AE)
在展开模型细节前,必须明确我们预测的两个核心指标。虽然本文重点在CEP,但其孪生概念——配置效率(AE)——也常被一同分析,它们共同刻画了市场的表现。
- 竞争均衡价格(CEP):这是本次评估的焦点。在一个给定的市场情境(由特定的买方估值和卖方成本分布定义,即一个“treatment”)和特定轮次(round)中,理论上能使总交易剩余最大化的那个单一价格。预测CEP,本质上是预测一个不可直接观测的理论值。
- 配置效率(AE):衡量实际达成的交易配置,相对于在CEP下可能实现的最优配置(即竞争均衡配置)的效率百分比。100%的AE意味着市场交易达到了理论最优。
预测CEP的难点在于,它高度依赖于当前活跃的买卖方群体及其私有信息(估值和成本),而这些信息并不完全公开。模型只能通过可观测的公共信息——主要是订单簿(Limit Order Book, LOB)的状态——来进行推断。
2.2 基于订单簿的核心预测模型
这类模型将订单簿的量化特征作为主要输入,试图从中提取关于市场供需力量和潜在均衡的信号。
2.2.1 订单簿稳健线性模型(OB-RLM)
OB-RLM是一种将经济学直觉与统计稳健性结合的线性模型。它的核心思想是:买卖盘口在不同价格档位上的累积量(或分位数),线性组合后能够有效指示CEP。
- 模型输入:通常是订单簿的“运行分位数”。例如,买方报价的某个高分位数(如90%分位数,代表较高的购买意愿)和卖方报价的某个低分位数(如10%分位数,代表较低的出售意愿)。这些分位数动态反映了在某个时刻,市场深度和价格压力的分布。
- 模型形式:
预测CEP = β0 + β1 * Bid_Quantile + β2 * Ask_Quantile。通过稳健回归(如Huber损失)拟合系数β,以减少异常订单(可能是试探性或非理性的挂单)对模型的影响。 - 核心逻辑:它假设市场均衡价格与买卖双方的“边际”意愿价格存在稳定的线性关系。高分位买价代表强劲需求,低分位卖价代表充足供给,它们的中间地带可能就是均衡点。
- 为什么用RLM? 在实验性或高频市场数据中,订单流可能包含噪音或极端值(例如,零智能交易者随机提交的离谱报价)。普通最小二乘法(OLS)会被这些异常值严重干扰,而稳健回归能降低这些“坏数据”的权重,得到更稳定、更可靠的系数估计。这是在实际建模中保护模型免受数据质量问题影响的关键技巧。
2.2.2 梯度提升树模型(GBT for CEP)
梯度提升树(Gradient Boosted Trees)是一种强大的非线性机器学习模型,在这里被用作一个灵活的函数逼近器,来学习从订单簿特征到CEP的复杂映射关系。
- 模型输入:输入特征通常比OB-RLM更丰富。除了买卖盘的分位数特征,还可能包括:当前轮次序号(r)、本轮已观察到的交易笔数(n)、以及实验处理(treatment)的元数据(如反馈设置、定价规则等)。GBT有能力自动识别并利用这些特征的交互作用。
- 模型能力:与线性模型OB-RLM不同,GBT可以捕捉特征与目标之间非线性的、条件性的关系。例如,它可能学到“在市场早期(第一轮),买卖价差较大时,中间价对CEP的预测性较弱;而在多轮后市场趋于稳定时,某个特定分位数的买价则成为强预测因子”。
- 核心优势与风险:其优势在于预测精度高,能自动进行特征工程。风险在于过拟合和可解释性相对较差。尽管可以通过特征重要性(如SHAP值)来解读,但其内部决策过程仍是一个黑箱。在实际应用中,需要在“精度”和“可解释/可控性”之间做出权衡。
2.3 作为参照的简单基线方法
为了给上述复杂模型的表现提供一个参照系,我们引入了两种极其简单的预测方法。它们代表了“不利用订单簿复杂信息”或“仅利用最朴素信息”的预测能力下限。
2.3.1 处理组均值预测器(Treatment-Mean)
这是最简单、最直接的统计基线。
- 预测方法:对于一个给定的实验处理(treatment),其CEP预测值恒等于该处理在训练集所有轮次中观察到的CEP的平均值。也就是说,它完全忽略了当前轮次的市场状态、订单簿信息,只根据历史标签(treatment)给出一个常数预测。
- 隐含假设:它假设同一处理下的CEP波动很小,且在不同轮次、不同市场状态下都围绕一个固定值随机波动。这本质上是一个“无条件均值”模型。
- 预期表现:当同一处理内的CEP确实方差很小时(例如,实验设计使然),它的中位数绝对百分比误差(Median APE)会接近CEP在该处理内的变异系数(CV),大约在5%左右。这构成了一个看似不错的“基准”。
2.3.2 订单簿中点价预测器(Book-Midpoint)
这个方法比Treatment-Mean多走了一小步,它看了一眼当前的市场,但看得非常表面。
- 预测方法:以当前时刻订单簿中的最高买价(best bid)和最低卖价(best ask)的算术平均值作为CEP的预测值。如果订单簿一侧为空,则使用另一侧价格;如果两侧都为空,则回退到Treatment-Mean预测。
- 隐含假设:它假设市场的瞬时中间价就是均衡价格的良好代理。这反映了传统金融市场中一个常见的直观想法:买卖报价的中间点代表了当前的市场共识价格。
- 潜在问题:在非连续交易、流动性不足或存在大量限价单“堆积”的实验市场中,最优买卖价可能并不能代表真实的供需平衡点,尤其无法反映盘口深度(即每个价格档位上的挂单量)。它捕捉的是市场的“边际”价格,而非考虑深度的“全局”均衡价格。
2.4 对照模型:有效市场假说及其修正
为了更全面地定位订单簿模型的价值,我们还将它们与两种基于有效市场假说(EMH)的模型进行对比。
- EMH模型:预测值 = 上一轮已实现的实际成交价格。其核心假设是,所有历史信息(包括订单簿信息)都已充分反映在最新价格中,未来价格不可预测,最佳猜测就是最近的价格。这是金融学中的一个经典基准。
- CEMH模型:在EMH的基础上,针对不同的实验处理(如不同的定价规则PR和反馈设置FS的组合)引入一个校正系数。即
预测CEP = α_{PR, FS} * 上一轮成交价。它承认不同市场机制下,历史价格向均衡价格的收敛速度或偏差可能不同,但校正方式仍然是简单、线性的。
通过将OB-RLM和GBT与这些基线、经典模型放在同一套评估体系下对比,我们才能客观地回答:引入订单簿的复杂信息,到底带来了多少增量价值?这些价值是稳健的,还是脆弱的?
3. 评估框架与核心指标解析
一个严谨的模型评估,离不开精心设计的评估框架和恰当的评估指标。本项目的评估体系旨在模拟真实预测场景中的挑战,并多维度衡量模型性能。
3.1 数据分割与验证策略
评估的可靠性首先建立在数据使用的严谨性上。我们采用了两种交叉验证策略,以测试模型在不同压力下的表现。
- 随机分割(50次重复):将全部实验数据(多个处理、多个游戏、多个轮次)随机划分为训练集和测试集。重复此过程50次,报告性能指标的中位数和分布。这评估了模型在数据分布相对均匀、训练与测试来自同一分布时的平均表现。
- 留一处理组外(LOTO)验证:每次将一个完整的实验处理(treatment)的所有数据作为测试集,用其他所有处理的数据训练模型。这评估了模型的外推能力或可迁移性——即模型能否将其在一个市场机制(处理)中学到的规律,应用到另一个未见过的、可能机制不同的市场中去。这对于检验模型是否真正理解了普适的微观结构原理至关重要。
3.2 核心评估指标:中位数绝对百分比误差(Median APE)
我们选择中位数绝对百分比误差作为核心评估指标,而非更常见的平均绝对百分比误差(MAPE)或均方根误差(RMSE)。
- 计算公式:对于每个预测样本,
APE = | (预测CEP - 真实CEP) / 真实CEP |。然后计算所有测试样本APE的中位数。 - 为什么用中位数而非均值? 在金融和经济数据中,误差分布常常是右偏的,存在少数极端大的误差(例如,在零交易轮次,某些模型的预测可能完全偏离)。平均值会被这些极端值严重拉高,从而不能代表大多数样本的典型误差水平。中位数对异常值不敏感,能更好地反映模型的“典型”或“最常见”预测精度。这对于评估一个模型在大多数情况下的可靠程度更为重要。
- 分桶评估:我们不是简单地计算一个全局Median APE,而是将测试样本按照两个关键维度进行分桶评估:
- 轮次(Round):第1轮 vs. 第2轮及以后。市场早期(信息少、不确定性高)和后期(信息累积、可能趋于稳定)的预测难度不同。
- 价格实现(Price Realizations):本轮是否有成交(0 deals vs. ≥1 deal)。是否有成交是市场状态的一个强烈信号,可能显著影响CEP的可预测性。 这种分桶分析能揭示模型在不同市场状态下的特异性表现,避免全局指标掩盖的重要细节。
3.3 实操心得:构建稳健评估管道的注意事项
在复现或设计类似评估时,以下几点经验至关重要:
- 数据泄露的严防死守:确保测试集的信息在任何情况下都不会以任何形式“污染”训练过程。例如,在计算像Treatment-Mean这样的基线时,必须确保用于计算均值的CEP数据严格来自训练集。一个常见的错误是在划分前就计算了全局统计量。
- 随机种子的固定与重复:进行多次随机分割(如50次)时,必须固定并记录每次的随机种子。这确保了结果的可复现性,也使得我们能够深入分析“最差情况”下的表现(如找到那个导致Treatment-Mean崩溃的非对称分割)。
- 基线模型的必要性:永远要设置简单、可解释的基线(如均值、随机猜测、持久性预测)。一个复杂模型只有显著、稳定地超越了这些简单基线,其价值才得以体现。否则,很可能只是过拟合了数据中的某些噪声模式。
- 超越点估计:看分布:不要只盯着中位数或平均值一个数字。通过箱线图、误差分布直方图或分位数表来查看预测误差的完整分布。一个模型可能中位数误差很小,但存在长尾的极端错误,这在风险敏感的应用中是不可接受的。
4. 核心结果对比与深度解读
基于上述框架,我们对所有模型进行了系统评估。表12(对应于原文)的结果是本次分析的基石,它清晰地揭示了不同方法的能力层级。
4.1 整体性能排行榜
为了更直观地对比,我们将核心结果整理如下。表中数值为Median APE,越低越好。
| 模型 | 第1轮,无成交 | 第1轮,有成交 | 第≥2轮,无成交 | 第≥2轮,有成交 | 核心特点与定位 |
|---|---|---|---|---|---|
| EMH | 1.000 | 0.109 | 1.000 | 0.062 | 经典基准,依赖上一轮成交价 |
| CEMH | 1.000 | 0.092 | 1.000 | 0.055 | EMH的机制感知修正版 |
| OB-RLM | 0.191 | 0.061 | 0.109 | 0.048 | 基于订单簿的线性稳健模型 |
| GBT | 0.135 | 0.077 | 0.099 | 0.051 | 基于订单簿的复杂非线性模型 |
| Treatment-Mean | 0.054 | 0.050 | 0.050 | 0.050 | 简单统计基线,常数预测 |
| Book-Midpoint | 0.286 | 0.100 | 0.103 | 0.059 | 简单市场指标,瞬时中间价 |
4.2 关键发现与逐层分析
第一眼看去,结果似乎有些反直觉:简单的Treatment-Mean基线在“无成交”的两个桶里,其Median APE(~0.05)竟然低于所有复杂模型(包括OB-RLM和GBT)。这是否意味着复杂模型失败了?绝非如此。这恰恰是需要深入解读的起点。
4.2.1 Treatment-Mean的“虚假繁荣”与致命缺陷
Treatment-Mean表现“尚可”的原因在于实验设计本身:每个处理(treatment)内的CEP分布确实非常集中(变异系数约5%)。因此,用一个常数(该处理的均值)去预测,其误差自然就围绕这个变异程度波动。 然而,两个压力测试彻底暴露了它的脆弱性:
- 对数据分割对称性的极端敏感:在50次随机分割中,大多数情况下训练集和测试集的CEP均值相差无几,但存在极端情况。在最不对称的一次分割中(#41,处理组BBLargeCE),训练集与测试集的CEP均值差距高达71.2%。这导致Treatment-Mean在该处理组的Median APE从0.050飙升至0.434,性能退化超过8倍。这警示我们:一个模型的稳健性,不能只看其在理想、对称数据分割下的平均表现,必须考察其在最坏情况下的表现。 相比之下,OB-RLM和GBT在不同分割下表现稳定。
- 完全缺乏可迁移性:在LOTO验证中,当需要用从未在训练中见过的处理组进行预测时,Treatment-Mean束手无策。因为它没有输入特征,无法对新处理组做出任何有意义的推断,只能回退到所有训练处理组的全局均值或其他粗糙估计,导致其整体Median APE从0.050恶化到0.078,对于一些独特的处理组(如BBLargeCE)误差甚至超过0.19。这说明它根本没有学会“预测”,只是记住了历史数据的标签。
核心教训:评估一个预测模型,绝不能仅看其在IID(独立同分布)假设下的表现。必须用非对称分割、样本外分布(OOD)或领域外(如新处理组)等压力测试来检验其鲁棒性和泛化能力。一个只能插值、不能外推的模型,在实际应用中价值有限。
4.2.2 Book-Midpoint的全面溃败
Book-Midpoint模型在所有四个评估桶中,其性能均被OB-RLM和GBT全面超越,甚至在每个桶里都不如Treatment-Mean。这传递了一个明确的信息:在预测CEP这个任务上,简单的买卖盘中间价是一个信息量不足的弱指标。
- 原因分析:订单簿中点价只反映了市场当前最边际的买卖意愿,完全忽略了盘口深度和整个价格分布。在实验市场中,由于交易者行为可能包含大量非策略性或试探性挂单,最优买卖价可能波动剧烈且不能代表真实的供需重心。而OB-RLM和GBT所使用的分位数特征,能够捕捉到“在某个价格水平以下有多少购买意愿”或“以上有多少出售意愿”,这些才是与全局均衡价格更相关的信息。
- 实践启示:在构建基于订单簿的预测因子时,深度信息和价格分布信息远比最优买卖价本身更重要。计算不同价格档位的累积量、计算价差、计算订单不平衡度等衍生特征,通常是更有效的选择。
4.2.3 订单簿模型的真实价值体现
尽管在“无成交”桶的Median APE数值上,OB-RLM和GBT可能略高于Treatment-Mean,但这绝不意味着它们更差。它们的优势体现在更深层次和更广泛的维度:
- 捕捉动态与尾部信息:Treatment-Mean给出的是一个不变的常数预测。而订单簿模型能够追踪市场within-game的动态变化、价格分布的尾部特征以及市场状态的机制转换。这些能力在仅看中位数误差时可能被掩盖,但在误差的完整分布比较(如原文中的表6)或对极端事件的预测中会显现出来。
- 应对机制变化:如上所述,订单簿模型能够泛化到新的、未见过的实验处理(LOTO测试中表现相对稳定),因为它们学习到的是从订单簿状态到CEP的映射关系,这种关系可能在不同机制下具有一定的普适性。
- 提供可解释性与洞察:OB-RLM的系数可以直接解释(例如,买盘高分位数权重为正,说明高买价推高预测CEP)。GBT虽然复杂,但可以通过特征重要性(如SHAP值)来解读哪些订单簿特征在何时最重要。这些洞察对于理解市场运作、甚至改进市场设计都有价值。而Treatment-Mean没有任何可解释的参数。
结论一:Treatment-Mean是一个脆弱的“记忆”模型,其良好表现严重依赖于数据分布的巧合对称性,且无法迁移。它不能作为一个可靠的预测基准。 结论二:Book-Midpoint是一个信息量不足的弱指标,在CEP预测任务上价值有限。 结论三:OB-RLM和GBT等基于订单簿的模型,其核心价值在于动态预测能力、对尾部事件的鲁棒性、跨机制的泛化能力以及可解释的洞察力,这些是简单基线完全不具备的。
5. 消融实验:剥离模型组件以验证核心驱动力
为了更精确地理解订单簿模型优异表现的来源,我们进行了两项关键的消融实验。这类似于机械师拆解发动机,看看到底是哪个部件提供了主要动力。
5.1 实验一:仅订单簿信息是否足够?(Orderbook-Only Ablation)
问题:OB-RLM和GBT的好成绩,是真的来自于订单簿信息,还是主要依赖于那些描述实验设置的元特征(如反馈模式、定价规则、轮次序号等)? 方法:我们重新训练了GBT(用于CEP和AE)和OB-RLM(用于AE)的变体,在特征中移除了所有实验协议描述符,只保留运行的买卖盘分位数。然后比较其与完整模型的性能差异。 核心结果与解读:
- 对于CEP预测:GBT for CEP 和 OB-RLM for CEP 在移除协议描述符后,性能几乎没有变化。这强有力地证明,在CEP预测任务上,模型的表现几乎完全由订单簿信息驱动。实验设置描述符没有提供额外的预测能力。这符合经济学直觉:均衡价格应由当下的市场供需(反映在订单簿中)决定,而非由外部规则标签直接决定。
- 对于AE预测:情况则不同。GBT for AE 和 OB-RLM for AE 在移除协议描述符(特别是反馈设置和已成交笔数n)后,性能出现了明显下降,尤其是在第一轮无交易的情况下。这表明,在预测配置效率时,市场环境信息(如是否有反馈、已发生多少交易)本身提供了关于市场是否接近出清的重要信号,这些信号不能完全被订单簿的瞬时状态所替代。
实操心得:进行特征消融实验是模型诊断的关键步骤。它能告诉你模型依赖的是什么。在本案例中,它清晰地将CEP和AE两个预测任务区分开来:CEP更依赖于即时的状态信息(订单簿),而AE还依赖于过程的累积信息(历史交易情况)。这指导我们在构建不同目标的预测器时,应有不同的特征工程侧重点。
5.2 实验二:成交价信息是否被循环利用?(Realised-Price Ablation)
问题:对于OB-RLM (AE)模型,它使用了一个特征:本轮已实现的成交价格。这是否意味着模型只是在“重复利用”这个价格信息来预测本轮的效率(AE),从而造成了数据泄露或循环论证的假象? 方法:我们重新训练了OB-RLM (AE)模型,但移除了“已实现成交价”这个输入特征,然后比较性能。 核心结果与解读:
- 在“无成交”的桶中,模型性能理论上不变(因为该特征值为0)。
- 在“有成交”的桶中,移除该特征后,模型的Median APE与完整模型几乎完全相同(整体中位数误差从0.107变为0.106)。
- 结论:已实现成交价这个特征,对于OB-RLM (AE)模型的预测精度贡献微乎其微。模型的主要预测能力来源于订单簿分位数和其他协议描述符。这彻底打消了“模型性能源于循环利用目标信息”的疑虑,证明了其预测能力的真实性。
避坑指南:在构建包含历史目标变量或紧密相关变量作为特征的模型时,必须进行此类消融实验,以排除“信息泄露”或“标签泄漏”的可能性。确保模型的优异表现是源于其捕捉了真正的预测信号,而非“偷看”了答案的一部分。
6. 模型选择与部署的实践指南
基于以上全面的分析,我们可以为在实际应用中选择和部署CEP预测模型提供清晰的指导。
6.1 如何根据需求选择模型?
没有“最好”的模型,只有“最适合”的模型。选择取决于你的核心需求优先级:
- 追求极致可解释性与稳定性:选择 OB-RLM。
- 适用场景:需要向业务方、风控或监管清晰解释预测依据的场合;对模型稳定性要求极高,需要确保在小样本或数据分布轻微变化时不会出现灾难性失败的场景。
- 优点:系数透明,逻辑清晰,稳健回归对异常值不敏感。
- 缺点:预测精度上限可能低于更复杂的非线性模型。
- 追求最高预测精度:选择 GBT。
- 适用场景:预测精度是首要目标,且有足够的数据支撑;可以接受一定程度的“黑箱”特性;愿意投入计算资源进行超参数调优。
- 优点:能捕捉复杂非线性关系,通常能取得最佳的预测误差指标。
- 缺点:可解释性差,依赖SHAP等事后解释工具;对超参数敏感;在数据量不足时容易过拟合。
- 需要快速建立可靠基线或进行敏感性分析:EMH/CEMH 仍然是有价值的参照。
- 适用场景:在新市场或新资产上快速建立一个“不至于太差”的预测基准;用于衡量更复杂模型带来的“增量价值”究竟有多大。
- 注意:绝不能将EMH的简单性误解为普适性。它只在市场高度有效、连续交易时表现较好,在实验市场或流动性不足的市场中可能完全失效(如表中所见,无成交时误差为1)。
绝对避免的选择:在任何严肃的预测任务中,都应避免将 Treatment-Mean 或 Book-Midpoint 作为最终模型。它们仅适用于最初期的探索或作为性能下限的对照。
6.2 部署前的关键检查清单
在将模型投入实际使用前,请务必完成以下检查:
- [ ] 压力测试:是否在非对称数据分割、样本外时间区间或全新资产/机制上测试过模型?其性能衰减是否在可接受范围内?
- [ ] 可解释性审计:对于OB-RLM,检查系数符号是否符合经济学常识(例如,买压特征应与预测价格正相关)。对于GBT,检查特征重要性排名,确保主导特征是可理解的市场指标,而非某些数据噪音。
- [ ] 误差分布分析:不要只看中位数误差。检查误差的分布情况:是否存在极端大的预测错误?这些错误集中在哪些市场状态下(如市场开盘、重大新闻发布前后、流动性枯竭时)?模型是否对尾部风险有足够的鲁棒性?
- [ ] 实时性能验证:在回测或离线评估中表现良好的模型,在实盘流式数据中可能会因为数据延迟、预处理管道差异、计算耗时等问题而表现不同。需要进行小规模的实时模拟测试。
- [ ] 监控与衰减预警:建立模型性能监控仪表盘。跟踪预测误差随时间的变化。当误差持续超过某个阈值,或特征分布发生显著漂移时,应触发模型重训练或报警。
6.3 常见陷阱与应对策略
- 过拟合历史模式:GBT等复杂模型尤其容易陷入此陷阱。应对策略包括:使用严格的交叉验证、早停法、正则化(L1/L2),以及最重要的——使用像LOTO这样的领域外验证来评估真正的泛化能力。
- 忽略市场状态异质性:如表所示,模型在“第一轮”和“有/无成交”不同状态下的表现差异巨大。一个实用的策略是开发状态依赖的模型或集成模型。例如,可以训练一个专门的模型用于预测市场开盘(第一轮)的CEP,另一个用于预测连续交易中的CEP。
- 将统计巧合误认为规律:Treatment-Mean的案例是典型。应对策略就是进行彻底的鲁棒性检验(如多次不同随机种子的分割、构造对抗性测试案例)和消融实验,确保模型表现是牢固的。
- 可解释性与性能的虚假权衡:有时,一个简单的线性模型(如OB-RLM)通过精心设计的特征工程(例如,引入订单簿深度曲线的非线性变换作为特征),可以在保持可解释性的同时,大幅提升性能。不要过早放弃简单模型,尝试用领域知识来增强它。
最终,构建一个可靠的CEP预测系统,远不止是选择一个算法。它是对市场微观结构的深刻理解、严谨的评估方法论、对模型假设的持续质疑以及工程化稳健性的结合。本次对订单簿模型与简单基线的对比分析,正是这一复杂过程的一个缩影。它告诉我们,真正的价值不在于模型的复杂程度,而在于其是否稳健、可解释且真正捕捉到了驱动市场均衡的那些核心信号。