研报名称:《华泰人工智能系列之二十四:真假序列识别研究-投石问路:技术分析可靠否?》
研报作者:分析师:林晓明,研究员:陈烨
真假序列识别的意义和研究思路
本文从一个相对新颖的研究问题——真假市场价量序列识别入手,以机器学习为研究工具,考察真实市场价量序列是否包含显著区别于随机生成的虚假市场价量序列的信息,从反向的逻辑检验市场交易信息是否存在规律,并进一步探讨基于交易信息的技术分析的可靠性。结果表明,单纯基于价的技术分析可靠性存疑,量可能比价更有用。
虚假序列的生成与特点
本研究选择收益率作为“价”信息的代表,换手率作为“量”信息的代表,选择 4 只宽基指数和 29 只一级行业指数作为样本标的,选择 60 个交易日作为样本长度。通过随机打乱收益率和换手率的时间顺序生成虚假序列,同时保证同一交易日的收益率和换手率对应。收益率及价格的真假序列仅凭肉眼观察几乎难以分辨。真实换手率序列相比于虚假换手率序列表现出更强的趋势性和平滑性。
卷积神经网络模型模型表现突出,优于其它机器学习模型
模型初筛的结果表明,卷积神经网络(CNN)对真假价量序列的识别能力突出,表现显著优于其它模型;支持向量机和全连接神经网络表现出一定的识别能力,但总体较弱;而逻辑回归、随机森林、XGBoost 等模型几乎没有识别能力。我们推测其原因在于传统分类器依赖特征工程,需要人为从原始数据中提炼特征;而卷积神经网络本身有提取特征的能力,并且对图像数据的局部特征有较强的识别能力,因此适用于类似图像形式的时间序列识别问题。
换手率序列识别效果良好,引入技术指标无显著提升
基于收益率和换手率序列的模型对真假序列的识别能力较强,说明市场的价量序列包含非随机特征。将收益率和换手率序列分离并单独测试,发现基于收益率序列的模型识别效果不佳,在召回率上存在短板;基于换手率序列的模型识别效果良好。由此推测价量序列的主要信息来源于换手率,而收益率包含的信息较少或者提取难度较大。进一步尝试通过技术指标对收益率信息进行定向提取,发现引入 DIF、MACD 和 PSY 指标对识别效果没有显著提升。由此推测这些基于价格的技术指标带来的增量信息有限。
单纯基于价的技术分析可靠性存疑,量可能比价更有用
本研究测试结果表明,换手率序列存在可识别特征,并且在外推时间区间内 CNN 模型仍有良好识别表现;而基于收益率序列的 CNN 模型无法识别真假序列。换言之,基于量的技术分析或存在合理之处,而单纯基于价的技术分析可靠性存疑,量可能比价更有用。价格、收益率或基于价的技术指标蕴含的信息可能有限,可能需要与换手率、成交量或者其它基于量的技术指标结合使用。
神经网络 Grad-CAM 可视化:模型识别依靠局部特征
采用 Grad-CAM 方法对基于换手率序列的 CNN 模型识别过程进行可视化。连续真实序列的热力图显示出显著的连续平移迹象,表明模型识别真假序列主要来源于对换手率序列局部特征的识别。将 Grad-CAM 热力图和部分真实换手率序列结合,发现 CNN 模型对持续的高换手以及换手大幅降低的局部特征有提取作用。总的来看,针对模型的识别机制和特征提取方法仍缺乏深入理解,难以直观地解释,有待后续进一步研究。
风险提示:真假价量序列识别研究是对市场规律的探索,不构成任何投资建议。基于换手率序列的卷积神经网络模型能够有效识别真假序列,不代表换手率等成交量相关指标能够直接应用于投资。机器学习模型是对历史规律的总结,如果市场规律发生变化,模型存在失效的可能。