【华泰金工林晓明团队】人工智能选股之数据标注方法实证——华泰人工智能系列之十七

摘要

本文测试了多种数据标注方法以及集成模型,XGBR-Combine表现最好

将机器学习运用于多因子选股时,不同的数据标注结果(数据标签)会使得模型得出不同的训练和预测结果。本文使用随机数种子 多次测试的手段,研究对比了分类和回归、使用夏普比率作为标签、使用信息比率作为标签以及使用Calmar比率作为标签的方法,回测表现整体符合预期。最后,我们将不同数据标注方法训练的模型进行等权集成得到模型XGBR-Combine,该模型在回测中表现最为全面。


本文使用了随机数种子 多次测试的方法来验证数据标注方法的有效性

在机器学习模型的训练过程中,会有各种各样的步骤给模型带来随机性,如果本文仅对一系列数据标注方法进行单次测试,那么所得出的结果未必具有说服力。此时有必要进行多次对比测试来获得统计意义上的“确定结果”。在多次测试中,可以对模型设置不同的随机数种子,使得每次测试中模型的预测都有一定差别,最后我们统计对比模型构建策略的相应指标的分布情况,就能得到更具有说服力的结果。

 

本文对比了XGBoost分类和回归的测试结果,回归整体表现更好

本文对比了全A股票池中,XGBoost分类(XGBC)和回归(XGBR)。单因子回归和IC测试中,XGBR只在RankIC均值上略低于XGBC,其他指标表现都比XGBC要好。单因子分层测试的TOP组合中。XGBC在收益指标上(年化收益率、年化超额收益率)上表现更好,XGBR则在风险指标(超额收益最大回撤,Calmar比率)上表现更好。本文还构建了相对于中证500的行业、市值中性全A选股策略并进行回测,XGBR相比XGBC在信息比率上有稳定优势。在其他指标上,XGBR和XGBC的表现不相上下。整体来看,XGBoost回归的表现更好。

 

本文还测试了另外三种数据标注方法,回测表现整体符合预期

本文还在全A股票池中测试了另外三种数据标注方法,使用夏普比率作为标签的模型(XGBR-Sharpe),使用信息比率作为标签的模型(XGBR-IR)以及使用Calmar比率作为标签的模型(XGBR-Calmar)。整体来看,在对应的测试中,XGBR-Sharpe比XGBR的夏普比率更高,XGBR-IR比XGBR的信息比率更高,XGBR-Calmar比XGBR的Calmar比率更高。三种数据标注方法的回测表现和它们各自所设定的学习目标相匹配,结果整体符合预期。


本文将不同数据标注方法训练的模型进行等权集成,回测表现最为全面

机器学习领域中可以采用模型等权集成的方式以充分体现不同模型的优点。我们将XGBR,XGBR-IR,XGBR-Calmar三个模型集成得到XGBR-Combine并构建了相对于中证500的行业、市值中性全A选股策略,回测结果中,XGBR-Combine综合了三个基模型的优点,在年化超额收益率(14.74%~18.22%)、信息比率(2.28~3.39)上都表现最好,在超额收益最大回撤(3.83%~8.79%)、Calmar比率(2.13~3.87)上也有不错的表现。同时,XGBR-Combine的以上4个回测指标的标准差都比较小,说明其在多次测试中受随机性的干扰程度最小,表现最为稳定。

 

风险提示:通过人工智能模型构建的选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。


本文研究导读

机器学习主要分为监督学习(supervised learning)和无监督学习(unsupervised learning)。而在监督学习中,如何为训练样本进行数据标注(data labeling)是一个非常重要的话题。由于数据标注的结果(数据标签)会直接作用于监督学习的目标函数(objective function),不同的数据标注方法会使得监督学习得出不同的训练和预测结果。结合机器学习在多因子选股中的运用,本文将列出各种数据标注方法并进行系统的测试。本文将主要关注以下问题:


1. 在将机器学习运用到多因子选股中时,有哪些数据标注方法?


2. 如何验证各种数据标注方法的有效性?


3. 各种数据标注方法在选股中的测试效果如何?是否与它们各自所设定的学习目标相匹配?


4. 如何综合利用各种数据标注方法的优点以达到更好的回测效果?


数据标注简介和数据标注的方法

监督学习和数据标注

在机器学习领域,监督学习是指利用一组带标签的数据,学习从输入特征X到标签y的映射y=f(X),然后将这种映射关系f应用到未知数据,达到预测未知数据标签的目的。其中,生成带标签数据的过程就是数据标注。监督学习研究中主要有三个不同的侧重点,图表1里左侧主要研究和对比不同监督学习模型的优劣,是本系列之前多篇报告中着重探讨的话题;图表1里中间部分主要研究输入训练集的处理,对应本系列报告《人工智能选股之特征选择》;图表1里右侧主要研究数据标注的方法,这在本系列报告《人工智能选股之损失函数的改进》中有过一定研究,本文将专门对监督学习中数据标注的方法进行深入全面的探讨。



机器学习多因子选股中的数据标注方法

由上一节的介绍可以看出,数据标注在监督学习流程中往往是一个比较简单的步骤,但由于其直接与模型的输出和目标函数相关,所以会对监督学习的结果造成较大影响。另外,数据标注方法和具体的应用领域也有很大关系,本节将介绍将机器学习应用于多因子选股时的数据标注方法。


分类和回归

《统计学习方法》中对分类和回归的定义为:

标签(y)为连续变量的预测问题是回归问题。

标签(y)为有限个离散变量的预测问题为分类问题。

在实际的回归应用中,由于数据量有限,标签y不可能严格连续,但标签y往往会有很多取值(成百上千甚至更多),因此依然可以视为回归问题。对于分类问题,最常见的是二分类问题(y只有两种取值),因此本文只讨论二分类问题。我们将通过一个简单的例子来形象展示分类和回归的区别。


线性回归(linear regression)是最简单常用的回归模型,可以使用它来拟合股票市盈率因子和收益率的关系。我们选取沪深300成分股2016年底的市盈率以及2017年一季度涨跌幅。对市盈率TTM取倒数,进行中位数去极值和标准化处理,得到EP因子。如图表2所示,线性回归可以较好地拟合输入特征x1(EP因子)和标签y(涨跌幅)的关系,图中的直线对应于线性回归模型y=w0 w1x1,其中系数的估计量w0=2.32,w1=3.03。在这个例子中,模型拟合的标签是股票的涨跌幅。


另一种情况是,我们并不想预测股票未来具体的涨跌幅,而是希望预测股票未来会上涨还是下跌。换言之,我们面对的是“分类”问题,而非“回归”问题。此时可以使用逻辑回归(logistic regression),尽管其名字中包含回归二字,却是解决分类问题常用的机器学习方法。例如,我们希望用股票的市盈率预测涨跌情况,选取沪深300成分股2017年一季度的涨跌幅排名前50名和后50名的个股,计算2016年底的市盈率EP因子,将涨幅前50的个股定义为类别y=1(图表3中的红色样本),跌幅前50的个股定义为类别y=0(图表3中的蓝色样本)。然后就可以使用下面的逻辑回归模型进行拟合。


通过极大似然估计方法求得参数w0=1.95,w1=0.36。拟合结果如图表3的曲线所示,曲线上的每个点表示某个EP因子x1对应的上涨概率P(x1)。当x1取极大的数时,上涨概率P(x1)趋向于1;当x1取极小的数时,上涨概率P(x1)趋向于0。


承接上面的例子,在图表4中,我们总结了机器学习运用于多因子选股时,回归和二分类的对比。



更多数据标注方法

在将机器学习运用于多因子选股时,除了使用股票收益率作为标签,还可以使用一些能综合体现股票收益、回撤以及波动的指标来给股票样本打标签,本文将测试以下三种数据标注方法:

1. 使用个股的夏普比率进行数据标注。假设个股在第t截面期的复权收盘价为Pt,第t 1截面期的复权收盘价为Pt 1,在这两个截面期之间的日度收益率标准差为

文章评论
点击加载更多
推荐
嗨牛财经 版权所有 © 2014-2017 粤公网安备44010402001139   粤ICP备14041788号-1
用户登录 关闭
还没有嗨牛账号?立即注册
嗨牛财经公众平台 关闭
可在嗨牛财经微信端获得更多精彩内容