支持向量机选股模型效果对比

2018-11-09 15:24阅读：

http://blog.sina.cn/dpool/blog/u/5841924102

沈冬鹏基金经理北京量化投资管理有限公司

支持向量机（Support Vector Machine，SVM）是应用最广泛的机器学习方法之一。在20世纪90 年代，传统神经网络式微，深度学习尚未兴起，支持向量机由于其极高的预测正确率，并且能够解决非线性分类问题，成为当时最流行的机器学习方法。

支持向量机可分为线性支持向量机和核支持向量机，前者针对线性分类问题，后者属于非线性分类器。相对于传统的分类器，神经网络，决策树，贝叶斯分类方法，支持向量机在于它提出了间隔最大化的思想，使得其在预测分类上有着更好的效果，对比的传统的分类器算法往往只要只要在迭代过程中找到解就停止运算。另外一个就是在处理非线性可分的数据集采用核函数的方法将数据映射到高维空间，在本身不增加数据的维度的情况下避免了样本空间的稀疏，从而一定程度避免了维灾难。

SVM的潜在缺点包括以下方面：需要对输入数据进行完全标记、未校准类成员概率、SVM仅直接适用于两类任务，因此，必须应用将多类任务减少到几个二元问题的算法；解出的模型的参数很难理解。

支持向量机的一个重要创新是核技巧(kernel trick)。核技巧观察到许多机器学习算法都可以写成样本间点积的形式，从将其输入隐式映射到高维特征空间中。核函数的机理就是将原始非线性的样本通过非线性映射映射至高维特征空间，使得在新的空间里样本线性可分，进而可用线性样本的分类理论解决此类问题。非线性分类中常见的核函数包括：齐次多项式、非齐次多项式、双曲正切、高斯核(Gaussiankernel)、线性核、径向基函数(radialbasis function, RBF)核和、Sigmoid核。

参考华泰金工团队与Wind万矿的研究成果，支持向量机模型的构建包括特征和标签提取、特征预处理、样本内训练、交叉验证和样本外测试等步骤。最终在每个月底可以产生对全部个股下期上涨概率的预测值，然后根据正确率、AUC等指标以及策略回测结果对模型进行评价。最后根据模型的预测结果构建了沪深300成份内选股、中证500成份内选股和全A选股策略，通过收益率、最大回撤等指标综合评价策略效果。

建立的模型中，除了通过迭代训练得到的参数外，还有一些参数是需要人为设定的，既然如此，那么多少就带了很大的主观性，为避免这种主观性，能通过交叉验证的方法来选择最优参数。在这里只考虑罚项C和系数gamma，在支持向量机模型中最常用的就是核函数的选择以及最常用的就是高斯核和线性核和多项式核，如果是高斯核那么还涉及参数gamma的设定，除此外模型为防止过拟合还需要人为设定参数C，交叉验证的方法采用GridSearchCV，即每次对每一个核函数的两个参数进行组合进行遍历的方式，按照判断标准来选择最优参数，这里采用的准确率。可以看出在测试集上随着分界线的正向移动，分类的正确率会逐渐下降。

接下来选择选用2016年7月1日至2018年6月30日的月数据进行回测，回测效果对比如下：

核	相对收益	绝对收益	最大回撤
3阶多项式	-15.98%	-6.39%	-29.36%
7阶多项式	23.77%	33.35%	-16.54%
线性	-15.71%	-6.13%	-27.6%
sigmoid	28.29%	37.87%	-15.69%
rbf	-1.09%	8.49%	-22.42%

从结果上看，多项式核的支持向量机效果是最好的，其次是sigmoid、rbf，最后线性核是最差的。风险提示：通过支持向量机模型构建选股策略是历史经验的总结，存在失效的可能。

公司网站：lianghuajijin.com
QQ：3043656568
邮箱：3043656568@qq.com
新浪认证微博：量化基金
联系人：窦长民
联系电话：17601010202
关注微信公众号

支持向量机选股模型效果对比

举报/Report

我的更多文章

下载客户端阅读体验更佳