机器学习分类及方法训练模型介绍

机器学习分类及方法训练模型介绍

最佳答案 匿名用户编辑于2024/04/12 13:58

以下主要介绍机器学习基础,并对一些可以应用的监督学习方法进行介 绍。

1.机器学习分类

Tom Michael Mitchell 在 1997 年给出机器学习一个形式化的定义:假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序通过利用经验 E 在 T 中 任务上获得了性能改善,则我们就说关于 T 和 P,该程序对 E 进行了学习。 机器学习致力于如何通过计算手段,利用经验来改善系统自身的性能。在计 算机系统中,经验通常以数据形式存在,利用计算机从数据中产生模型算法,即 “学习算法”,是机器学习的主要内容。如果把经验数据提供给学习算法,就能产 生相应的模型,在面对新情况时,模型会提供相应的判断。

简而言之,机器学习是从经验数据中获得模型,进而预测未来。 一般的机器学习流程是输入数据、训练模型、模型预测,输入的数据是数据 集,其中每一条记录称为一个示例,示例中包含对象的属性,如果示例信息中包 含标记,那么该示例称为样例。 机器学习根据任务类型,可以分为无监督学习、监督学习、半监督学习、强 化学习。其中无监督学习是训练数据中不包含标记,该任务可以再分为聚类和降 维;监督学习是训练数据中包含标记,如果标记为离散值,则该任务是分类任务, 如果是连续的,该任务是回归任务。半监督学习介于监督学习和无监督学习之间, 用大量的未标记训练数据和少量的已标记数据来训练模型。强化学习以环境反馈 (奖/惩信号)作为输入,以统计和动态规划技术为指导的一种学习方法。

根据算法类型,机器学习可以分为传统统计学习和深度学习。 传统统计学习基于严格的数学推理,具有可解释性强、运行速度快、可应用 于小规模数据集的特点。如 SVM、逻辑回归、决策树等。 深度学习是基于神经网络的机器学习方法,包括前馈神经网络、卷积神经网 络等。这类方法可解释性较差,强烈依赖于数据集规模,但在语音、视觉处理方 面很成功。

 

机器学习在期货策略应用方面,对于价格预测,显然上涨和下跌是数据集的 标记,因此可以使用监督学习和深度学习模型,再结合金融理论对期货价格涨跌 进行预测。

机器学习与技术分析结合策略回测

这一部分主要是基于第二部分技术分析理论,使用第一部分的 8 种机器学习 方法训练模型,进而形成策略。

(一)策略构建

(1)根据历史会重演理论,历史数据越多越好,训练模型选取的品种主要是 国内期货市场上市时间较长的品种。

(2)各品种使用主力期货合约数据,多数品种数据是从上市日期开始一直到 2022 年,但是铜、铝、豆粕、棉花、天然橡胶从 2004 年开始,豆油、白糖、PTA 从 2006 年开始。 各品种均使用 80%数据作为训练集,剩余 20%作为测试集,构建策略主要是在 测试集上。

(3)根据第二部分技术分析,形态理论中,通过观察前期的 K 线形态,预测 后续将会完成的形态,进而判断价格趋势,那么前期每个交易日的开盘价、最高 价、最低价、收盘价可以算作是各个特征,而未来的价格涨跌形成标记。通过监 督学习算法,输入训练集中各个特征数据,以涨跌为标记,即可训练出模型用于 测试集。

假设观察前期 n1 个交易日的开盘价、最高价、最低价、收盘价,则共计 4*n1 个特征,将特征进行标准化处理(这里将当日价格作为除数进行归一化处理)以 去除量纲影响,对应预测未来 n2 个交易日的涨和跌,标记分别为 1 和-1。 报告中 n1 取 10 到 100 个交易日,步长为 10,n1>n2,这样一个算法参数下 有 45 个组合。 各种算法,比如 KNN,通过训练集构建模型,然后在测试集上测试,可以理 解为找到历史中最为相似的价格形态进行预测,此方法与实际交易最为接近;对 于 SVM,相当于使用超平面将训练集划分为涨和跌两类;对于 LS,使用涨跌幅度 进行回归;综合来看,各种算法相当于将过去 n1 个交易日的形态映射到一个空间 中进行分类,进而预测未来 n2 个交易日的涨跌。 (4)策略在测试集上进行构建,每个交易日进行滚动预测,每次开仓为 1/n2 单位资金,开平仓交易成本设置为 0.0001。

(二)策略回测

这一部分是通过训练模型,然后在测试集上形成策略。分别从算法角度、品 种角度以及综合角度,测试机器学习基于技术分析构建策略的效果。

1、算法角度

根据前文分析,分别对各个品种进行 8 种监督学习算法的训练和测试。 算法角度是指观察每种算法下各个品种测试集策略的表现。 具体来说,主要衡量指标为卡玛比率均值,即在该算法下各个参数组合的卡 玛比率平均值,然后找到表现最优的品种中表现最优的参数,画出收益率曲线。

从结果来看,KNN、SVM、决策树、随机森林、BP 神经网络算法下表现最优的 均为焦煤,测试集的最优参数卡玛比率甚至超过 6,主要原因是焦煤的测试集主 要从 2021 年开始,而 2021 年和 2022 年焦煤趋势行情较多,与 2016 年的焦煤行情接近,比较符合报告的策略思想。 朴素贝叶斯表现最优的为豆油,卡玛比率为 1.82;线性回归为白银,卡玛比 率为 2.33;逻辑回归为菜粕,卡玛比率为 2.03。

2、品种角度

相比于算法角度,品种角度是指品种在各算法下的表现,这里分成黑色、有 色、化工、软商品、农产品 5 个板块进行分析。

① 黑色板块:黑色板块对螺纹钢、热卷、焦炭、焦煤、铁矿石、玻璃 6 个品种进行测试。

从测试结果来看,焦煤各算法下表现均较好,各算法卡玛比率均值均大于零, KNN 最优,螺纹钢、热卷、焦炭、铁矿表现最优的算法是 SVM,玻璃最优的是线 性回归,但是其他算法均不佳,卡玛比率均值都为负值。

② 有色板块:有色板块对铜、铝、锌、黄金、白银 5 个品种进行测试。

从测试结果来看,铜、铝、白银各算法下表现均较好,各算法卡玛比率均值 均大于零,黄金最优的是线性回归。

③ 化工板块:化工板块对 PTA、甲醇、塑料、聚丙烯、PVC 共计 5 个品种进行测试。

从测试结果来看,各个品种的的最优算法均不同,其中甲醇的朴素贝叶斯算 法表现最优,最优参数的卡玛比率达到 2.88。

④ 软商品板块:软商品板块对棉花、白糖、橡胶 3 个品种进行测试。

三个品种的最优算法均为线性回归,棉花表现整体较好,最优参数卡玛比率 达到 1.88。

⑤ 农产品板块:农产品板块对豆粕、菜粕、棕榈油、菜油、豆油 5 个品种进行测试。

从测试结果来看,豆粕和菜粕表现较好,各算法卡玛比率均值多数大于零, 且表现最优的算法为逻辑回归。

⑥ 全品种:将各个板块最优组合收益率曲线再次组合、

全品种最优组合的卡玛比率为 7.42,大幅优于各个板块,显示出跨板块组合 的效果较好。

3、整体角度

以上是通过算法角度和品种角度看策略效果,这里进行整体分析。分别计算 各算法下所有品种的策略卡玛比率均值。

卡玛比率会出现负值情况,结果会存在偏差,下面从年化收益率角度进行分 析。

从整体年化收益率角度可以看出,表现较好的算法依次是 SVM、随机森林、 KNN、决策树,表现较好的品种依次是焦煤、铜、白银、铝、豆油、豆粕、菜粕。

参考报告

投资工具专题报告:机器学习与技术分析结合策略研究.pdf

投资工具专题报告:机器学习与技术分析结合策略研究。机器学习可以分为无监督学习、监督学习、半监督学习、强化学习,其中监督学习适合进行价格预测,报告使用KNN、SVM、决策树、随机森林等8种监督学习方法进行预测。根据形态理论,当前的价格走势会符合一种形态,进而判断未来价格走势。如果将形态理论扩展,从历史中找到与当前最相似的行情,不一定是某种形态,那么根据技术分析假设中的历史会重演,就可以判断未来价格走势。而机器学习方法如KNN等算法与该思想较为一致,可以辅助进行价格判断。在前两部分分析基础上,第三部分对国内上市时间较长的期货品种进行策略构建。以过去一段时间的价格作为各个特征值,以未来一段时间的涨跌...

查看详情
相关报告
我来回答