金融工程研究报告：量化投资算法前瞻，强化学习.pdf

上传者：罗***
时间：2023/07/07
热度：311
0人点赞
举报

金融工程研究报告：量化投资算法前瞻，强化学习。强化学习算法充分模拟了交易决策者与市场的交互关系，从策略管理、因子组合到交易执行，在量化投资的各个维度都提供了有效的模型和优化方法。利用强化学习框架，本文构建了基于宽基指数日频价量模型的择时策略，迁移至行业指数依然有效。强化学习算法为策略优化提供了新思路。

智能算法发展向金融领域渗透是趋势所向，市场对强化学习关注程度提升

数据与算法快速发展，算力成本逐渐降低，通用人工智能发展向垂直领域渗透是趋势所向，强化学习在其他细分领域的里程碑式成绩加速其在金融领域落地。

基于马尔可夫决策过程，强化学习任务能充分模拟金融市场

强化学习算法的核心，是在马尔可夫决策过程的基础上，智能体通过与环境的交互，从反馈信号中进行学习。智能体依据环境状态，采取某种动作，对环境造成影响。随后，环境下一刻的状态和该动作产生的奖励将反馈给智能体。智能体的目标是尽可能多地从环境中获取总奖励，总奖励的定义是折现方式计算下的未来奖励之和。这种智能体-环境交互的情景能充分模拟交易决策者与市场的关系。

从组合管理到交易执行，强化学习算法的应用市场广阔

在策略层面，强化学习算法针对传统多因子模型的因子失效，以及传统监督学习模型退化、过拟合等问题，提供了有效的因子组合、策略组合工具，更好地适应市场风格切换。在交易层面，以基于策略为代表的强化学习算法也提供了直接输出交易行为的下单算法。此外，强化学习在期权定价与对冲策略也有应用。纵观之下，从投资组合管理到具体的交易执行，强化学习算法在量化投资的多个领域提升了边际优化的空间。

以双网络 DQN 算法构建灵活的单资产择时策略有明显超额

本文实现了基于双网络 DQN 的单资产择时策略，该算法中每隔一段时间间隔就更新对动作和状态价值评估的网络参数，这种设定使得策略动态调整，及时适应当期市场风格。以常见规模指数作为测试标的，中证 1000 指数择时效果较优，在 2019 至 2022 年实现了 111.14%的累计收益，相较于指数基准年化超额收益 15.6%，最大回撤和年化波动率均得到有效控制。以最优参数设置应用于申万一级行业指数，择时策略在 11 个行业指数上取得了 10%以上的年化超额收益，在食品饮料，商贸零售，建筑装饰，及交通运输行业指数上的风险收益比较高，表明了强化学习策略框架应用于不同标的也能实现有效择时，而不仅仅只是在个别指数上过度拟合的结果。