技术领域
本发明涉及量化投资分析的技术领域,更具体地,涉及一种基于专家轨迹的量化投资方法及装置。
背景技术
量化投资分析是指使用数理统计的方法辅助投资者做出的分析投资策略,而通过使用高性能的计算机技术,可以有效地分析大量数据,并根据预先编程的指令自动执行投资的动作。马尔可夫决策过程(Markov Decision Process,MDP)是随机环境下序列决策问题的定量化表达框架。随机环境下的序列决策问题,是指决策者在每个观测点上都要做出决策,并且决策时不知道下一个状态上的决策信息。一般来讲,这种决策问题不仅需要考虑当前决利益,还需要考虑当前决策对未来的影响,使系统的运行达到最优。智能体可以理解为智能的实体,它驻留在某一环境中,与环境交互产生奖励值,在量化投资策略中,智能体与期货市场交互,根据多空信号买卖合约,得到的奖励也就是智能体在市场中获得的收益,它所感知到的和它所拥有的先验知识,以一种被期望最大化其性能指标的方式运行,强化学习是智能体以"试错"的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。
近年来,通过计算机技术,特别是利用机器学习实现量化投资的方法越来越受到投资者和研究者的关注。比如,通过构建循环神经网络模型,使用股票历史价格数据以及基本面数据可以预测近期股票价格趋势和波动;通过构建循环神经网络模型对期货市场收盘后的相关新闻进行自然语言处理并分析情绪,可以预测下一个交易日开盘时合约价格的涨跌,2020年11月13日,中国专利(公开号:CN111931910A)中公开了一种基于强化学习和深度学习的投资方法及智能体,采用分层式结构进行建模,简化神经网络结构,保证资产管理模型的应用价值、泛化能力以及预测准确性,可以应用于繁琐复杂的金融市场,但仅通过预测准确性对模型性能进行衡量具有局限性,忽略了长期的投资目标及投资的收益,此外该方法也忽略了真实交易过程中的一些重要因素,如交易成本等。
发明内容
为解决现有利用机器学习实现量化投资的方法忽略真实交易因素且考虑较局限的问题,本发明提出一种基于专家轨迹的量化投资方法及装置,通过专家轨迹使强化学习中的智能体更适应金融市场中不可避免的噪音,保证投资者的收益。
为了达到上述技术效果,本发明的技术方案如下:
一种基于专家轨迹的量化投资方法,至少包括:
S1.根据预设的投资标的,获取历史交易数据,并根据预设的交易周期将历史交易数据划分为训练数据和测试数据;
S2.引入马尔可夫决策过程,确认智能体观测到的状态集合、智能体动作集合及智能体与环境交互获得的奖励函数;
S3.基于强化学习中的Q学习方法,引入Q网络,实现状态到值函数的映射并输出每一个动作的值函数;
S4.根据训练数据设计专家,基于下一时刻和当前收盘价做出正确的交易动作以获得最大累计奖励,并形成专家轨迹;
S5.根据马尔可夫决策过程及专家轨迹训练Q网络;
S6.利用测试数据在训练好的Q网络中进行投资收益测试。
优选地,步骤S1所述的历史交易数据包括投资标的种类、主力合约的5分钟频率价格、交易时间范围、成交量及成交金额。
优选地,所述的马尔可夫决策过程中,在每一个时间点t,智能体首先接收环境状态的表示s
优选地,基于强化学习中的Q学习方法的目标为最大化智能体的累计奖励,找到最优投资策略,公式为:
其中,γ∈[0,1]是一个折现因子,用于衡量奖励的重要程度,T表示最后一个时间点;G
Q(s
更新Q表直至Q表收敛;
其中,α表示学习率;若Q表大于设定阈值E,则通过Q网络进行拟合,Q网络的输入是环境状态s
在此,Q网络的设计思路来自于Q表,Q表记录每一个状态上进行的每一个离散动作的最大奖励期望,对于Q学习的过程,就是通过迭代更新最大奖励期望,也就是Q表上的值的过程。但如果状态很多,那么Q表变得特别大,此时训练的过程变得非常复杂,所以当Q表大于设定阈值E时,通过Q网络来拟合Q表,通过迭代更新Q网络上的权重模拟Q表的迭代过程。
优选地,步骤S4所述的专家轨迹由每一个t时间点上的专家动作组成,专家动作表示为
若主力合约的5分钟频率价格从时间点t至时间点t+1是上涨的,则专家在t时间点买入主力合约;
若主力合约的5分钟频率价格从时间点t至时间点t+1是下降的,则专家在t时间点卖出主力合约;
若主力合约的5分钟频率价格从时间点t至时间点t+1是不变的,则专家在t时间点不持有头寸;
在每个t时间点,智能体选择专家动作
优选地,步骤S5所述Q网络训练的具体过程为:
S51.在每一个时间点t,智能体观测到当前环境状态s
S52.智能体与环境交互,获得奖励r
S53.基于经验回放策略,随机抽取一批样本(s,a,a
L
以及:
L
损失函数L定义为L
S54.利用损失函数L计算Q网络中的权重梯度用于反向传播更新Q网络中的权重,通过设置经验缓存和随机采样降低智能体与环境交互样本之间的时间相关性,即通过智能体-环境、专家-环境交互过程中产生的时间序列差分误差作为损失函数更新Q网络来解决金融应用问题。
优选地,根据马尔可夫决策过程及专家轨迹训练Q网络时引入∈-贪婪策略,步骤S51中Q网络的输出最大值函数选择动作a
优选地,在Q网络训练过程中,智能体与环境交互获得的奖励函数固定为r=0,专家的奖励函数固定为r=1。
优选地,步骤S6所述利用测试数据在训练好的Q网络中进行投资收益测试时,智能体与环境交互获得的奖励函数设置为智能体获得的收益:
r
其中,a
在此,利用测试数据在训练好的Q网络中进行投资收益测试时,智能体的奖励用于衡量模型在金融市场中的性能,所以奖励函数设置为智能体获得的收益。
本发明还提出一种基于专家轨迹的量化投资装置,所述装置用于实现所述基于专家轨迹的量化投资方法,包括:
数据获取划分模块,根据预设的投资标的,获取历史交易数据,并根据预设的交易周期将历史交易数据划分为训练数据和测试数据;
马尔可夫决策模块,用于引入马尔可夫决策过程,确认智能体观测到的状态集合、智能体动作集合及智能体与环境交互获得的奖励函数;
Q网络模块,基于强化学习中的Q学习方法,引入Q网络,实现状态到值函数的映射并输出每一个动作的值函数;
专家轨迹设计模块,根据训练数据设计专家,基于下一时刻和当前收盘价做出正确的交易动作以获得最大累计奖励,并形成专家轨迹;
训练模块,用于训练Q网络;
测试模块,利用测试数据在训练好的Q网络中进行投资收益测试。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于专家轨迹的量化投资方法及装置,首先收集历史数据,引入马尔可夫决策过程,降低量化投资交易的复杂度,基于强化学习中的Q学习方法,引入Q网络,实现状态到值函数的映射并输出每一个动作的值函数,然后设计专家轨迹,避免传统方法忽略真实交易因素且考虑较局限的问题,平衡强化学习中不确定策略的探索和开发的过程,使强化学习中的智能体更适应金融市场中不可避免的噪音,进一步训练Q网络,保证量化投资方法的有效性。
附图说明
图1表示本发明实施例中提出的基于专家轨迹的量化投资方法的流程图;
图2表示本发明实施例中提出的基于专家轨迹的量化投资方法的整体框架图;
图3表示在本发明实施例中提出的基于专家轨迹的量化投资方法的系统结构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例
如图1所示的基于专家轨迹的量化投资方法的流程图,参见图1,所述方法包括:
S1.根据预设的投资标的,获取历史交易数据,并根据预设的交易周期将历史交易数据划分为训练数据和测试数据;
S2.引入马尔可夫决策过程,确认智能体观测到的状态集合、智能体动作集合及智能体与环境交互获得的奖励函数;
S3.基于强化学习中的Q学习方法,引入Q网络,实现状态到值函数的映射并输出每一个动作的值函数;
S4.根据训练数据设计专家,基于下一时刻和当前收盘价做出正确的交易动作以获得最大累计奖励,并形成专家轨迹;
S5.根据马尔可夫决策过程及专家轨迹训练Q网络;
S6.利用测试数据在训练好的Q网络中进行投资收益测试。
在本实施例中,步骤S1所述的历史交易数据包括投资标的种类、主力合约的5分钟频率价格、交易时间范围、成交量及成交金额,具体的获取沪深300、中证500指数股指期货主力合约的5分钟频率价格、成交量以及成交金额历史数据,其中,主力合约的定义是前一个交易日交易量最大的合约作为下一个交易日的主力合约,获取数据的交易时间范围为2015年10月1日至2020年10月15日,并根据预设的交易周期划分训练数据以及测试数据,训练数据的时间范围为2015年10月1日至2019年10月1日,其余的数据用于测试,这些数据将用于构建马尔可夫决策过程中的状态以及测试阶段的奖励函数设计。
在本实施例中,在所述的马尔可夫决策过程中,在每一个时间点t,智能体首先接收环境状态的表示s
在本实施例中,基于强化学习中的Q学习方法的目标为最大化智能体的累计奖励,找到最优投资策略,公式为:
其中,γ∈[0,1]是一个折现因子,用于衡量奖励的重要程度,T表示最后一个时间点;G
Q(s
更新Q表直至Q表收敛;
其中,α表示学习率;若Q表大于设定阈值E,则通过Q网络进行拟合,Q网络的输入是环境状态s
在本实施例中,专家总是做出正确的交易动作组成专家轨迹为智能体作演示。根据这些演示,智能体通过模仿专家的行为优化策略。引入专家轨迹能够有效缩短智能体随机探索的过程。假设在时间点t,投资者从动作集合中选取一个动作,交易的单位仍为一个最小单位。因此在时间点t投资的收益取决于下一个时间点t+1的收盘价以及当前时间点的收盘价。如果投资者在每一个时间点都能做出正确的投资动作,累计收益将会最高。也就是说,我们能够贪婪地在每个时间点都做成正确的投资动作,累计收益将会最高,因此,步骤S4所述的专家轨迹由每一个t时间点上的专家动作组成,专家动作表示为
若主力合约的5分钟频率价格从时间点t至时间点t+1是上涨的,则专家在t时间点买入主力合约;
若主力合约的5分钟频率价格从时间点t至时间点t+1是下降的,则专家在t时间点卖出主力合约;
若主力合约的5分钟频率价格从时间点t至时间点t+1是不变的,则专家在t时间点不持有头寸;
在每个t时间点,智能体选择专家动作
在本实施例中,步骤S5所述Q网络训练的具体过程为:
S51.在每一个时间点t,智能体观测到当前环境状态s
S52.智能体与环境交互,获得奖励r
S53.基于经验回放策略,随机抽取一批样本(s,a,a
L
以及:
L
损失函数L定义为L
S54.利用损失函数L计算Q网络中的权重梯度用于反向传播更新Q网络中的权重,通过设置经验缓存和随机采样降低智能体与环境交互样本之间的时间相关性,即通过智能体-环境、专家-环境交互过程中产生的时间序列差分误差作为损失函数更新Q网络来解决金融应用问题。
根据马尔可夫决策过程及专家轨迹训练Q网络时引入∈-贪婪策略,步骤S51中Q网络的输出最大值函数选择动作a
在Q网络训练过程中,智能体不需要从奖励函数信号中学习,智能体与环境交互获得的奖励函数固定为r=0,专家的奖励函数固定为r=1。
步骤S6所述利用测试数据在训练好的Q网络中进行投资收益测试时,智能体与环境交互获得的奖励函数设置为智能体获得的收益:
r
其中,a
如图3所示,本发明还提出一种基于专家轨迹的量化投资装置,所述装置用于实现所述基于专家轨迹的量化投资方法,包括:
数据获取划分模块,根据预设的投资标的,获取历史交易数据,并根据预设的交易周期将历史交易数据划分为训练数据和测试数据;
马尔可夫决策模块,用于引入马尔可夫决策过程,确认智能体观测到的状态集合、智能体动作集合及智能体与环境交互获得的奖励函数;
Q网络模块,基于强化学习中的Q学习方法,引入Q网络,实现状态到值函数的映射并输出每一个动作的值函数;
专家轨迹设计模块,根据训练数据设计专家,基于下一时刻和当前收盘价做出正确的交易动作以获得最大累计奖励,并形成专家轨迹;
训练模块,用于训练Q网络;
测试模块,利用测试数据在训练好的Q网络中进行投资收益测试。
具体的测试过程中,根据测试数据,在不引入专家轨迹的情况下,使用累计收益指标衡量本发明提出的量化期货投资模型的收益能力;使用夏普比率衡量该模型收益期望和波动率的比值;使用索提诺比率衡量该模型收益期望和下行波动率的比值。测试的时间范围为2019年10月1日至2020年10月15日,选择的投资标的为沪深300、中证500指数股指期货主力合约。将本发明提出的模型与几种经典的和常用的基础方法(买入并持有、MACD、DualThrust、Deep Q-learning、Behavior Cloning)进行性能的比较,结果表1所示。
表1
通过表1可以发现,本发明提出的方法在沪深300以及中证500指数股指期货主力合约中的表现是最好的。以沪深300为例,本发明提出的方法获得最高的1064累计收益,夏普比率以及索提诺比率都超过了2.0。
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
机译: 用于基于微交易的人群源专家系统的系统和方法,该系统和方法向用户,专家和专家提供经济的实时实时专家提示,问题的自动分类,解析和并行路由。
机译: 一种在锥齿轮上制造弯曲齿面的方法,该方法具有延伸参考点线的一部分,基于面线集确定加工轨迹,并通过沿轨迹移动加工工具来加工工件
机译: 一种通过使用智力专家系统提供知识基于XEEDISE处方的方法和装置