公开/公告号CN112837165A
专利类型发明专利
公开/公告日2021-05-25
原文格式PDF
申请/专利权人 上海栖盟科技有限公司;
申请/专利号CN202011581775.4
发明设计人 牟慧玲;
申请日2020-12-28
分类号G06Q40/06(20120101);G06F17/18(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11616 北京盛凡智荣知识产权代理有限公司;
代理人林淡如
地址 200434 上海市虹口区汶水东路351号B幢408室
入库时间 2023-06-19 11:05:16
技术领域
本发明涉及金融科技领域,尤其涉及一种基于生成对抗网络和迁移学习的资产配置方法。
背景技术
随着金融投资领域机器学习技术的迅速发展,以生成对抗网络为代表的神经网络方法在资产风险预测方向得到了愈加广泛地应用。基于生成对抗网络的资产特征预测算法和迁移学习算法结合的方法通常比传统的数理统计方法对市场扰动因素具有更好的耐受性。随着现代社会人民投资理财的意识愈发强烈,资产配置以及资产风险预测作为投资事件的重要部分,寻求一种鲁棒性强,实现简便的资产配置方法变得愈发重要。
第一,以现代投资理论为代表的经典资产配置的处理方式,该方式采用历史数据的数理统计量作为评价指标,在市场环境变化复杂的情况下很难取得较好的资产风险评价结果,从而难以准确地进行资产配置。
第二,以深度学习理论为代表的资产风险评价方法通常需要有大量的数据进行训练,才能让所产生的模型具有较好的鲁棒性,用户所持有资产的历史数据量通常难以满足这一要求。
发明内容
本发明的目的在于提供一种基于生成对抗网络和迁移学习的资产配置方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于生成对抗网络和迁移学习的资产配置方法包括:
步骤一、获取用户持有的大类资产的历史数据并对其进行噪声检测;
步骤二、利用统计方法对资产大类的历史数据和特征进行维度扩充;
步骤三、根据大类资产的全市场历史数据和生成对抗网络模型作为预测全市场大类资产特征的主体方法;
步骤四、根据生成对抗网络训练全市场大类资产特征的模型进行迁移学习,获取子资产未来一个月的收益曲线,从而预测用户所持有单个资产的未来六个月的特征;
步骤五、根据预测单个资产的未来特征结合现代投资理论计算,获取最优资产配置权重。
与现有技术相比,本发明的有益效果是:本方法在仅有较小的资产历史数据量的情况下能够提供一种应对市场快速变化环境的资产配置方法。
附图说明
图1为本发明的流程图。
图2为本发明实施例中k邻近距离图;
图3为本发明实施例中生成对抗网络的模型结构图;
图4为本发明实施例中的收益风险曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本具体实施方式提供了一种基于生成对抗网络和迁移学习的资产配置方法包括如下步骤:
根据用户KYC定义每个资产大类的资产配置比例;
根据所述资产大类的资产配置比例,确定用户资产的分布,以A型股票为例,获取所有该类股票的历史数据,建立数据集。历史数据特征包括:开盘价Xo,最高价Xh,最低价Xl,收盘价Xc,成交量Xv以及换手率Xk,则一天的特征可以表示为:
Xi=[Xo,Xh,Xl,Xc,Xv,Xk]
对以上特征利用LOF算法进行噪声分析,LOF的核心优势在于其能够充分利用样本数据的全局信息和局部信息:传统的基于距离方法不能识别出局部密度的数据集中,导致不能分辨该部分的异常样本;
定义K-邻近距离(k-distance):在数据点p的距离值最小的几个数据点中,点p的K-邻近距离为点p与点p距离第k小的点之间的距离,令其为 k-distance(p)。其示例如附图2所示;
可达距离(reachability distance):可达距离基于K-邻近距离的定义,在确定K-邻近距离的参数k的情况下,数据点p到数据点o的可达距离reach_dist_k(p,o)为数据点o的K-邻近距离和数据点p与点o之间的欧氏距离的最大值。即:
reach-dist
局部可达密度(local reachability density):数据点p的k个距离最小点的平均可达密度的倒数定义为数据点p的局部可达密度,即:
式中定义局部异常因子(local outlier factor):根据上式可知,当一个数据点与其他数据点之间的距离较大,那么该数据点的局部可达密度值相对较小。局部异常因子算法在判定一个数据点是否为异常值时,并不取决于该数据点的绝对局部密度,而是取决于该数据点跟其最近的k个数据点之间的相对密度。该方法就可以克服基于距离检测时容易在数据样本分布不均匀、局部密度差异较大的情况下误识别异常值,因此利用局部相对密度定义局部异常因子。数据点p的局部相对密度为距离数据点p的最近的k个数据点的平均局部可达密度与数据点p的局部可达密度的比值,即:
数据点p如果不是局部异常值,那么LOF_k(p)的值显然应该接近于1。即在LOF_k(p)的值接越近于1时,数据点o的局部可达密度和数据点p的局部可达密度越为接近,这就说明数据点p不是局部离群点。而当数据点p为异常值时,那么LOF_k(p)值就会远大于1,并且该数值越大,数据点p的离群程度就越高。局部异常因子算法优于基于距离的异常值检测法的地方就在于其可以忽略样本数据的空间分布特性而准确发现离群点;
所述历史原始样本的数据维度较小,利用以下方法对数据进行扩充:
取时间窗口为5天,新增以下的统计特征:
Max_x五天内的各个特征的最大值
Min_x五天内各个特征的最小值
Range_x=max_x–min_x五天内各个特征的最大变化量
Var_x=var(x_w)五天内各个特征的方差
Mean_x五天内各个统计量的均值
利用如下公式进行所有样本数据的归一化处理,得到归一化后的数据集:
x_std=(x-x_min)/(x_max–x_min)
其中x为扩充后的各个样本的各个特征值,x_min为扩充后的各个样本的各个特征值的最小值,x_max为扩充后的各个样本的各个特征值的最大值, x_std为归一化处理后的各个样本的各个特征值。
则一个时间窗口内的数据为:
x_w={x1,x2,x3,x4,x5}
根据上述t个x_w数据输入生成对抗网络中的生成器,其中生成器的结构为一个LSTM网络,如附图2所示,则该生成器的输出可以表示为:
其中,
h
h_t为输入数据经过LSTM网络的输出,为ReLU激活函数,W_h为全连接层的权重,b_h为全连接层的偏置;
该生成器的输出即为t+1天的特征数据,进行反归一化即可得到对应的预测值;
生成对抗网络的判别器的结构为两个1024维的全连接层,输出层为 sigmoid激活函数。越接近真实数据,该输出层的输出越接近于1,反之则越接近于0;
输入判别器的数据可以由某一天前的历史数据和该天的生成器产生的数据来生成伪造数据X_fake,某一天前的历史数据和这天的真实数据用来生成真实数据X_real;
定义两个损失:Gloss和Dloss来得到最优化函数值,将经典的GAN的生成器损失和Mean Square Error(MSE均方误差)组合起来,组成鉴别器的损失 Gloss;
利用Adam优化器不断迭代Gloss函数,在Gloss函数进入稳态后,保存网络的模型权重;
根据所述生成对抗网络模型,以用户持有的属于该资产大类的一支股票为例,获取该支股票的历史数据进行迁移学习;
迁移学习的具体步骤可表述为:
1.将训练好的股票大类模型权值加载到生成对抗网络中;
2.将用户所持有的资产数据仿照股票大类数据进行处理;
3.将生成对抗网络的学习率参数调整为原始学习率的0.1倍;
4.按照大类资产的步骤进行训练直至模型收敛;
5.加载单个资产生成的模型对该股票进行预测,获取该支股票的未来特征。
将市场上该类股票的历史数据称为源域,用户所持有的该支股票的历史数据称为目标域。将源域和目标域的数据根据时间进行对齐,即取源域与目标域时间的交集。同时将源域的各支股票的历史数据的特征值取平均值与目标域的历史数据的特征值运用皮尔逊相关法进行相关性分析,该相关性的值即作为生成对抗网络预测值的置信度;
对预测的所得的收盘价计算收益序列,使用预测收益序列代替现代投资理论模型中的历史收益序列,利用现代投资理论模型对用户的资产配置进行分析,并设定预期收益目标,即:
根据单个资产的收益率,可以计算资产配置P的收益变量的一些性质。
首先,资产组合收益率的随机变量是:
其中ri为i项资产的收益,wi为i项资产的配比;
资产的预期收益是:
资产的方差为
最佳解用Lagrange乘子的方法可以找出对于每一个值μ,求得一个风险资产配置P,满足E[rP]=μ,并且σP是最小的。将这些最优解生成图3,在标准差-预期收益的坐标上得到一条抛物线,如图4所示;
最小化
满足
将用户的预期收益在该曲线上取对应的值,即可得到对应资产的最优配置。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
机译: 基于下载的解决方案资产分类,分解和语义的工具自动配置方法和装置
机译: 一种基于另一媒体资产的内容向用户推荐媒体资产的方法和系统
机译: 一种基于社交网络的特定商品配置方法