技术领域
本发明涉及计算机仿真技术领域,尤其涉及一种基于网络平台投资的智能投顾系统。
背景技术
随着金融市场不断深入发展,金融产品层次与交易策略、交易工具的日趋复杂,普通投资者学习成本越来越高,难以跟上市场发展步伐,导致专业投资顾问服务的需求日渐凸显。但是,受限于传统投顾服务的限制,如:百万资金起步、服务流程繁琐、服务费高昂、不能随时随地咨询、投顾水平良莠不齐等,现有技术尚无法最大程度满足普通投资者的投顾需求。
发明内容
针对上述现有技术的缺点,本发明的目的是提供一种能够准确、全面、有效地给客户提供投顾建议的智能投顾系统,不仅大大节约了投资者的时间成本,还可以在一定程度上帮助投资者避免非理性投资行为。
本发明实施例提供的一种基于网络平台投资的智能投顾系统,包括:
获取互联网金融数据单元,通过网络平台API接口获取互联网金融历史数据,并通过欠采样方法得到逾期数据与非逾期数据为同比例的平衡数据;
数据特征选取与融合单元,通过Apriori关联规则算法对获得的平衡数据进行特征的组合,得到有用组合特征;
欺诈识别模型单元,将随机森林算法作为识别算法进行训练,并使用有用特征组合的数据来训练模型,同时通过逐步回归的方法筛选特征;
投资标的计算单元,将未训练的样本数据放入训练好的模型,输出样本数据的逾期概率,通过核回归方法计算样本数据的逾期概率与期望收益之间的方差,从而确定投资标的。
进一步地,上述系统中,所述数据特征选取与融合单元包括:
数据特征选取单元,将平衡数据根据是否逾期分为D
频繁模式计算单元,计算频繁模式集合Part
数据特征融合单元,将满足差集Part内元素的所有数据特征作为一个特征进行组合。
进一步地,上述系统中,所述支持度是指某一特征或特征组合在样本中出现的次数占所有样本数的比例。
进一步地,上述系统中,所述置信度是指在某一特征或特征组合出现的情况下,另一特征或特征组合出现的可能性。
进一步地,上述系统中,所述获取互联网金融数据单元包括:
数据区分单元,将不平衡数据分割为逾期数据集与非逾期数据集,其中不平衡数据是指逾期的数据少于非逾期的数据;
数据分割单元,将非逾期数据集中的数据进行等份分割成与逾期数据集数据量相同的数据集;
数据合并单元,将逾期数据集中的数据与分割后的非逾期数据集中的数据进行合并,形成逾期数据与非逾期数据为同比例的平衡数据。
进一步地,上述系统中,所述欺诈识别模型单元包括:
特征引入单元,将特征逐个引入随机森林算法模型,每引入一个特征均对其进行检验,检验该特征的系数是否等于零;
特征判断单元,若新引入特征的系数等于零,则删除该特征,否则,将该特征留存并继续加入新的特征到模型中。
进一步地,上述系统中,所述投资标的计算单元包括:
期望收益计算单元,通过核回归方法计算样本数据的期望收益,所述核回归公式如下:
其中,x为样本数据的逾期概率,xi、xj为已知历史数据的逾期概率,yi、yj为已知历史数据的期望收益,K(x,x
方差计算单元,计算样本数据的期望收益与样本数据的逾期概率之间的方差,并将该方差作为投资标的风险的衡量;
投资标的显示单元,将样本数据的期望收益与样本数据的逾期概率之间的方差作为x轴,将样本数据的期望收益作为y轴,显示出投资标的的有效前沿。
与现有技术相比,本发明基于网络平台投资的智能投顾系统,包括:获取互联网金融数据单元,通过网络平台API接口获取互联网金融历史数据,并通过欠采样方法得到逾期数据与非逾期数据为同比例的平衡数据;数据特征选取与融合单元,通过Apriori关联规则算法对获得的平衡数据进行特征的组合,得到有用组合特征;欺诈识别模型单元,将随机森林算法作为识别算法进行训练,并使用有用特征组合的数据来训练模型,同时通过逐步回归的方法筛选特征;投资标的计算单元,将未训练的样本数据放入训练好的模型,输出样本数据的逾期概率,通过核回归方法计算样本数据的逾期概率与期望收益之间的方差,从而确定投资标的。本发明实施例将Apriori关联规则算法与随机森林算法相结合,构造了新的模型。在欺诈识别模型基础上,本发明基于核回归的方法,针对投资者在网络平台行业进行投资时的困惑,构建了风险-收益指标,计算出网络平台投资的有效投资前沿,将其作为投资推荐的依据,给投资者提供了有效地投顾建议。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于网络平台投资的智能投顾系统框架示意图;
图2为本发明提供的数据特征选取与融合单元组成结构示意图;
图3为本发明提供的欺诈识别模型单元组成结构示意图;
图4为本发明提供的投资标的计算单元组成结构示意图;
图5为本发明提供的获取互联网金融数据单元组成结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例主要通过Python语言开发,并利用爬虫技术与拍拍贷API接口进行网络平台(如:P2P)智能投顾的二次开发。
下面结合说明书附图对本发明实施例作进一步详细描述。
如图1所示,本发明实施例公开了一种基于网络平台投资的智能投顾系统,包括:
获取互联网金融数据单元101,通过网络平台API接口获取互联网金融历史数据,并通过欠采样方法得到逾期数据与非逾期数据为同比例的平衡数据;
数据特征选取与融合单元102,通过Apriori关联规则算法对获得的平衡数据进行特征的组合,得到有用组合特征;
欺诈识别模型单元103,将随机森林算法作为识别算法进行训练,并使用有用特征组合的数据来训练模型,同时通过逐步回归的方法筛选特征;
投资标的计算单元104,将未训练的样本数据放入训练好的模型,输出样本数据的逾期概率,通过核回归方法计算样本数据的逾期概率与期望收益之间的方差,从而确定投资标的。
本发明实施例将Apriori关联规则算法与随机森林算法相结合,构造了新的模型。在欺诈识别模型基础上,本发明基于核回归的方法,针对投资者在网络平台行业进行投资时的困惑,构建了风险-收益指标,计算出网络平台投资的有效投资前沿,将其作为投资推荐的依据,给投资者提供了有效地投顾建议。
进一步地,如图2所示,所述数据特征选取与融合单元102包括:
数据特征选取单元201,将平衡数据根据是否逾期分为D
频繁模式计算单元202,计算频繁模式集合Part
数据特征融合单元203,将满足差集Part内元素的所有数据特征作为一个特征进行组合。
本发明实施例将平衡数据两类样本集D
实施中,本发明将r内所有属性作为一个特征进行组合,并且仅当该组合内所有属性出现时,将其标识为1,其余标识为0。
进一步地,上述系统中,所述支持度是指某一特征或特征组合在样本中出现的次数占所有样本数的比例。
进一步地,上述系统中,所述置信度是指在某一特征或特征组合出现的情况下,另一特征或特征组合出现的可能性。
具体实施中,本发明通过设定最低支持度和置信度,可以选出频繁组合出现的特征,即频繁模式。
进一步地,如图3所示,所述欺诈识别模型单元103包括:
特征引入单元301,将特征逐个引入随机森林算法模型,每引入一个特征均对其进行检验,检验该特征的系数是否等于零;
特征判断单元302,若新引入特征的系数等于零,则删除该特征,否则,将该特征留存并继续加入新的特征到模型中。
进一步地,如图4所示,所述投资标的计算单元104包括:
期望收益计算单元401,通过核回归方法计算样本数据的期望收益,所述核回归公式如下:
其中,x为样本数据的逾期概率,xi、xj为已知历史数据的逾期概率,yi、yj为已知历史数据的期望收益,K(x,x
方差计算单元402,计算样本数据的期望收益与样本数据的逾期概率之间的方差,并将该方差作为投资标的风险的衡量;
投资标的显示单元403,将样本数据的期望收益与样本数据的逾期概率之间的方差作为x轴,将样本数据的期望收益作为y轴,显示出投资标的的有效前沿。
实施中,核回归方法是一种非参数回归的方法,不对原始的数据做任何假设。而核函数用于对离x不同距离的点赋予不同的权重(离x越近权重约大)。
进一步地,如图5所示,所述获取互联网金融数据单元101包括:
数据区分单元501,将不平衡数据分割为逾期数据集与非逾期数据集,其中不平衡数据是指逾期的数据少于非逾期的数据;
数据分割单元502,将非逾期数据集中的数据进行等份分割成与逾期数据集数据量相同的数据集;
数据合并单元503,将逾期数据集中的数据与分割后的非逾期数据集中的数据进行合并,形成逾期数据与非逾期数据为同比例的平衡数据。
本发明实施中将不平衡数据先分割为逾期数据集与非逾期数据集;其次,将非逾期数据集中的数据进行等份分割成与逾期数据集数据量相近的数据集(即,若逾期数据有100条,而非逾期数据有10000条,则将非逾期数据分割为100个数据集,每个数据集中含100条数据),然后将两者数据进行合并,形成新的平衡数据集。
本发明实施例每一个数据集都可以训练得到一个模型,从而可以得到多个模型。在对样本数据预测的过程中,多个模型都会对样本数据进行评估,最后通过求均值的方法得到样本的逾期概率。
本发明实施例利用线上网络平台的数据集进行了验证与投资模拟,即利用训练好的模型预测线上网络平台的样本数据逾期与否,其准确率与AUC(Area Under Curve,ROC曲线下的面积)均得到显著提高,表明本发明投顾系统采用的Apriori关联规则算法与随机森林算法具有更强的识别能力。
同时,本发明实施例将上述算法作为欺诈识别的模型,如下表的混淆矩阵,本发明实施例利用线上P2P网络平台-拍拍贷的数据集进行了验证与投资模拟,其TP/(TP+TN+FP+FN)约为90%,表明其可识别出近90%的欺诈样本。
上表中,其中TP指实际是逾期样本预测也为逾期样本的样本数,TN指实际是逾期样本被预测为非逾期样本的样本数,FP指实际是非逾期样本被预测为逾期样本的样本数,FN指实际是非逾期样本预测为非逾期样本的样本数。
综上,本发明实施例主要用于对目前的网络平台投资者进行投资时标的选择的推荐。本发明针对个人投资者缺少专业的投资知识,对市场上琳琅满目的投资标的选择困难以及难以控制风险等问题,为投资者构建了风险-收益指标,计算出P2P投资的有效投资前沿,并将其作为投资推荐的依据,不仅大大节约了投资者的时间成本,还可以在一定程度上帮助投资者避免非理性投资行为。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
机译: 基于对电子网络和非网络市场进行的电子市场调查,基于房地产网络平台的小型简单应用程序(称为T-sap)的估值指导,加速了分离资产的折旧,并提供了指导,从而为投资者提供最大的回报使他们能够使用微小的简单应用程序,这些应用程序可以独立使用,也可以混合使用。
机译: 一种基于网络平台的商务旅行系统
机译: 基于网络平台的链接数据库条目,在网络平台页面之间创建可通航路径的系统和方法