法律状态公告日
法律状态信息
法律状态
2018-01-26
授权
授权
2015-06-10
实质审查的生效 IPC(主分类):G06Q40/08 申请日:20150212
实质审查的生效
2015-05-13
公开
公开
技术领域
本发明涉及一种P2P网络借贷的风险预测系统。
背景技术
随着互联网技术在金融领域的深入应用,出现了一种通过网络实现个体和个体之间 直接借贷的金融模式,称为P2P网络借贷(peer-to-peer lending)。P2P网络借贷运营商提供 网络平台(如拍拍贷、人人贷等)撮合借方和贷方达成交易。借款人可在平台上填写个人 信息,说明借款理由,生成借款列表并等待投资人进行投标选择。投资人则可根据借款人 提供的借款相关信息决定是否进行投标。作为传统金融模式的补充,P2P网络借贷可以进 一步满足长尾用户的投融资需求。
然而,由于国内征信系统不完善,现有的P2P网络借贷模式仍然面临着信息不对称 问题。违约风险控制成为P2P网络借贷模式的重要议题。通常,借款人会在借款列表中 提供一段借款理由描述文本来说明借款用途和还款能力。而现有的风险预测系统主要结合 借款人还款记录,个人负债,信用历史,个人信息等多维度的数据来预测借款列表的逾期 率,并未分析借款列表中的借款理由描述文本。所以现有的风险预测系统预测准确率不高, 网络借贷平台还需要投入大量人工力量对借款列表进行审核。同时,投资人也需要投入大 量的搜索成本去寻找符合自身风险偏好的借款列表。
发明内容
本发明为了解决现有的风险预测系统预测准确率不高的问题。
一种基于文本分析的P2P网络借贷风险预测系统,包括:
平台数据采集模块,用于自动采集P2P网络借贷平台中的用户数据和交易数据,包 括用户基本数据,用户信用数据,借款列表数据,借款描述文本,借款偿还情况;
文本特征提取模块,用于获取的平台数据采集模块中“借款描述文本”并进行词语 切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的语义 特征,包括情感特征S,主题特征T和可读性特征R;
风险预测模型搭建、训练模块,用于搭建和训练风险预测模型;
风险预测模块,用于预测、输出新借款列表的风险情况。
本发明风险预测系统的文本特征提取模块将获取的平台数据采集模块中“借款描述 文本”并进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描 述文本包含的情感特征S,主题特征T和可读性特征R;然后将这些语义特征也作为输入 变量输入风险预测模型,这样把借款描述文本的信息融入了系统,增加了系统的预测的准 确性,相比现有的风险预测系统,预测的准确率提高了15%以上。
本发明的人工情感标注子模块进行人工标注的时候需要人工参与,剩下均有计算机 完成,而且只要风险预测模型搭建训练完毕,新借款列表的风险预测均由风险预测模型完 成,能够有效降低网络借贷平台对借款列表的审核时间,能够有效提高P2P网络借贷平 台的整体运营效率。
附图说明
图1为本发明的预测系统各个模块的结构关系图;
图2为情感特征S提取、存储子模块的各个子模块与词语切分子模块及风险预测模 型搭建子模块的结构关系图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,
平台数据采集模块,用于自动采集P2P网络借贷平台中的用户数据和交易数据,包 括用户基本数据,用户信用数据,借款列表数据,借款描述文本,借款偿还情况;
文本特征提取模块,用于获取的平台数据采集模块中“借款描述文本”并进行词语 切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的语义 特征,包括情感特征S,主题特征T和可读性特征R;
风险预测模型搭建、训练模块,用于搭建和训练风险预测模型;
风险预测模块,用于预测、输出新借款列表的风险情况。
具体实施方式二:本实施方式
所述的文本特征提取模块,包括:
词语切分子模块,用于获取的平台数据采集模块中“借款描述文本”并进行词语切 分并根据停用词列表去除没有实际含义的词语;
情感特征S提取、存储子模块,用于提取、存储借款描述文本情感特征S;
主题特征T提取、存储子模块,通过LDA主题生成模型计算出每个借款描述文本中 的主题概率分布P(主题|文本),存储为借款描述文本的主题特征T;
可读性特征R提取、存储子模块,首先统计所有借款描述文本中每个词语出现的次 数,然后统计出当前借款描述文本中所出现的词语,计算当前借款描述文本中每个词语在 所有借款描述文本中出现的次数的总和,并以C=(出现的次数的总和/当前借款描述文本 中所出现的词语个数)作为当前借款描述文本中所出现的词语的平均出现次数,存储为前 借款描述文本的可读性特征R。
其它步骤与具体实施方式一相同。
具体实施方式三:本实施方式,结合图2说明本实施方式,
所述情感特征S提取子模块,包括
人工情感标注子模块,随机提取借款描述文本并输出显示,供用户进行人工情感标 注:褒义、中性和贬义,分别以1,0和-1标记;并将已进行人工情感标注的借款描述文 本分为情感标注训练集和情感标注测试集;
计算机情感分类子模块,提取人工情感标注子模块中的情感标注训练集数据,根据 情感标注训练集的人工情感标注分别计算出1,0和-1(褒义、中性和贬义)三种情感类 别中各词语集合出现的次数;以此为基础,计算出情感标注测试集中的每个借款描述文本 在1,0和-1(褒义、中性和贬义)三种情感类别中的概率;将概率最大时所对应的类别 作为情感标注测试集中借款描述文本对应的情感类别进行存储;
情感比对子模块,提取计算机情感分类子模块中存储的借款描述文本对应的情感类 别,将其与人工情感标注进行比对,计算出两种标注方法的匹配度;若匹配度不能满足情 感分类需求,则返回人工情感标注子模块进行调整优化,直到筛选出能够准确进行情感分 类的提取借款描述文本情感特征的分类器;
计算机情感标注子模块,提取情感比对子模块中的提取借款描述文本情感特征的分 类器对所有的借款描述文本进行标注1、0或-1,存储为借款描述文本情感特征S。
其它步骤与具体实施方式一至二相同。
具体实施方式四:本实施方式
所述的风险预测模型搭建、训练模块,包括:
风险预测模型搭建子模块,以平台数据采集模块中的户基本数据,用户信用数据, 借款列表数据以及文本特征提取模块中的情感特征S,主题特征T和可读性特征R作为 输入变量,以平台数据采集模块中的借款偿还情况为输出变量,搭建风险预测模型;
风险预测模型训练子模块,利用支持向量机对风险预测模型进行训练,采用M折交 叉验证,反复优化运算,筛选出满足预测需求的风险预测模型。
其它步骤与具体实施方式一至三相同。
具体实施方式五:本实施方式
所述的风险预测模块,通过新借款列表数据提取子模块调用平台数据采集模块和文 本特征提取模块,生成新借款列表的用户基本数据、用户信用数据、借款列表数据、情感 特征S、主题特征T和可读性特征R,将新借款列表的用户基本数据、用户信用数据、借 款列表数据、情感特征S、主题特征T和可读性特征R输入风险预测模型;最后通过风 险预测模型输出新借款列表的风险。
其它步骤与具体实施方式一至四相同。
机译: 一种提高p2p覆盖网络服务质量的方法,装置和p2p节点
机译: 基于区块链网络广告的P2P P2P卡通服务系统和提供服务的方法
机译: TSCH AODV IoT p2p设备可在基于TSCH和AODV的工业IoT网络中为p2p建立分布式时间表