法律状态公告日
法律状态信息
法律状态
2017-04-26
授权
授权
2014-07-16
实质审查的生效 IPC(主分类):G06Q40/02 申请日:20140408
实质审查的生效
2014-06-25
公开
公开
技术领域
本发明涉及一种基于语义情感分析的贷后风险预警系统,属于计算机领域。
背景技术
随着社会经济的高速发展,企业和个人都有可能向银行或金融机构申请贷款。例如,企业为了扩大生产经营规模,需要引进先进技术及设备,然而这些技术及设备通常需要花费大量款项,动辄数百万、上千万元。个人用户为了创办公司或购买住房,也需要花费几十万甚至上百万。对于这些企业及个人,一次性支付如此巨大的款项是非常困难的,解决的办法就包括向银行贷款。企业或个人用户通过向银行申请贷款,在银行对企业或个人的身份进行验证后,签订贷款合同,然后发放贷款。
然而,现有技术中,用户在获得贷款后的使用期间,银行仅能依靠其工作人员人工的去收集跟用户相关的各种各样的信息,然后对信息进行处理分析,最后根据分析结果评判用户的还款能力,以确保发放的贷款和利息能够及时有效的收回。但是,长期实践中发现,在庞大的信息源中完全依靠人工去收集、处理分析跟用户相关的信息会存在:工作量巨大、信息处理效率较低的缺陷与问题;以至于无法及时通知相关人员和机构触发风险处理流程,导致银行不能及时作出判断并规避风险。
发明内容
本发明就是鉴于上述问题而提出,其目的在于,提供一种基于语义情感分析的贷后风险预警系统,以解决工作量巨大、信息处理效率较低、而无法及时触发风险处理流程的问题。
本发明提供一种基于语义情感分析的贷后风险预警系统,其特征在于,该系统包括:
网络数据挖掘模块,用于从网络上搜集客户企业的相关信息,所述相关信息包括以下的一种或者几种:与客户企业相关的新闻、评论、微博、举报、投诉;
语义情感分析模块,用于接收所述相关信息并进行情感成分分析,生成情感极性K和情感强度M;
分析总模块,用于获取所述情感极性K和所述情感强度M,并且根据所述相关信息的来源生成情感极性K值和情感强度M值,之后根据预定公式依次计算得出可靠系数P和总体可靠系数W;
用户交互模块,用于在所述总体可靠系数W低于警戒值时发出警告。
计算所述可靠系数P的预定公式为:P=K*M。
计算所述总体可靠系数W的预定公式为:W=P1+ P2+ P3+ P4+ P5+。。。。。。+ Pn,其中P1、P2、P3、P4、P5、。。。。。。Pn分别对应不同所述相关信息的可靠系数。
所述网络数据挖掘模块采用网络爬虫从网络上搜集客户企业的相关信息。
所述网络数据挖掘模块采用聚焦爬虫从网络上搜集客户企业的相关信息。
所述语义情感分析模块采用句级情感分析对所述相关信息进行情感成分分析。
所述用户交互模块包括:管理单元,用于客户企业信息录入、信息搜集范围设置、预警范围设置和查看客户企业状态。
所述管理单元为B/S架构的管理系统。
所述用户交互模块包括:预警单元,用于在所述总体可靠系数W低于警戒值时发出警告。
与现有技术相比,本发明的有益效果为:由于本发明的基于语义情感分析的贷后风险预警系统,能够自动的依次通过网络数据挖掘模块、语义情感分析模块、分析总模块完成客户企业相关信息的搜集、情感分析、并得出客户企业的总体可靠系数,并在总体可靠系数低于警戒值时由用户交互模块自动的发出警告,因此减少人工操作成本,提高工作效率,所以能够及时的对客户企业的重大变动做出预警,帮助银行更好的管理客户企业,有效的降低贷后风险。
附图说明
图1为本发明的基于语义情感分析的贷后风险预警系统的结构框图。
图2为图1所示语义情感分析模块情感分析的的流程图。
图3为图1所示语义情感分析模块句级情感分析的流程图。
图4为图1所示总分析模块工作的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及说明用于解释本发明,但并不作为对本发明的限定。
图1所示是本发明的基于语义情感分析的贷后风险预警系统的结构框图,如图1所示,本发明的基于语义情感分析的贷后风险预警系统包括:网络数据挖掘模块101、语义情感分析模块102、分析总模块103和用户交互模块104。网络数据挖掘模块101和语义情感分析模块102之间相互连接;语义情感分析模块102和分析总模块103之间相互连接;分析总模块103和用户交互模块104之间相互连接。
其中:
网络数据挖掘模块101,该网络数据挖掘模块101与互联网相连接,用于从网络上搜集客户企业的相关信息,该相关信息包括以下的一种或者几种:与客户企业相关的新闻、评论、微博、举报、投诉;
在搜集客户企业的相关信息时网络数据挖掘模块101主要依靠现有的网络爬虫程序搜集网络上能够查到的所有与客户企业相关的新闻、评论、微博、举报、投诉等相关信息,然后将上述相关信息整理后发送给语义情感分析模块102;
网络数据挖掘模块101所使用的网络爬虫又被成为网页蜘蛛、网络机器人或网页追逐,是一种能够按照设定规则自动抓取网络信息或者程序脚本的计算机程序,另外,根据使用的搜索策略和网页分析算法的不同,网络爬虫可分为通用网络爬虫、聚焦爬虫等多种不同的类型,实际应用中,由于本发明的基于语义情感分析的贷后风险预警系统需要的数据只是和客户企业相关的文本信息,所以数据挖掘的范围可以进行大幅度的缩小以提高搜索的效率和信息实时性。一般来说,新闻,评论等通常都出现在主流的门户网站、行业论坛等网站,举报、投诉信息可以通过政府部门的网站简单高效的获取,新浪微博、人人、腾讯等主流的社交网站也有极高的可能出现与客户企业相关的信息,如果客户在淘宝等电子商务网站上有交易,那么电子商务网站也是关注的焦点。所以,网络数据挖掘模块101的搜索范围有着很强的针对性,所以聚焦爬虫是本发明首选的爬虫程序。
语义情感分析模块102,用于接收网络数据挖掘模块101搜集的相关信息并进行情感成分分析,生成情感极性K和情感强度M;
语义情感分析是新兴的计算机语言学(computational linguistics)分支,不管在科学研究还是在商业应用都具有重要价值,其涉及计算语言学、数据挖掘以及机器学习等方面的基础研究,并处在不同学科的交叉点,因而情感分析可以促进不同学科的发展,具有重要的价值,其主要用于自然语言中情感成分的分析,也就是情感分析指判定文本所持有情感、观点、态度的极性和强度。通常根据文本粒度的不同,情感性分析主要分为三个方面的内容:词级情感分析(Word-level Sentiment Analysis,WSA)、句级情感分析(Sentence-level Sentiment Analysis,SSA)和篇章级情感分析(Document-level Sentiment Analysis,DSA)。
情感分析涉及两个重要元素:情感极性和情感强度。情感极性是指文本对应的情感类别,情感极性通常划分为褒义、贬义和客观;而情感强度是对文本表达情感强弱的定量描述。在对某一相关信息进行情感分析后我们会得到一个情感极性和一个情感强度的值,例如,参见图2所示,语义情感分析模块102在接收到待分析文本后开始对待分析文本进行性感的分析,并得出褒义、贬义或客观的情感极性,之后再得出褒义级别或者贬义级别;
由于网络数据挖掘模块101从网络上搜集的客户企业相关信息大部分都是几句片段或者简单的句子。所以本发明的基于语义情感分析的贷后风险预警系统主要采用句级情感分析对信息的情感要素进行分析和分级。参见图3所示,使用句级的情感分析首先需要构建情感句分类器,对训练语料进行预处理(分词、词性标注、命名体识别以及分句等),进而提取情感特征,训练情感分类器,然后预测句子情感极性。
分析总模块103,用于获取情感极性K和情感强度M,并且根据相关信息的来源生成情感极性K值和情感强度M值,之后根据预定公式依次计算得出可靠系数P和总体可靠系数W;参见图4所示,具体的在分析总模块103中使用者可以预先定义当情感极性为贬义时K为负值,褒义时K为正值。当K为负值时,K的具体值由相关信息的来源确定,例如:当相关信息源于政府部门等比较权威网站上时k的值为-3;当相关信息源于电子商务网站时k的值为-2;当相关信息源于社交平台时k为-1。当K为正值时,K的具体值由客户企业的广告投放情况以及客户企业的性质来决定,例如:当客户企业为电商网站,互联网服务等类型的企业时,K的取值为0.5;当客户企业为餐饮,零售等会进行一定程度的互联网宣传的传统行业时K的取值为1;当客户企业为传统制造业等与互联网关联不大的传统产业时K的取值为2。其中,情感强度M由语义情感分析模块102通过分析词语的情感强度级别、语句的综合情感强度来获得,即不同的情感强度级别、语句的综合情感强度对应一个数字值,这个数字值可以事先进行定义,这样当数据进入分析总模块103时情感强度M已经被确定了。
通过上述方式确定情感极性K值和情感强度M值后就可以根据预定公式计算可靠系数P,预定公式可以是:P=K*M,使用者也可以根据实际情况设定其它公式,通过可靠系数P就可以定量的衡量当前的相关信息所体现的客户企业的可靠性。之后对所有相关信息计算得出的可靠系数p进行累加,就得到了客户企业的总体可靠系数W,即W=P1+ P2+ P3+ P4+ P5+。。。。。。+ Pn,这里的P1、P2、P3、。。。。。。Pn分别是不同相关信息对应的可靠系数,当客户企业的总体可靠系数W低于警戒值时,用户交互模块104便会发出警告、并重点监控总体可靠系数W低于警戒值的客户企业,并把企业信息、搜集到的负面信息等信息一并发给相关人员或机构。
用户交互模块104,用于在总体可靠系数W低于警戒值时发出警告,其内包含一个B/S架构的管理模块和一个预警模块。管理模块主要用于客户企业信息录入、信息搜集范围设置、预警范围设置、查看客户企业状态等工作。预警模块可以安装在银行工作人员的电脑中作为一个后台服务,当有客户企业存在异常时,预警模块会发出警告,并提供与该客户企业相关的一些信息供参考,警告在银行工作人员对客户单位做出调查并做出回应之前不会消失,确保问题客户企业得到有效的排查。
机译: 一种基于语义相似度的电子文档自动迭代聚类的方法,一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
机译: 基于语义的自动更新到修改后的代码库