首页> 中国专利> 一种基于GPS和爬虫数据的银行客户房价值评估方法

一种基于GPS和爬虫数据的银行客户房价值评估方法

摘要

本发明公开了一种基于GPS和爬虫数据的银行客户房价值评估方法,解决了现有技术中进行房产价值评估,其流程冗余,效率较低,且需要大量人工介入,并且需要用户的配合的问题,其包括如下步骤:使用数据采集系统从互联网上爬取全国房产信息;使用数据采集系统从银行数据库内获取用户历史访问APP的GPS数据组;使用数据处理模块提取GPS数据组,通过DBSCAN算法对GPS数据组进行处理,得到用户的聚类地址,将聚类地址和用户填写的地址进行对比,判定用户的真实地址;将全国房产信息匹配用户的真实地址,找出用户的真实地址的房产价值;本发明全自动化匹配判断用户的房价值,解决了传统房产价值评估中的时效低、需人工介入、需用户配合以及可能存在造假的问题。

著录项

  • 公开/公告号CN112465623A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 四川新网银行股份有限公司;

    申请/专利号CN202011191294.2

  • 发明设计人 王浩麟;陈思成;翟恩荣;

    申请日2020-10-30

  • 分类号G06Q40/02(20120101);G06Q50/16(20120101);G06F16/29(20190101);G06F16/951(20190101);G06K9/62(20060101);

  • 代理机构51282 成都智言知识产权代理有限公司;

  • 代理人蒋秀清

  • 地址 610094 四川省成都市成都高新区吉泰三路8号1栋1单元26楼1-8号

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明属于数据采集和处理技术领域,具体属于一种基于GPS和爬虫数据的银行客户房价值评估方法。

背景技术

GPS定位技术目前已经广泛应用于手机、汽车等领域,用于对用户或设备的物理位置进行精确定位,目前在手机的APP中也已经广泛使用其数据,用于对用户的位置进行精确判定以提供更优质的服务和风险策略等。爬虫技术指的是利用计算机程序,在网络上收集和爬取基于特定关键词的公开数据,目前已经广泛运用于搜索引擎(如百度)、资料收集等领域。可以通过爬虫技术对特定领域的公开数据进行高效率的收集和整理,为功能和决策提供数据支持。房价值评估指对用户房产价值进行一定程度的评估,在银行业中,常常需要使用用户的资产数据对用户进行客户画像和风险评估,其中房产价值作为用户资产中非常重要的一部分,在银行的风控和营销中,有很大的意义。

在传统银行中,由于普遍使用线下营业网点收集数据的方式,如果需要对用户的房产价值进行一定的评估,不论是需要精确的真实价值评估用于授信放款,还是大体价值范围评估用于用户营销,均需要用户提供真实有效的房产资料(如房产证)。在获取到用户的房产资料后,通常需要通过专业的评估机构对真实价值进行评估,或根据房产资料信息进行房产价值评估,流程冗余,效率较低,且需要大量人工介入,并且需要用户的配合,无法做到全自动化高效地进行用户的房产价值评估,同时无法避免用户提供虚假文件做高自己的房产价值以获取更大的授信和营销优惠。

发明内容

针对现有技术中进行房产价值评估,其流程冗余,效率较低,且需要大量人工介入,并且需要用户的配合的问题,本发明提供一种基于GPS和爬虫数据的银行客户房价值评估方法,其目的在于:用户的GPS数据和互联网房产爬虫数据,全自动化匹配判断用户的房价值,解决了传统房产价值评估中的时效低、需人工介入、需用户配合以及可能存在造假的问题。

本发明采用的技术方案如下:

一种基于GPS和爬虫数据的银行客户房价值评估方法,包括如下步骤:

步骤A:使用数据采集系统从互联网上爬取全国房产信息;

步骤B:使用数据采集系统从银行数据库内获取用户历史访问APP的GPS数据组;

步骤C:使用数据处理模块提取GPS数据组,通过DBSCAN算法对GPS数据组进行处理,得到用户的聚类地址,将聚类地址和用户填写的地址进行对比,判定用户的真实地址;

步骤D:将全国房产信息匹配用户的真实地址,找出用户的真实地址的房产价值。

所述步骤A具体包括:

A1:使用数据采集系统从互联网上爬取全国房产信息,全国房产信息包括但不限于小区城市、小区名字、小区GPS地址、小区单位房价、小区挂牌单价、小区租房价、小区成交单价、小区面积范围;

A2:对爬取的全国房产信息进行数据整合,使用均值、中位值、租售比值以及随机森林算法,对全国房产信息数据进行补全;

A3:根据小区的成交单价涨幅,计算出小区的真实房价。

所述步骤B具体包括:使用数据采集系统从银行数据库内获取用户历史访问APP的GPS数据组,GPS数据组包括GPS经度、GPS纬度、GPS采集时间以及用户自行在APP中填写的房屋地址。

所述步骤C中具体包括:

C1:使用数据处理模块提取GPS数据组,定义GPS采集时间在18:00-6:00之间的GPS数据组为用户在家中的GPS数据集;

C2:使用DBSCAN密度聚类算法对用户在家中的GPS数据集进行密度聚集,获取用户的数个聚类地址,选取密度最大的聚类地址;

C3:将密度最大的聚类地址与用户自行在APP中填写的房屋地址进行距离判定,从而判定用户的真实地址。

所述步骤D中具体包括:

D1:根据用户的真实地址与步骤A1中爬取的小区GPS地址进行匹配,找到用户的真实地址所在小区名字;

D2:根据小区名字,获取用户的真实地址的房产价值。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

1.本发明提出的利用爬虫和GPS数据进行房产价值评估的方法,相对传统方法,即使用线下营业网点收集数据的方式,对用户的房产价值进行一定的评估,本方法利用互联网及用户GPS数据对房价值进行全自动高效评估,不再需要用户提供真实有效的房产资料(如房产证)用于人工审核并通过专业的评估机构对真实价值进行评估,避免了房价值评估过程中流程冗余,效率较低,且需要大量人工介入,并且需要用户的配合的问题。使用本专利提出的方案,可以做到用户无感知地并且快速高效地对其房屋价值进行较准确的评估。

2.本发明使用GPS数据进行处理获取和判断用户用户真实有效的居住地信息,使用互联网房价值爬虫数据计算用户对应小区的评估房价值,整个过程中综合运用自然语言处理和机器学习方法,对数据的精准度做出了优化。

附图说明

本发明将通过例子并参照附图的方式说明,其中:

图1是:本发明的一种具体实施方式的流程示意图。

具体实施方式

本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

下面结合图1对本发明作详细说明。

一种基于GPS和爬虫数据的银行客户房价值评估方法,包括如下步骤:

步骤A:使用数据采集系统从互联网上爬取全国房产信息;

步骤B:使用数据采集系统从银行数据库内获取用户历史访问APP的GPS数据组;

步骤C:使用数据处理模块提取GPS数据组,通过DBSCAN算法对GPS数据组进行处理,得到用户的聚类地址,将聚类地址和用户填写的地址进行对比,判定用户的真实地址;

步骤D:将全国房产信息匹配用户的真实地址,找出用户的真实地址的房产价值。

在上述实施例中,数据采集系统通过爬虫技术T+1更新和爬取全国房产信息,APP指的是银行自己的APP,用户在办理房屋抵押时,需要使用PP将信息录入,然后用户在这个APP访问的时候,会把对应的埋点访问数据记录在银行业务数据库,数据采集系统可以去数据抽取出来,将GPS数据组抽取出来后,使用规则和DBSCAN算法计算出用户在所有的GPS中最真实的聚类GPS,将用户的真实的聚类住址GPS和用户填写的房屋地址的GPS进行距离判定,选择更贴近用户真实住址的地址作为用户地址,确定了用户的真实地址后与全国房产信息进行匹配,可得出用户的真实地址的房产价值。

所述步骤A具体包括:

A1:使用数据采集系统从互联网上爬取全国房产信息,全国房产信息包括但不限于小区城市、小区名字、小区GPS地址、小区单位房价、小区挂牌单价、小区租房价、小区成交单价、小区面积范围;

A2:对爬取的全国房产信息进行数据整合,使用均值、中位值、租售比值以及随机森林算法,对全国房产信息数据进行补全;

A3:根据小区的成交单价涨幅,计算出小区的真实房价。

所述步骤B具体包括:使用数据采集系统从银行数据库内获取用户历史访问APP的GPS数据组,GPS数据组包括GPS经度、GPS纬度、GPS采集时间以及用户自行在APP中填写的房屋地址。

所述步骤C中具体包括:

C1:使用数据处理模块提取GPS数据组,定义GPS采集时间在18:00-6:00之间的GPS数据组为用户在家中的GPS数据集;

C2:使用DBSCAN密度聚类算法对用户在家中的GPS数据集进行密度聚集,获取用户的数个聚类地址,选取密度最大的聚类地址;

C3:将密度最大的聚类地址与用户自行在APP中填写的房屋地址进行距离判定,从而判定用户的真实地址。

所述步骤D中具体包括:

D1:根据用户的真实地址与步骤A1中爬取的小区GPS地址进行匹配,找到用户的真实地址所在小区名字;

D2:根据小区名字,获取用户的真实地址的房产价值。

以下用具体的实施例来具体说明本申请的技术方案。

步骤A:

使用爬虫软件从某网站公开的房价值信息中全量采集所含有的全国小区信息,获得以下数据,

省份,市,区县,小区地址,小区名称,挂牌价,成交价,租房价,面积范围,gps地址四川省,成都市,武侯区,科华路x号,A小区,20000,18000,?,100-200,(gps_x_1,gps_y_1)

四川省,成都市,武侯区,云杉路x号,B小区,17800,15000,3000,80-120,(gps_x_2,gps_y_2)

四川省,成都市,武侯区,明天路x号,C小区,19000,?,2300,100-200,(gps_x_3,gps_y_3)

对数据进行整合,补全数据,同时根据房价趋势,得到以下小区数据:

省份,市,区县,小区地址,小区名称,挂牌价,成交价,租房价,面积范围,gps地址,价值

四川省,成都市,武侯区,科华路x号,A小区,20000,18000,3600,100-200,(gps_x_1,gps_y_1),270

四川省,成都市,武侯区,云杉路x号,B小区,17800,15000,3000,80-120,(gps_x_2,gps_y_2),150

四川省,成都市,武侯区,明天路x号,C小区,19000,11500,2300,100-200,(gps_x_3,gps_y_3),173

步骤B:

采集用户的GPS数据组如下:

B1用户ID,GPS经度,GPS维度,数据时间

UserA,50.123,60.893,2020-07-21 12:55:29

UserA,49.893,65.123,2020-07-21 21:12:31

UserA,50.011,61.032,2020-08-02 09:40:01

UserA,54.765,66.943,2020-09-01 22:12:49

UserA,53.674,67.591,2020-09-11 19:30:22

UserA,54.238,65.481,2020-09-12 00:13:10

整理用户流水数据如下:

UserA,[(50.123,60.893,2020-07-21 12:55:29),(49.893,65.123,2020-07-2121:12:31),(50.011,61.032,2020-08-02 09:40:01),(54.765,66.943,2020-09-01 22:12:49),(53.674,67.591,2020-09-11 19:30:22),(54.238,65.481,2020-09-12 00:13:10)]

步骤C:

判断用户在夜间及周末的GPS数据:

UserA,[(49.893,65.123,2020-07-21 21:12:31),(54.765,66.943,2020-09-0122:12:49),(53.674,67.591,2020-09-11 19:30:22),(54.238,65.481,2020-09-12 00:13:10)]

使用DBSCAN密度聚类,获取到用户最真实的地址为(53.680,67.771)

用户自行填写的地址为XX小区,对应的GPS地址为(52.323,67.283),与真实地址相符合,取真实地址(53.680,67.771)

步骤D:

使用用户的真实GPS地址,与爬虫数据对比匹配,发现该GPS地址对应为云杉路x号,B小区,故该用户的房价值为预估后的价值:150w

以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号