首页> 中国专利> 用于房产估值的模型建立方法、装置、介质及设备

用于房产估值的模型建立方法、装置、介质及设备

摘要

本文是关于一种用于房产估值的模型建立方法、装置、介质及设备,其方法包括:基于特征价格理论,确定与房产价格相关的多个特征因子,多个特征因子至少包括:区位特征类因子、结构特征类因子、邻里特征类因子、景观特征类因子;获取与多个特征因子相关的数据,并计算每一房产对应的多个特征因子的值,建立房产样本;使用多种机器学习模型对多个所述房产样本的价格进行拟合,通过比较各机器学习模型的预测性能,选择最佳机器学习模型。能够有效提高房产价格预测的准确性。

著录项

说明书

技术领域

本文涉及房地产领域,尤其涉及一种用于房产估值的模型建立方法、装置、介质及设备。

背景技术

相关技术中,房产价格的评估多使用特征价格模型以及地理加权回归模型,但各要素对房价的影响并不是简单的线性关系,且经过很多相关实验证实,房产价格与其影响要素间存在着复杂的非线性关系,特征价格模型的拟合效果一般。而非线性模型相对于线性模型在进行预测时往往有更好的精度,但是同时也失去了线性模型的可解释性,很难分析房产价格与影响因素之间的关系。

发明内容

为克服相关技术中存在的问题,本文提供一种用于房产估值的模型建立方法、装置、介质及设备。

根据本文的第一方面,提供一种用于房产估值的模型建立方法,包括:

基于特征价格理论,确定与房产价格相关的多个特征因子,所述多个特征因子至少包括:区位特征类因子、结构特征类因子、邻里特征类因子、景观特征类因子;

获取与所述多个特征因子相关的数据,并计算每一房产对应的多个特征因子的值,建立房产样本;

使用多种机器学习模型对多个所述房产样本的价格进行拟合,通过比较各机器学习模型的预测性能,选择最佳机器学习模型。

用于房产估值的模型建立方法,还包括:

使用SHAP模型对所述最佳机器学习模型的预测结果进行分析,获取每个特征因子对房产价格的影响程度。

所述景观特征类因子包括建筑密度、建筑空间拥挤度、到公园的距离、到景观点的距离、植被覆盖指数、水体覆盖指数中的一种或多种。

所述邻里特征类因子包括:到某类公共设施中最近的公共设施的距离,预设范围内各类公共设施的数量;所述公共设施包括以下六类:公交站点、地铁站点、小学、中学、三甲医院、普通医院。

所述多个特征因子相关的数据包括:互联网开源数据,国土大数据,多源遥感数据。

所述使用SHAP模型对所述最佳机器学习模型的预测结果进行分析包括:SHAP值空间分布、特征因子重要性、特征因子对房产价格的总体影响、房产价格对特征因子的依赖关系。

根据本文的另一方面,提供一种用于房产估值的模型建立装置,其特征在于,包括:

特征因子确定模块,用于基于特征价格理论,确定与房产价格相关的多个特征因子,所述多个特征因子至少包括:区位特征类因子、结构特征类因子、邻里特征类因子、景观特征类因子;

数据获取模块,用于获取与所述多个特征因子相关的数据;

计算模块,用于计算每一房产对应的多个特征因子的值,建立房产样本;

模型选择模块,用于使用多种机器学习模型对多个所述房产样本的价格进行拟合,通过比较各机器学习模型的预测性能,选择最佳机器学习模型。

用于房产估值的模型建立装置,还包括:

解释模块,用于使用SHAP模型对所述最佳机器学习模型的预测结果进行分析,获取每个特征因子对房产价格的影响程度。

根据本文的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现用于房产估值的模型建立方法的步骤。

根据本文的另一方面,提供一种计算机设备,包括处理器、存储器和存储于所述存储器上的计算机程序,所述处理器执行所述计算机程序时实现用于房产估值的模型建立方法的步骤。

本文通过确定与房产价格相关的多个特征因子,并使用互联网开源数据、国土大数据、多源遥感数据对多个特征因子在微观尺度下进行计算,利用特征价格整合机器学习模型,构建房产价格评估模型,可以实现对房产价格的精确预测。利用SHAP对模型进行解释,能够准确捕捉各房产样本的各特征因子与房产价格之间的复杂非线性关系,定量分析各特征因子对房产价格的影响程度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本文。

附图说明

构成本文的一部分的附图用来提供对本文的进一步理解,本文的示意性实施例及其说明用于解释本文,并不构成对本文的不当限定。在附图中:

图1是根据一示例性实施例示出的用于房产估值的模型建立方法的流程图。

图2是根据一示例性实施例示出的到公园最近距离SHAP值分布图的示意图。

图3是根据一示例性实施例示出的特征因子重要性示意图。

图4是根据一示例性实施例示出的特征因子对房产价格的总体影响示意图。

图5是根据一示例性实施例示出的房产价格对楼层的依赖关系示意图。

图6是根据一示例性实施例示出的用于房产估值的模型建立装置的框图。

图7是根据一示例性实施例示出的用于房产估值的模型建立装置的框图。

具体实施方式

为使本文实施例的目的、技术方案和优点更加清楚,下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。需要说明的是,在不冲突的情况下,本文中的实施例及实施例中的特征可以相互任意组合。

随着人们生活品质的需求提升,对住房从简单的“容身之所”逐渐转向对周边环境健康性、设施便利性及安全性的追求,其偏好直接反应在房价的空间特征波动上,并且随着传感和通讯技术的发展,数据获取手段的日益丰富,在城市内部居住空间的微观尺度上进行房产价格影响因素的研究成为趋势热点。

现有的技术方案中,房产价格的评估多使用特征价格模型以及地理加权回归模型,但各要素对房价的影响并不是简单的线性关系,且经过很多相关实验证实,房产价格与其影响要素间存在着复杂的非线性关系,特征价格模型的拟合效果一般。而非线性模型相对于线性模型在进行预测时往往有更好的精度,但是同时也失去了线性模型的可解释性,很难分析房产价格与影响因素之间的关系。

针对现有技术种存在的问题,本文提供一种用于房产估值的模型建立方法。图1是根据一示例性实施例示出的用于房产估值的模型建立方法的流程图。参考图1,用于房产估值的模型建立方法包括:

步骤S11,基于特征价格理论,确定与房产价格相关的多个特征因子,多个特征因子至少包括:区位特征类因子、结构特征类因子、邻里特征类因子、景观特征类因子。

步骤S12,获取与多个特征因子相关的数据,并计算每一房产对应的多个特征因子的值,建立房产样本。

步骤S13,使用多种机器学习模型对多个房产样本的价格进行拟合,通过比较各机器学习模型的预测性能,选择最佳机器学习模型。

在步骤S11中,特征价格理论主要包括消费者理论和市场均衡理论。消费者理论认为消费者对异质性商品(房产、土地)的需求基于商品所内涵的特征或者属性,而非商品本身;市场均衡理论认为商品具有异质性且特征属性隐含。特征价格模型在房地产价格研究中将房产或土地视为异质性商品,将区位特征、邻里特征和结构特征作为引起房产价格差异的特征属性,通过计算各类特征的隐含价格,分析各类特征对房产价格的影响大小。特征价格模型在实际应用中最常用的模型函数形式主要有线性、对数以及半对数形式,并通过最小二乘法对函数进行参数估计。

房产特征价格模型的基本形式为:P=f(I,N,L)。

其中,P为房产价格,房产特征包括结构特征(I)、邻里特征(N)和区位特征(L)。

以线性函数形式为例,房产价格特征模型可表示为:

P=α+βI+γN+δL+ε

其中,α,β,γ,δ为模型参数,ε为随机变量。在本文中,仅借鉴特征价格理论中模型因子选择方法,而对其广泛使用的线性模型不做考虑。

购房者除了考虑房产本身各项属性以外,对房产所处环境也越来越重视。在房地产交易中,内在特性(如面积、楼层、朝向等)完全相同的房产常常因周边地区公共基础设施的不同而产生较大差异,地铁站或轨道交通、公园绿地、水域景观、大学或重点中小学等城市公共设施,均对周边地区的房地产价格产生或多或少的影响。特征价格模型主要从结构特征(内在特性,包括层数、建筑面积、容积率、房龄)、区位特征(到市中心或商业中心的距离)、邻里特征(周边地区公共基础设施)三个方面进行定量研究。随着社会经济水平的提升,城市居民越来越重视居住环境的质量,优美的城市景观会对房价产生一定的积极影响,本文在特征价格理论的基础上,采用特征价格理论的因子选择方法,并考虑房产周边景观对房价的影响,增加景观类因子。将房产价格相关的多个特征因子分为区位特征类因子、结构特征类因子、邻里特征类因子、景观特征类因子等多个类别。

在一实施例中,景观特征类因子包括建筑密度、建筑空间拥挤度、到公园的距离、到景观点的距离、植被覆盖指数、水体覆盖指数中的一种或多种。

其中,建筑密度指建筑底面所覆盖的面积占研究区域总面积的百分比,反映了建筑景观在水平方向上的密集程度,建筑密度越大则开阔性越低。

式中,C

建筑密度是人们行走于空间之中所更为关注的水平方向的视野开阔度,而当人们以一种全面的视角审视建筑群体空间时,建筑空间拥挤度则能更好的描述三维空间中的视野开阔度,它较好的反映了景观在三维空间的分布密度,指标值越大则拥挤度越高、开阔性越低。

式中,SC

到公园以及景观点的距离反映了房产到公园以及城市景观点的可达性;植被覆盖指数以及水体覆盖指数通过房产小区预设范围缓冲区内植被覆盖面积比例以及水体覆盖面积比例来量化。其中,到公园以及景观点的距离利用欧式距离计算房产小区到各公园以及景观点的距离。植被覆盖指数以及水体覆盖指数首先需要获取植被以及水体的覆盖面积,可通过对遥感影像进行预处理,根据所在城市土地利用覆盖情况选择训练样本,进行监督分类提取植被与水体,进而计算一定缓冲区内植被与水体的面积。

在一实施例中,邻里特征类因子包括:到某类公共设施中最近的公共设施的距离,预设范围内各类公共设施的数量;公共设施包括以下六类:公交站点、地铁站点、小学、中学、三甲医院、普通医院。

本文将公共设施分为以下六类:公交站点、地铁站点、小学、中学、三甲医院、普通医院。本文所提出的六类公共设施,只是为了举例说明本文中的方法,并不能构成对本文的限制,在实际应用中,可以选择更为细致的划分方法,或者添加其他类别的公共设施。

因此,邻里特征类因子可以包括多个,例如:到最近公交站点的距离、到最近地铁站点的距离、到最近小学的距离、到最近中学的距离、到最近医院的距离以及500米内医院的数量、500米内小学的数量、1000米内医院的数量、1000米内小学的数量等,可以根据实际需求,设定任意多个微观特征因子,能够定量分析各特征因子在城市微观尺度下对房产价格的影响程度。

表一是根据一示例性实施例示出的与房产价格相关的特征因子汇总表。

表一:

与房产价格相关的特征因子汇总表

步骤S12,建立好特征因子后,获取相关的数据,可以计算每一房产的全部特征因子的值,从而建立房产样本。

在一实施例中,多个特征因子相关的数据包括:互联网开源数据,国土大数据,多源遥感数据。大数据时代下,可以利用大数据结合地理信息系统,将相关数据信息进行地理化。本发明使用的数据主要包括以下几个方面:(1)利用互联网开源数据,如百度地图兴趣点数据,计算城市内部不同地块或建筑街道范围以及步行15min范围内生活配套设施的分布情况,如地铁、医院、学校、商圈等,具体可涉及配套设施的聚集程度,以及质量、数量等指标。又如房价数据,利用爬虫技术对链家、安居客等互联网二手房发布信息平台的房价数据进行爬取,获取其中的价格、楼层、面积等自身属性信息。(2)利用国土大数据,如城市中心、公园、闽江的空间分布数据以及路网数据,计算房产到闽江及公园的可达性和房产到城市中心的距离。(3)利用多源遥感数据,如Landsat、高分系列卫星数据,利用植被指数(NDVI)、水体指数(NDWI)提取绿地、水体等信息,用以分析居住区一定范围内的植被、水体覆盖率。获得上述数据后,可以逐一对房产对应的多个特征因子进行计算,计算每一房产的每一特征因子的值,不同房产所处的位置不同,面积不同,层数不同,其价格也不同,房产的特征因子的值也不同,房产价格和房产的特征因子值息息相关。因此,可以通过对多个已知价格的房产分别计算其特征因子的值,每一房产可以建立为一房产样本。

建立了足够的房产样本后,为了找出房产价格和每一特征因子的关系,步骤S13,使用多种机器学习模型对多个房产样本的价格进行拟合,例如训练模型根据房产的多个特征因子对房价进行估计,然后用训练好的模型进行房价预测,并与房产的实际价格进行比较,可以确定出哪个机器学习模型的预测结果最为接近真实的房价,也就是预测性能最佳,从而选择该机器学习模型为最佳机器学习模型。为了使最佳机器学习模型具有普遍意义,可以对现有的全部类型的机器学习模型进行比较,例如,随机森林回归模型、额外树回归模型、梯度提升树回归模型、多层感知器神经网络、支持向量机回归模型、k近邻回归模型以及XGBoost回归模型。实际应用中,用于比较不同机器学习模型的预测性能,可以选择以下指标中的一种或多种:

①平均绝对误差MAE(Mean Absolute Error)表示预测值和观测值之间绝对误差的平均值。

②均方差MSE(Mean squared error)计算预测值与真实值差异的平方和,指标值越小说明模型精度越好。

③均方根误差RMSE(Root Mean Square Error)表示预测值和观测值之间差异(称为残差)的样本标准差,用来反映样本的离散程度。进行非线性拟合时,RMSE越小越好。

④决定系数R2反映因变量的全部变异能通过回归关系被自变量解释的比例,如果结果是0,就说明模型预测不能预测因变量;如果结果是1,就说明是函数关系;如果结果是0-1之间的数,就是模型的好坏程度,决定系数越高表明可以被解释的程度越高,回归模型的效果越好。

⑤解释方差(Explained variance)表示解释回归模型的方差,指标值越接近1说明自变量对因变量方差的解释越好,指标值越接近0解释越差。

在上述公式中,y和y分别代表真实房价和预测房价;n为房产小区;y

任何机器学习模型的核心都有一个响应函数,它试图映射和解释独立(输入)自变量和因变量(目标或响应)之间的关系和模式。机器学习算法可以看成是黑盒子模型,训练数据流入黑盒子,训练出一个函数,输入新的数据到该函数得出预测结果。在确定了最佳机器学习模型后,虽然可以对房产价格进行预测,但还不清楚每一特征因子是否对房价产生影响以及对房价的影响程度。

本文提供的用于房产估值的模型建立方法,还包括:

使用SHAP模型对所述最佳机器学习模型的预测结果进行分析,获取每个特征因子对房产价格的影响程度。

SHAP是Python开发的一个“模型解释”包,可以解释任何机器学习模型的输出。在合作博弈论的启发下,SHAP构建一个加性的解释模型,所有的特征都视为“贡献者”。对于每个预测样本,模型都产生一个预测值,SHAP值就是该样本中每个特征所分配到的数值。

假设第i个样本为x

y

其中f(x

在一实施例中,使用SHAP模型对所述最佳机器学习模型的预测结果进行分析主要分为以下几个方面:

(1)SHAP值空间分布

将每个房产小区的每个特征贡献的SHAP值空间化,能够分析各房产特征因子与其对房价贡献的空间格局。图2是根据一示例性实施例示出的到公园最近距离SHAP值分布图的示意图。参考图2,SHAP值随着到公园的距离增加而降低,公园附近SHAP值较高,说明公园对购房者具有较强的吸引力,优美的城市景观在一定程度上能够提升房产的价格。

(2)特征因子重要性

每个特征因子对于提升整个模型的预测能力的贡献程度为特征因子重要性。特征因子对应的SHAP值直接反映该特征因子对房价的影响程度,即具有较大SHAP值绝对值的特征因子对房价的影响更大,因此通过计算各房产特征因子的SHAP值在全部样本中的均值就可以得到特征因子的全局重要性。图3是根据一示例性实施例示出的特征因子重要性示意图。参考图3,通过对房产全部特征因子的重要性进行计算并按降序排序得到房产特征因子重要性排序图,可以看出floor、dis_min、dis_center、n_pri1000与dis_sanjia这几项特征因子对房价影响较大。

(3)特征因子对房产价格的总体影响

通过对特征因子重要性的计算和排序,可以发现不同特征因子对房产价格影响程度的大小,但不包含其他信息,比如各特征对房价的影响是正向的还是负向的,而绘制特征因子对房产价格的总体影响能够综合反映各特征的总体重要程度和影响方向。图4是根据一示例性实施例示出的特征因子对房产价格的总体影响示意图。参考图4,图中的每一个点都代表一个样本,其横轴上的值代表其对应的SHAP值,竖轴代表房产的不同特征,颜色代表特征值的大小,颜色越深代表特征值越大,颜色越浅说明特征值越小,重叠的点会在竖轴方向上小幅度抖动,因此每个特征因子在竖轴上的宽度就能表明特征因子SHAP值的分布。通过图4,可以了解每个特征因子SHAP值的总体分布。可以看出到城市中心距离“dis_min”基本与房价成负相关,距离小会提升房价,距离大则会降低房价,深色点主要集中在SHAP值大于0的区域。

(4)房产价格对特征因子的依赖关系-部分依赖图

部分依赖图显示了目标响应和一组“目标”特征因子之间的依赖关系,并边缘化所有其他特征因子的值。单向部分依赖图能够反映目标响应和目标特征(如线性、非线性)之间的相互作用。图5是根据一示例性实施例示出的房产价格对楼层的依赖关系示意图。如图5所示,其中楼层数“floor”成“V”型分布,10层以上对房价存在提升作用。

通过SHAP模型,对每一个特征因子进行分析,从而可以看出该特征因子对房产价格的影响程度,进而对步骤S11中的多个特征因子进行进一步的优化,进一步提高模型对房产价格预测准确性。

图6是根据一示例性实施例示出的用于房产估值的模型建立装置的框图。参考图6,用于房产估值的模型建立装置包括:特征因子确定模块601,数据获取模块602,计算模块603,模型选择模块604。

该特征因子确定模块601被配置为用于基于特征价格理论,确定与房产价格相关的多个特征因子,所述多个特征因子至少包括:区位特征类因子、结构特征类因子、邻里特征类因子、景观特征类因子。

该数据获取模块602被配置为用于获取与所述多个特征因子相关的数据。

该计算模块603被配置为用于计算每一房产对应的多个特征因子的值,建立房产样本。

该模型选择模块604被配置为用于使用多种机器学习模型对多个所述房产样本的价格进行拟合,通过比较各机器学习模型的预测性能,选择最佳机器学习模型。

图7是根据一示例性实施例示出的用于房产估值的模型建立装置的框图。参考图7,用于房产估值的模型建立装置包括:解释模块701。

该解释模块701被配置为用于使用SHAP模型对最佳机器学习模型的预测结果进行分析,获取每个特征因子对房产价格的影响程度。

本领域技术人员应明白,本文的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本文可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本文可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质,包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质等。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

本文是参照根据本文实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

尽管已描述了本文的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本文范围的所有变更和修改。

显然,本领域的技术人员可以对本文进行各种改动和变型而不脱离本文的精神和范围。这样,倘若本文的这些修改和变型属于本文权利要求及其等同技术的范围之内,则本文的意图也包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号