首页> 中国专利> 及时发现和跟踪地产项目动态的方法

及时发现和跟踪地产项目动态的方法

摘要

本发明公开了一种及时发现和跟踪地产项目动态的方法;其具体包括获取土地信息、结构化土地信息、将土地存入土地信息库、判断地产指标位置、提取项目信息、获取未登录新项目信息、关联土地和项目信息并录入项目库、提取结构化的项目信息、更新项目后续信息。本发明的有益效果是:本发明建立了多样的模板对信息进行提取,优化了提取结果,省时省力且覆盖率高。

著录项

  • 公开/公告号CN104391893A

    专利类型发明专利

  • 公开/公告日2015-03-04

    原文格式PDF

  • 申请/专利权人 成都锐理开创信息技术有限公司;

    申请/专利号CN201410633346.5

  • 发明设计人 邓伟;张泽泉;

    申请日2014-11-11

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构成都宏顺专利代理事务所(普通合伙);

  • 代理人周永宏

  • 地址 611731 四川省成都市高新区世纪城南路216号天府软件园D区6号楼4层401A室

  • 入库时间 2023-12-17 04:19:09

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-04-25

    专利权质押合同登记的生效 IPC(主分类):G06F17/30 专利号:ZL2014106333465 登记号:Y2023980037326 登记生效日:20230404 出质人:成都锐理数据处理技术股份有限公司 质权人:成都中小企业融资担保有限责任公司 发明名称:及时发现和跟踪地产项目动态的方法 申请日:20141111 授权公告日:20181030

    专利权质押合同登记的生效、变更及注销

  • 2023-02-17

    专利权质押合同登记的注销 IPC(主分类):G06F17/30 授权公告日:20181030 申请日:20141111 专利号:ZL2014106333465 登记号:Y2022980000302 出质人:成都锐理数据处理技术股份有限公司 质权人:成都中小企业融资担保有限责任公司 解除日:20230131

    专利权质押合同登记的生效、变更及注销

  • 2022-01-28

    专利权质押合同登记的生效 IPC(主分类):G06F17/30 专利号:ZL2014106333465 登记号:Y2022980000302 登记生效日:20220111 出质人:成都锐理数据处理技术股份有限公司 质权人:成都中小企业融资担保有限责任公司 发明名称:及时发现和跟踪地产项目动态的方法 申请日:20141111 授权公告日:20181030

    专利权质押合同登记的生效、变更及注销

  • 2018-10-30

    授权

    授权

  • 2018-10-09

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20141111

    著录事项变更

  • 2015-04-01

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141111

    实质审查的生效

  • 2015-03-04

    公开

    公开

查看全部

说明书

技术领域

本发明属于自然语言识别技术领域,尤其涉及一种及时发现和跟踪地产项目动态的方 法。

背景技术

自然语言识别(Natural Language Processing,NLP)是一种对自然语言信息进行处理的技 术,从语言学的角度来说,自然语言识别也叫计算语言学(Computational Linguistics)。自然 语言识别包括自然语言理解(Natural Language Understanding,NLU)和自然语言生成 (Natural Language Generation,NLG)两部分。自然语言理解是指对自然语言的内容和意图的 深层把握。在人工智能领域中,自然语言理解特指计算机对自然语言的内容和意图的深层 把握。自然语言生成是指从非自然语言输入到自然语言输出的处理。自然语言理解与自然 语言生成互为逆过程。自然语言识别是人工智能早期的研究领域之一,也是一个极为重要 的领域,主要包括人机对话和机器翻译两大任务,是一门融语言学、计算机科学、数学于 一体的科学。由于以乔姆斯基为代表的新一代语言学派的贡献和计算机技术的发展,自然 语言理解正在变得越来越热门.有很多理由值得人们去研究如何使计算机程序能以某种方 式使用自然语言的问题。口语是人们进行交际的自然形式,计算机用户希望能与机器对话 交流。自然语言输入可以表示成口语,也能从键盘上打入,以文体的形式给出。信息提取(I  nformati on Extracti on)是指从一段文本中抽取指定的一类信息(例如事件、事实)、并将 其(形成结构化的数据)填入一个数据库中供用户查询使用的过程。条件随机域(场) (conditional random fields,简称CRF,或CRFs),是一种判别式概率模型,是随机场的 一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。如同马尔可夫随机场, 条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量 间的相依关系,在条件随机场中,随机变量Y的分布为条件机率,给定的观察值则为随机 变量X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式 的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上, 都存在效率较高的算法可供演算。“条件随机场”被用于中文分词和词性标注等词法分析 工作,一般序列分类模型常常采用隐马尔可夫模型(HMM),像基于类的中文分词。但隐 马尔可夫模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假 设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表 示成一系列独立事件。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交 叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进 行全局归一化,能够求得全局的最优解。目前有多种对实体进行识别的技术,但是地产行 业不同于人名地名识别,他有自己的命名规则,比如数字字母中文的混合。对不同的营销 目的有一套相应的命名原则。现有的模板提取技术没有考虑到行业特点,网络上每天有大 量的项目,人工更新费时费力,而且覆盖率不高。

发明内容

为了解决以上问题,本发明提出了一种及时发现和跟踪地产项目动态的方法。

本发明的技术方案是:一种及时发现和跟踪地产项目动态的方法,具体包括如下步骤:

S1.获取与土地信息相关的目标网页,提取土地信息;

S2.依据预先建立的土地和项目指标规则库,将土地信息进行结构化;

S3.结合土地知识库将结构化的土地信息存入土地信息库;

S4.读取地产知识库,判断地产指标所在位置;

S5.获取与项目信息相关的目标网页,提取项目信息;

S6.结合项目库命名规则使用CRF算法获取未登陆新项目信息;

S7.关联土地和项目信息,并录入项目库;

S8.提取结构化的项目信息;

S9.更新项目后续信息。

进一步地,上述指标规则库包括指标的上下文信息,指标值的范围限制,类型限制等。

进一步地,上述指标规则库能够进行更新。

进一步地,上述步骤S6具体包括如下步骤:

S61.使用CRF方法对项目名称进行标注;

S62.根据维特比算法计算最大的N个可能性,获取项目名称。

本发明的有益效果是:本发明的及时发现和跟踪地产项目动态的方法结合地产行业特 点,针对指标特点,结合知识库思想,建立了多样的模板对信息进行提取,优化了提取结 果,同时能够自动及时的发现并跟踪项目从拿到土地到建立项目到销售的情况,省时省力 且覆盖率高。

附图说明

图1是本发明方法的流程示意图。

具体实施方式

下面结合附图和具体的实施例对本发明作进一步的阐述。

一种及时发现和跟踪地产项目动态的方法的具体流程如图1所示。

步骤S1.获取与土地信息相关的目标网页,提取土地信息。

在现有通用搜索引擎或其他搜索引擎中输入土地信息的关键词进行搜索,并按照各个 网页链接的前后排列顺序进行选取,从搜索结果中选取至少两个原始页面的连接形成连接 集合。分别获取链接集合中各个链接指示的原始网页内容,通过对原始网页进行检测,根 据各个原始网页的内容获取至少两个与土地信息相关的原始网页作为目标网页。在各个目 标网页中分别确定包含有土地信息的属性及与土地信息属性相对应的属性值信息,定位土 地信息的属性,并提取土地信息属性及与土地信息属性相对应的属性值信息。

步骤S2.依据预先建立的土地和项目指标规则库,将土地信息进行结构化。

指标规则库是根据土地和项目信息预先建立的,用于描述土地和项目的信息。这里是 使用编程语言对规则进行描述,能够根据使用经验进行更新。指标规则库中的各项指标来 描述所述土地和项目的各项属性,指标规则库中的指标关系来描述各个指标间的关联关系。 这些规则包括:指标的上下文信息、指标值的范围限制、类型限制等。例如:户型面积为 101-148平米3-4居室;建立规则:取值范围0-10000;单位:平方米;类型:数值型;规 范化结果:户型面积:最小101平方米,最大148平方米;获取信息模板:[x]、[n+1]、[n+2]、 [n+3]、[指标]、[数字]、[范围符号]、[数字]、[面积单位]。

步骤S3.结合土地知识库将结构化的土地信息存入土地信息库。

根据步骤S2中结构化的土地信息,并按照预先建立的指标规则库,将土地信息按照制 定的规则存储到土地信息库中。

步骤S4.读取地产知识库,判断地产指标所在位置。

步骤S41.通过利用现有的解析工具可以将各个网页解析为DOM树。这里的文档对象 模型DOM是一种用于HTML和XML文档的编程接口,它给文档提供了一种结构化的表 示方法,可以改变文档的内容和呈现方式。DOM的内部逻辑结构通常表现为节点树的形式。 通过对HTML网页的解析处理,HTML网页中的各种元素转化为DOM中的节点对象。如 果处于能分析的网页DOM结构,结合DOM结构特点,自动获取对应的值。

步骤S42.如果是描述信息,则结合指标规则库中制定的规则,通过取值限制结构化的 提取出信息。

步骤S5.获取与项目信息相关的目标网页,提取项目信息。

在现有通用搜索引擎或其他搜索引擎中输入项目信息的关键词进行搜索,并按照各个 网页链接的前后排列顺序进行选取,从搜索结果中选取至少两个原始页面的连接形成连接 集合。分别获取链接集合中各个链接指示的原始网页内容,通过对原始网页进行检测,根 据各个原始网页的内容获取至少两个与项目信息相关的原始网页作为目标网页。在各个目 标网页中分别确定包含有项目信息的属性及与项目信息属性相对应的属性值信息,定位项 目信息的属性,并提取项目信息属性及与项目信息属性相对应的属性值信息。

步骤S6.结合项目库命名规则使用CRF算法获取未登陆新项目信息。

地产项目建立的时候,项目库里面没有最新的项目名称,这些项目名称往往有自己的 特点,必须结合自身特点进行标注。这里,我们使用CRF算法来获取未登录的新项目信息。 CRF是指条件随机域(场),是一种判别式概率模型,是随机场的一种,常用于标注或分 析序列资料,如自然语言文字或是生物序列。维特比算法是一种动态规划算法用于寻找最 有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和 隐马尔可夫模型中。维特比算法也被用于寻找观察结果最有可能解释相关的动态规划算法。 例如在统计句法分析中动态规划算法可以被用于发现最可能的上下文无关的派生(解析)的 字符串,有时被称为“维比特分析”。

步骤S51.使用CRF方法对项目名称进行标注。

步骤S52.根据维特比算法计算最大的N个可能性,获取未登录的新项目名称。

步骤S6.关联土地和项目信息,并录入项目库。

将步骤S1中获取的土地信息与步骤S5中获取的项目信息,按照预先建立的土地和项 目指标规则库中制定的规则进行关联;并将关联后的土地和项目信息录入项目库。

步骤S7.提取结构化的项目信息。

按照预先建立的指标规则库中的规则信息,可以从项目库中提取得到关联土地信息和 项目信息的地产项目信息。

步骤S8.更新项目后续信息。

根据使用经验,可以对预先建立的指标规则库进行更新。在对指标规则库进行更新后, 重复步骤S1到步骤S7,我们可以得到地产项目的动态信息。

本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的 原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通 技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体 变形和组合,这些变形和组合仍然在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号