首页> 中国专利> 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法

一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法

摘要

本发明公开了一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法,包括商家信息和团购信息自动搜索聚合单元,商家类别的本体知识库的创建单元,获取待分类商家信息单元,商家信息纠错词库的创建及信息纠错单元,商家信息自动分类单元。商家信息和团购信息自动搜索聚合单元用于搜索聚合商家信息;商家类别的本体知识库的创建单元,用于未分类商家信息的分类过程;获取待分类商家信息单元,用于大范围获取未分类商家信息;商家信息纠错词库的创建及信息纠错单元,用于将识别错误的商家信息进行纠错;商家信息自动分类单元,用于自动获取商家信息的正确类别。本发明实施起来更方便高效,信息更准确。

著录项

  • 公开/公告号CN104133913A

    专利类型发明专利

  • 公开/公告日2014-11-05

    原文格式PDF

  • 申请/专利权人 中国科学技术大学;

    申请/专利号CN201410391136.X

  • 发明设计人 朱明;雷鸣;

    申请日2014-08-07

  • 分类号G06F17/30;

  • 代理机构北京科迪生专利代理有限责任公司;

  • 代理人成金玉

  • 地址 230026 安徽省合肥市包河区金寨路96号

  • 入库时间 2023-12-17 01:54:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-16

    授权

    授权

  • 2014-12-10

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140807

    实质审查的生效

  • 2014-11-05

    公开

    公开

说明书

技术领域

本发明涉及一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统,属于互 联网及图像识别技术领域。

背景技术

目前,互联网中各种商家网站,团购网站,信息数量众多,类型也是错综复杂,没有一 个统一的分类标准,消费者想要找到自己需要的商品,而又不知道它属于什么类别,就要从 一个个网站中寻找,例如大众点评网的商品就有高达9种类别,美团网的商品也有8种之多, 每一个网站的分类标准不一样,就会使商品放在不同类别网页中,而消费者往往需要点击完 这个网站后,还要打开另一个网站,找到自己商品所在网页,往往需要点击十几次甚至数十 次,而互联网中出现的某些团购汇总网站,往往信息不够全面,甚至屡屡出现出现的商品和 商品所对应的的类别差别巨大的错误。我们迫切需要一种可以大量搜索聚合互联网各主流商 家团购网站,按照我们自己设定好的分类标准放置信息,做到精确,高效,一目了然。

搜索聚合大量的商家团购网站,必然会产生大量的商家信息,对于大量的商家信息,我 们需要知道其中每一条信息所归属的类别,如果一条一条手动进行分类,这将是一个浩大的 工程,也是不现实的,如果我们有属于自己的城市商家信息库,这将会产生事半功倍的效果, 目前尚未有相关报道。

发明内容

本发明的技术解决问题:克服现有技术的不足,提供一种基于视频分析与搜索聚合 的城市商铺信息库自动构建系统及方法,实现提高效率以及降低信息的复杂性。

本发明技术解决方案:一种基于视频分析与搜索聚合的城市商铺信息库自动构建系 统,包括:商家信息和团购信息自动搜索聚合单元,商家类别的本体知识库的创建单元, 获取待分类商家信息单元,商家信息纠错词库的创建及信息纠错单元,商家信息自动分 类单元;

商家信息和团购信息自动搜索聚合单元,自动搜索互联网上相关的热门网站,根据 不同的网站,创建相应的网络爬虫框架,再根据需要确定所需要爬取的信息格式,信息 所需要划分的类别以及存放信息的格式,同时进行定时设置,能够定时启动,定时更新 数据;

商家类别的本体知识库的创建单元,根据商家信息和团购信息自动搜索聚合单元中 所获取的数据,进行预处理,并存放入各个类别的文本文档中,然后使用Lucence为所 有文档建立相应的索引;

获取商家信息单元,采用拍视频的方式获取一条街或一段路的一大片商家店名,也 可以采用拍照片的方式获取商家店名,然后需要对视频进行切割,获取图片,进行图像 识别,得到相应的商家信息;

商家信息纠错词库创建及信息纠错单元,根据商家信息和团购信息自动搜索聚合单 元所爬取的商家信息,以一定形式存储下来,形成纠错词库,再根据纠错词库进行图像 识别,对识别出来的错误商家信息进行纠错,获取正确的商家信息;

商家信息自动分类单元,获取待分类的商家信息,然后对该信息进行分词处理,获 取关键词集合,带入商家类别的本体知识库的创建单元所创建的本体知识库,根据其所 创建的索引,计算关键词集合在各个类别文档中的相似度之和,该相似度计算采用的是 基于动态规划算法的相似度计算,得到最大相似度之和对应的类别文档,该类别即为商 家信息类别。

基于视频分析与搜索聚合的城市商铺信息库自动构建方法,步骤如下:

(1)商家信息和团购信息自动搜索聚合步骤:自动搜索互联网上相关的热门网站, 根据不同的网站,创建相应的网络爬虫框架,再根据需要确定所需要爬取的信息格式, 信息所需要划分的类别以及存放信息的格式,同时进行定时设置,能够定时启动,定时 更新数据;

(2)商家类别的本体知识库的创建步骤:根据商家信息和团购信息自动搜索聚合步 骤中所获取的数据,进行预处理,并存放入各个类别的文本文档中,然后使用Lucence 为所有文档建立相应的索引;

(3)获取商家信息步骤:采用拍视频的方式获取一条街或一段路的一大片商家店名, 也可以采用拍照片的方式获取商家店名,然后需要对视频进行切割,获取图片,进行图 像识别,得到相应的商家信息;

(4)商家信息纠错词库创建及信息纠错步骤:根据商家信息和团购信息自动搜索聚 合步骤所爬取的商家信息,以一定形式存储下来,形成纠错词库,再根据纠错词库进行 图像识别,对识别出来的错误商家信息进行纠错,获取正确的商家信息;

(5)商家信息自动分类步骤:获取待分类的商家信息,然后对该信息进行分词处理, 获取关键词集合,带入商家类别的本体知识库的创建步骤所创建的本体知识库,根据其 所创建的索引,计算关键词集合在各个类别文档中的相似度之和,该相似度计算采用的 是基于动态规划算法的相似度计算,得到最大相似度之和对应的类别文档,该类别即为 商家信息类别。

本发明与现有技术相比的优点在于:本发明通过对商家信息和团购信息的自动搜索 爬取,聚合信息,用户可以用于科研,也可用于商用,例如进行排序找出正在热销商品, 也可以通过热门商家地址找出黄金地段,找出规律等,构建用于商家分类的本体知识库, 可以使信息分类更精确;获取商家正确信息单元,可以通过视频拍摄(也可以以拍照的 方式)的方式将某一条街或路的商店名记录下来,然后进行视频切割,图像识别,将商 店名一一识别出来;构建商家信息纠错字典库,可以将图片识别出来的错误的店名进行 更正;商家信息自动分类,可以自动将商家信息归于一类,更具条理,一目了然,更易 于人们接受,提高了信息的使用效率,也为开发者提供了便利。

附图说明

图1为本发明的商家和团购信息自动搜索示意图;

图2为本发明中的商家信息的本体知识库的创建示意图;

图3为本发明中的获取待分类商家信息示意图;

图4为本发明中的商家信息纠错词库的创建及信息纠错示意图;

图5为本发明中的商家信息自动分类示意图;

图6为本发明的整个工作流程示意图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的 附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得 其他附图。

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地 描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明的保护范围,本发明实例是基于Java编程语言实施的。

如图1所示,本发明实施例提供一种商家和团购信息的自动搜索聚合单元,包括自 动搜寻商家和团购网站,确定信息格式,创建网络爬虫框架并进行定时爬取数据,对数 据进行去重合并处理,更新数据库:

首先,系统自动在互联网中搜寻多个商家热门网站(如大众点评网等),确定所要爬 取的信息格式,如商店名称,所在城区,地址,联系方式,经纬度,标签等,特别的是 需要确定多个可以区分的类别属性,如美食类、生活类、酒店类、丽人类、酒店类等, 更具体的话,我们还可以根据需要从上面的每一类继续划分为更小的类,如美食类可以 继续分为地方菜、外国菜、火锅、面包甜点,其他等,生活类可以继续划分为家政、装 修、教育培训,购物等,然后根据所划分的类别进行定向爬取。

然后,系统自动在互联网中搜寻多个商家团购热门网站(如美团网等),确定所要爬 取的信息格式,如商品名称,团购信息,所在城区,地址,联系方式,经纬度,已团购 人数,团购活动截止日期等,同样的,需要确定多个可以区分的类别属性,和上述爬取 商家热门网站时保持一致,然后根据所划分类别进行定向爬取。

创建网络爬虫框架并进行定时爬取数据,即需要根据不同网站的类型,创建不同的 爬取规则和策略。

爬去规则和策略是基于Java和XPath来进行编写的,XPath即为XML路径语言, 它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath 基于XML的树状结构,提供在数据结构树中找寻节点的能力。我们可以获取网页的html 源代码,然后通过查找,找到需要获取的信息的XPath爬取规则。然后我们导入关于 XPath的jar包,基于XPath的API编写相关的函数,接下来我们根据所编写的函数和 XPath规则通过网页的html源代码获取信息。

当遇到突发状况时,程序运行出现错误或者没有出现所要获取的信息(未获取信息, 信息全存为NULL),可以将出现错误的时间和所发生的错误以邮件的形式发给用户, 用户可以根据错误的类型,找到出现错误的位置,找到原因,将xpath规则改为正确的, 从而可以更快速高效的爬取数据;进行定时爬取数据,需要设置时间,每到规定时间时, 系统自动进行爬取工作并存入数据库。

设置时间,这里用的是基于Quartz的开源作业调度框架,简单地创建一个实现 org.quartz.Job接口的java类。Job接口包含唯一的方法:

public void execute(JobExecutionContext context)

throws JobExecutionException;

它在Job接口实现类里面,添加一些逻辑到execute()方法,Quartz调度包的两个基 本单元是作业和触发器。作业是能够调度的可执行任务,触发器提供了对作业的调度。

Quartz还需要设置相应的表达式,例如:"0012**?",表示每天中午12点触发, 开始运行程序,这里我们设置的商家信息网站每周一凌晨1点运行,团购商家信息网站 每天凌晨1点更新,对应的表达式分别是“00001**?*MON”,“00001**?”。

对数据进行去重合并处理,即对商家信息和团购信息中出现同一个商家的信息时, 进行合并,删除重复出现的数据。

更新数据库,当出现数据库中没有的信息时,需要对数据进行扩充,对已过时及不 存在的信息进行删除。

本发明实施例的商家信息及团购信息自动搜素聚合单元,用户可以通过自己设定的 定时时间和信息格式,从互联网中搜寻自己所需要的信息并自动爬取下来,并进行信息 的融合和更新,使信息保持最新的(团购信息每天更新一次),并保证了信息的数量(保 持在10万条左右),可读性,准确性和可用性,并降低了信息的复杂性,使用户使用 信息时更人性化,更科学高效。

通过商家信息及团购信息的自动搜索聚合的方式,可以使信息得到更快速,更充分 的利用,在信息搜索聚合领域具有较大的发展前景,可广泛用于互联网中新闻信息搜索 聚合、文字信息搜索聚合、视频信息搜索聚合,图片信息搜索聚合等,充分满足用户的 需求。

如图2所示,本发明实施例提供商铺信息本体知识库的构建单元,包括构建商家的 基本本体知识库,进行数据预处理,创建索引:

首先基于上面的商家信息搜索聚合得到的数据,抽取需要的信息,如商家名称,团 购信息等,存入到文本文档中,从而构建基本的商家本体知识库。

然后将知识库中的数据进行预处理,分割数据,根据数据类别属性存入到各个类别 文本文档中,例如:美食类的商家信息存入到美食文本文档中,每个文本文档存放某一 类别的商家信息,将文本文档中不同类型的字符串转化为统一标准的字符串,方便以后 的分词处理和相似度匹配,将文档的全角标点转化为半角标点。

接下来,使用Lucence为所有的文档创建索引,并为每个文档设定一个唯一的ID号, 例如:如果信息分为美食,丽人,生活,酒店,休闲5大类,那么ID号可以为 meishi,liren,shenguo,jiudian,xiuxian,或者为s1,s2,s3,s4,s5。为接下来的分类工作做好准 备。

如图3所示,本发明实例提供获取待分类商家信息单元,这里主要获取的是商家的 店名(也可以获取商家的其他信息如价格,特色商品等),通过拍摄视频的方式,记录 下来一条街或者一条路上的所有商家的店名。

对视频进行切割,获取包含商家店名的一张张图片。

挑选出来可以识别的图片,进行再切割。

然后用图像识别软件进行识别(这里采用的是OCR软件),获取识别出来的字符 串即商家名称。

首先把获得商家名称带入商铺信息自动分类单元,如果最后输出的类别不是规定的 正确的类别,则将要分析出错的原因,如果是因为之前图片识别出来的是错误的商家店 名,则将要对其进行纠错。

如图4所示商家信息纠错词库的创建及信息纠错单元,包括创建纠错词库,数据预 处理和获得正确商家名称。纠错词库,是对错误信息进行纠错的标准,通过图1商家和 团购信息的自动搜索聚合单元获取的信息中,挑选出某一类型的信息(这里采用的是商 家店名)。

接下来进行数据处理,将数据所含有的多余信息去除,这里采用的是正则匹配,借 助于正则强大的字符串的处理能力,例如金福川自助烧烤滁州路店,处理后为金福川自 助烧烤,然后存储在文本文档中。

最后需要对图3获取待分类商家信息单元所获取的商家店名进行纠错,这里采用的 是基于动态算法的相似度计算,即将待纠错店名和上述的纠错词库中的包含的信息进行 相似度匹配。

这里的相似度计算的思想是:

(1)使用jcseg分词工具将待处理的字符串进行分词处理,获取其中分得的词数为 num,将分得的词赋予一个字符串数组str中;

(2)设置i=0,然后将str数组里面的字符串和纠错词库中的每一条信息进行匹配,对 于每一条信息,若有一个字符串匹配到,则i加1;若str中最后有n条字符串与某一条 信息匹配,则str数组(待处理字符串)与这条信息的相似度为s=(n/num)*100%;

(3)假设该待处理字符串与纠错词库中的每条信息的相似度为s1,s2,s3,s4……,则相 似度最大为smax=max(s1,s2,s3,s4……),并记下最大相似度所对应的信息,将相似度最大 的信息返回,该信息即为正确的店名。

如图5所示,本发明实施例提供商家信息自动分类单元,包括获取需要分类的商铺 信息,分词处理,根据本体知识库计算相似度,获取正确分类:

获取需要分类的商家信息(这里采用的是商家信息),如商家店名,商品信息等。

分词处理,需要分词工具将商家信息进行分词操作,这里采用的是jcseg分词工具, 然后提取分词中的关键词,(例如汉斯特自助烧烤可分为汉斯特、自助、烧烤的关键词 集合),获得相应的关键词集合。

根据本体知识库计算相似度,即将上述的关键词集合,根据图2创建的本体知识库 索引,一一和知识库的各个类别文档中的数据进行匹配,计算每个关键词的相似度,这 里的计算的相似度用的是基于动态规划算法实现的相似度。

获取正确分类,即计算关键词集合在各个类别文档中的相似度总和,相似度总和最 大的类别文档的类别即是商家信息需要被分类的正确类别。

整个计算过程为:

(1)首先计算本体知识库中每个类别所含信息的条数a(若已经分为美食、休闲、 丽人、生活、酒店5类,则条数分别为a1、a2、a3、a4、a5);

(2)然后使用jcseg为待分类商家信息进行分词处理,获取关键词集合,数目为n, 将关键词赋予一个字符串数组str;

(3)然后将str数组中的每一个字符串与各个类别文本文档进行相似度匹配,即计 算该字符串在各个类别文本文档中出现的次数,若类别文档中某条信息包含该字符串, 则算该字符串出现一次,则该字符串在各个类别中出现的次数分别为 bi1,bi2,bi3,bi4,bi5(i=1,2,3…n),则商家信息与各个类别文档的相似度为 s1=(b11+b21+b31+b41+……+bn1)/a1*100%,s2=(b12+b22+b32+b42+……+bn2)/a2*100%……;

(4)则有最大相似度为smax=max(s1,s2,s3……),则其所对应的类别即为商家信息所对 应的类别。

本发明实施例的商铺信息自动分类单元,用户可以将未分类的商家信息,经过上述 流程,可以获得所属的类别,在信息分类领域具有广阔的发展前景,可广泛用于网页分 类,新闻信息分类,电影分类,歌曲分类,图片分类等领域,对用户而言,不管是日常 生活还是科研工作,都提供了极大的便利。

如图6所示,整个搜索聚合的城市商家信息库自动构建与自动分类系统的流程:

1,要进行商家信息和团购信息的自动搜索聚合;

2,构建基于商家信息的本体知识库;

3,获取待分类商家信息;

4,构建商家信息纠错词库及并对商家信息进行纠错;

5,为所需要正确分类的信息进行分类,获取类别。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计 算机编程语言来完成,所述的程序可在windows系统或Linux系统下完成,该程序在执 行时,可包括如上述各方法的实施例的流程。其中上述计算机编程语言可以是 Java,Python等主流编程语言。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号