首页> 中国专利> 一种整合在线视频资源地址的方法、装置及引擎

一种整合在线视频资源地址的方法、装置及引擎

摘要

本发明提供一种整合在线视频资源地址的方法、装置及引擎,该方法包括抓取提供视频数据的视频网页,对该视频网页数据结构进行分析,获取对应的视频的数据信息,从而获取该视频数据的其他剧集信息,将该其他剧集信息对应的资源定位地址及该视频网页对应的资源定位地址进行整合并保存。由于在本发明实施例中针对每个视频数据,获取了该视频数据每个剧集的信息,并对其每个剧集的资源定位地址进行了整合,因此搜索引擎在根据整合后的信息向用户提供视频数据的搜索结果时,可以保证提供的搜索结果的准确性。

著录项

  • 公开/公告号CN103823907A

    专利类型发明专利

  • 公开/公告日2014-05-28

    原文格式PDF

  • 申请/专利号CN201410103371.2

  • 发明设计人 侯小虎;

    申请日2014-03-19

  • 分类号G06F17/30(20060101);

  • 代理机构11448 北京中强智尚知识产权代理有限公司;

  • 代理人姜精斌;王书彪

  • 地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)

  • 入库时间 2024-02-20 00:02:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-05

    专利权的转移 IPC(主分类):G06F17/30 专利号:ZL2014101033712 登记生效日:20220725 变更事项:专利权人 变更前权利人:北京奇虎科技有限公司 变更后权利人:北京奇虎科技有限公司 变更事项:地址 变更前权利人:100088 北京市西城区新街口外大街28号D座112室(德胜园区) 变更后权利人:100015 北京市朝阳区酒仙桥路6号院2号楼1至19层104号内8层801 变更事项:专利权人 变更前权利人:奇智软件(北京)有限公司 变更后权利人:

    专利申请权、专利权的转移

  • 2018-03-02

    授权

    授权

  • 2014-06-25

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140319

    实质审查的生效

  • 2014-05-28

    公开

    公开

说明书

技术领域

本发明涉及搜索领域,特别涉及一种整合在线视频资源地址的方法、装置及引擎。 

背景技术

视频资源需求是用户在进行网页搜索中的最大需求之一,视频资源需求的总需求量达到网页搜索总量的10%以上。视频资源包括:微电影、电影、MTV、综艺节目、电视剧等等。当用户观看的视频资源为电视剧时,往往需要观看到电视剧的全集,或者能够及时了解电视剧的更新情况。 

随着互联网技术的不断发展,更多的视频资源呈现在网络上供用户选择。对于电视剧,当其更新后会被更新到网络中,但是网络中的每一集的长度和电视上的每一集长度有时不同,并且由于在更新到网络上时电视剧被处理过,因此每个电视剧到底多少集,在每个网络中有不同的展示结果。 

对于用户的视频全集的搜索需求,搜索引擎主要是通过对网页的标题和摘要进行计算,给出搜索结果,由于大量的视频页面为了获得用户的关注和点击,在标题和摘要方面做了很多关键词的堆砌,因此,基于网页标题和摘要进行搜索的结果,虽然显示都是全集,但实际上,这些视频全集的搜索结果中,有些可能确实包含视频全集,有些则不包含视频全集。如图1A所示的对《天天有喜》的视频全集的搜索结果, 

根据搜索结果可知,不同的搜索结果展示的剧集信息不同,前面两个的搜索结果中显示的该电视剧的全集为91集,第三个搜索结果显示的该电视剧的全集为90集。 

用户往往并不知道视频全集到底是多少集,对于搜索结果中在标题或者摘 要中声称为全集的,其内容有时则不一定为全集,用户需要点击进入具体的页面才能知晓是否为视频全集,这样,如果用户点击某搜索结果的页面后无法观看到全部的视频剧情,则需要重新点击查看其他搜索结果项或者进行重新搜索,费时费力,搜索的准确性和效率较低。因此需要搜索引擎能够根据搜索到的结果对视频资源的信息进行整合,向用户提供准确的搜索结果。 

发明内容

鉴于上述问题,提出了本发明以便提供一种整合在线视频资源地址的方法、装置及引擎,提高搜索的准确度。 

依据本发明实施例提供了一种整合在线视频资源地址的方法,该方法包括: 

抓取提供某一视频数据在线播放的视频网页; 

分析所述抓取到的视频网页数据结构,获取所述视频网页中对应的视频的数据信息; 

判断所述数据信息中是否包含与所述视频数据当前所属剧集,及所述视频数据其他剧集的信息; 

如果包含,提取所述其他剧集信息对应的资源定位地址; 

将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合,保存到视频标准剧集库。 

可选地,在根据本发明的实施例的整合在线视频资源地址的方法中,所述将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合包括:判断其他剧集对应的资源定位地址是否与所述视频网页对应的资源定位地址属于相同域名;如果属于相同域名,则将所述视频网页对应的资源定位地址与所述其他同类剧集对应资源定位地址进行整合。 

可选地,在根据本发明的实施例的整合在线视频资源地址的方法中,所述将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进 行整合包括:判断其他剧集对应的资源定位地址对应的是否为无效链接,如果不是,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。 

可选地,在根据本发明的实施例的整合在线视频资源地址的方法中,按资源定位地址所属的域名,对整合后的在线视频地址集合按照优先级排序。 

可选地,在根据本发明的实施例的整合在线视频资源地址的方法中,该方法还包括:访问所述视频标准剧集库中的所有资源定位地址,将无效链接对应的资源定位地址从所述视频标准剧集库中删除。 

本发明实施例提供一种整合在线视频资源地址的装置,该装置包括: 

网页抓取单元,适于抓取提供某一视频数据在线播放的视频网页; 

数据分析单元,适于分析所述抓取到的视频网页数据结构,获取所述视频网页中对应的视频的数据信息;判断所述数据信息中是否包含与所述视频数据当前所属剧集、及所述视频数据其他剧集的信息;如果包含,提取所述其他剧集信息对应的资源定位地址; 

数据索引单元,适于将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合; 

视频标准剧集库,适于保存整合后的视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址。 

可选地,在根据本发明的实施例的整合在线视频资源地址的装置中,所述数据分析单元,适于判断其他剧集对应的资源定位地址是否与所述视频网页对应的地址属于相同域名;所述数据索引单元,适于当所述数据分析单元判断属于相同域名,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。 

可选地,在根据本发明的实施例的整合在线视频资源地址的装置中,所述数据分析单元,适于判断其他剧集对应的资源定位地址是否为无效链接;所述数据索引单元,适于当所述数据分析单元判断不是为无效链接,则将所述视频 网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。 

可选地,在根据本发明的实施例的整合在线视频资源地址的装置中, 

所述网页抓取单元,还适于重新访问所述视频标准剧集库中的所有资源定位地址; 

所述数据分析单元,还适于将所述网页抓取单元访问的将无效链接对应的资源定位地址从所述视频标准剧集库中删除。 

本发明实施例提供了一种搜索引擎,所述搜索引擎包括上述任一所述的装置。 

本发明实施例提供了一种整合在线视频资源地址的方法、装置及引擎,该方法抓取提供视频数据的视频网页,对该视频网页数据结构进行分析,获取对应的视频的数据信息,从而获取该视频数据的其他剧集信息,将该其他剧集信息对应的资源定位地址及该视频网页对应的资源定位地址进行整合并保存。由于在本发明实施例中针对每个视频数据,获取了该视频数据每个剧集的信息,并对其每个剧集的资源定位地址进行了整合,因此搜索引擎在根据整合后的信息向用户提供视频数据的搜索结果时,可以保证提供的搜索结果的准确性。 

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。 

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中: 

图1A为现有技术中搜索引擎对《天天有喜》的搜索结果; 

图1B为本发明实施例一提供的一种整合在线视频资源地址的方法的流程 示意图; 

图2为本发明实施例二提供的一种整合在线视频资源地址的过程; 

图3为本发明实施例提供的一种整合在线视频资源地址的装置的结构示意图。 

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。 

下面结合附图和具体实施方式对本发明作进一步详细的说明。 

实施例一 

请参见图1B,本发明实施例一提供的一种整合在线视频资源地址的方法,该方法包括: 

S110:抓取提供某一视频数据在线播放的视频网页。 

具体的该视频数据包括:电视剧、综艺节目、系列电影等视频资源数据。 

在本发发明实施例中可以预先设定多个视频数据,采用网页抓取程序爬虫(spider)可以遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站,抓取视频数据在线播放的视频网页。 

S120:分析所述抓取到的视频网页数据结构,获取所述视频网页中对应的视频的数据信息。 

具体的,该网页对应的视频的数据信息包括:视频分集信息、剧情介绍信息、评论信息、演员信息、导演信息等等于视频相关的信息。 

本发明实施例中,获取视频网页中对应的视频的数据信息时包括:对于抓取的视频网页进行数据结构分析,从而获取视频的数据信息,数据结构分析可 以包括但不限于网页结构化、消噪和/或链接分析等。其中,网页结构化是指将网页中的html代码全部删掉,提取出html对应的内容。消噪是指将视频网页中的视频的数据信息保留,可以包括但不限于视频分集信息,例如视频分集的链接(资源定位地址)以及视频分集剧情信息等,例如,保留《天天有喜》第1集的资源定位地址和第1集的分集剧情;删除其他与视频的数据信息无关的信息,例如版权信息等。链接分析是指分析网页中的反向链接、导出链接以及内链等。 

S130:判断所述数据信息中是否包含与所述视频数据当前所属剧集,及所述视频数据其他剧集的信息,当判断结果为是时,进行步骤S140,否则,该整合在线视频资源地址的过程结束。 

S140:提取所述其他剧集信息对应的资源定位地址。 

具体的,该资源定位地址可以是视频数据的统一资源定位符(URL)。 

S150:将所述视频网页对应的资源定位地址与所述其他剧集对应资源定位地址进行整合,保存到视频标准剧集库。 

具体的在整合时,可以针对获取到的每个视频数据的资源定位地址,将其对应的相应剧集的资源定位地址进行整合并保存,即在视频标准剧集库中针对每个视频数据保存有其每一剧集的资源定位地址信息等。 

由于在本发明实施例中针对每个视频数据,获取了该视频数据每个剧集的信息,并对其每个剧集的资源定位地址进行了整合,因此搜索引擎在根据整合后的信息向用户提供视频数据的搜索结果时,可以保证提供的搜索结果的准确性。 

实施例二 

本实施例中,在对提取到的视频数据的资源定位地址进行整合时,可以根据视频数据的名称,将相同名称的视频数据的资源定位地址整合到一起。而为了提高整合的准确性,避免重复信息、噪声等干扰,提高后续搜索结果提供的准确性,所述将所述视频网页对应的资源定位地址与所述其他剧集对应的资源 定位地址进行整合包括: 

判断其他剧集对应资源定位地址是否与所述视频网页对应的资源定位地址属于相同域名; 

如果属于相同域名,则将所述视频网页对应的资源定位地址与所述其他剧集对应资源定位地址进行整合。 

具体的,网站可以按照按域名划分,也可以按照IP地址进行划分,在一个提供视频数据在线播放的视频网页中,往往含有多个指向其他页面的链接,这些链接中一部分可能是指向该视频数据的其他剧集的相关网页的,另一部分链接可能是指向广告等噪声链接的,还有部分可能会指向其他不相关视频信息的。一般噪声链接以及其他不相关视频信息的链接与该视频网页对应的资源定位地址的域名不相同,因此,通过判断资源定位地址的域名是否与该视频网页对应的资源定位地址的域名相同,就可以将所述视频网页对应的资源定位地址与该视频数据的其他剧集对应资源定位地址进行整合。 

图2为本发明实施例二提供的一种整合在线视频资源地址的过程,该过程包括以下步骤: 

S201:抓取提供某一视频数据在线播放的视频网页。 

S202:分析所述抓取到的视频网页数据结构,获取所述视频网页中对应的视频的数据信息。 

S203:判断所述数据信息中是否包含与所述视频数据当前所属剧集,及所述视频数据其他剧集的信息,当判断结果为是时,进行步骤S204,否则,该整合在线视频资源地址的过程结束。 

S204:提取所述其他剧集信息对应的资源定位地址。 

S205:判断其他剧集对应的资源定位地址是否与所述视频网页对应的资源定位地址属于相同域名,当判断结果为是时,进行步骤S206,否则,进行步骤S207。 

S206:将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定 位地址进行整合,保存到视频标准剧集库。 

S207:将其他剧集对应的资源定位地址删除。 

实施例三 

为了进一步提高提供的搜索结果的准确性,对于网页中的链接,由于多种原因,包括但不限于某个文件或网页移动了位置,导致其原有的资源定位地址指向它时变成无效链接;或者网页内容更新并换成其他的链接,该网页内容原来的链接变成无效链接;和/或网站服务器设置错误,导致指向网页内容的链接变成无效链接。如果存在无效链接则需要将无效链接去除后整合视频标准剧集库,从而保证视频搜索的准确性。爬虫(spider)在抓取网页时,可以检查网页中所有链接的状态并提供链接状态报告,而在视频网页中爬虫不能抓取框架内的链接或JavaScript或Flash内的链接。 

本发明实施例中所述将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合还可以包括: 

判断其他剧集对应的资源定位地址对应的是否为无效链接; 

如果不是,则将所述视频网页对应的资源定位地址与所述其他同类剧集对应资源定位地址进行整合。 

可选地,对整合后的在线视频地址集合,可以按资源定位地址所属的不同域名进行优先级排序。 

视频网页具有很强的动态性,会经常发生更新,更新包括增加、删除或者修改,为了保证视频标准剧集库实时的准确性,因此,可以定期或者不定期对视频标准剧集库中的资源定位地址进行检测,其检测方式为访问所述视频标准剧集库中的所有资源定位地址,将无效链接对应的资源定位地址从所述视频标准剧集库中删除。 

在根据该视频标准剧集库进行视频资源的提供时包括: 

1、搜索引擎接收到视频关键词查询query。 

可通过浏览器向搜索引擎发送需要观看视频全集的视频关键词查询 (query)例如,用户在浏览器的搜索框中输入视频关键词为“天天有喜全集观看”,那么,浏览器会将该视频关键词传送给搜索引擎进行相关视频全集的搜索。 

2、根据视频关键词查询query返回的包含有与视频关键词匹配的视频全集信息的应用模板的搜索结果页。 

搜索引擎根据视频关键词查询query在数据索引库中的视频标准数据库中进行分词匹配,将视频网页数据结构中与视频关键词匹配的搜索结果页反馈给浏览器,在每个搜索结果页中,通过加载应用模板的形式携带与视频关键词匹配的视频全集信息,其中,视频全集信息可以包括与视频关键词匹配的视频全集集数以及当前页面中与视频关键词匹配的视频集数的信息,还可以包括与视频关键词匹配的视频播放软件名称的信息,以及还可以包括当前页面中与视频关键词匹配的视频各集链接的信息等等。 

基于本发明实施例中的视频标准剧集库,用户能够通过应用模板中记载的视频全集的相关信息来准确地了解该网页是否真实包含了视频全集的内容,而不必像现有技术那样,点击进入具体的搜索结果页去查看是否真的包含了视频全集的内容,提高了视频搜索的准确性和效率。 

请参见图3,本发明实施例提供的一种整合在线视频资源地址的装置,该装置310包括: 

网页抓取单元320,适于抓取提供某一视频数据在线播放的视频网页;提供某一视频数据在线播放的视频网页存储在网页服务器311中; 

数据分析单元330,适于分析所述抓取到的视频网页数据结构,获取所述视频网页中对应的视频的数据信息;判断所述数据信息中是否包含与所述视频数据当前所属剧集,及所述视频数据其他剧集的信息;如果包含,提取所述其他剧集信息对应的资源定位地址; 

数据索引单元340,适于将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合; 

视频标准剧集库350,适于保存整合后的视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址。 

在本发明的一个实施例中,所述数据分析单元330,适于判断其他剧集对应的资源定位地址是否与所述视频网页对应的地址属于相同域名; 

所述数据索引单元340,适于当所述数据分析单元判断属于相同域名,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。 

在本发明的一个实施例中,所述数据分析单元330,适于判断其他剧集对应的资源定位地址对应的是否为无效链接; 

所述数据索引单元340,适于当所述数据分析单元判断不是为无效链接,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。 

在本发明的一个实施例中,还可以包括排序单元360,适于按资源定位地址所属的不同域名,对整合后的在线视频地址集合进行优先级排序。 

在本发明的一个实施例中,所述网页抓取单元320,还适于重新访问所述视频标准剧集库中的所有资源定位地址; 

所述数据分析单元330,还适于将所述网页抓取单元访问的将无效链接对应的资源定位地址从所述视频标准剧集库中删除。 

本发明实施例还提供了一种搜索引擎,所述搜索引擎包括上述任一所述的装置。 

本发明实施例提供了一种整合在线视频资源地址的方法、装置及引擎,该方法抓取提供视频数据的视频网页,对该视频网页数据结构进行分析,获取对应的视频的数据信息,从而获取该视频数据的其他剧集信息,将该其他剧集信息对应的资源定位地址及该视频网页对应的资源定位地址进行整合并保存。由于在本发明实施例中针对每个视频数据,获取了该视频数据每个剧集的信息,并对其每个剧集的资源定位地址进行了整合,因此搜索引擎在根据整合后的信 息向用户提供视频数据的搜索结果时,可以保证提供的搜索结果的准确性。 

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。 

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。 

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。 

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。 

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。 

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及 其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号