首页> 中国专利> 面向语义搜索引擎的高效混合存储结构的构建方法

面向语义搜索引擎的高效混合存储结构的构建方法

摘要

本发明涉及一种面向语义搜索引擎的高效混合存储结构的构建方法;高效混合存储结构含有内存、专用控制器1、固态硬盘、专用控制器2和混合硬盘,专用控制器2位于固态硬盘和混合硬盘之间,专用控制器2的作用是压缩数据、解压缩数据和固态硬盘中的热点数据区更新,固态硬盘中存放热点队列中不能完整存放在内存中的那些热点队列,当用户提交查询请求时,专用控制器1将用户查询的热点数据由固态硬盘中的热点队列中读取到内存中,当需要生成热点队列时,专用控制器1将内存中的热点数据的计数信息读取到固态硬盘中;本发明提供了一种面向语义搜索引擎的高效混合存储结构的构建方法,在互联网系统中使用该方法构建的存储结构可提高用户的查询效率。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-12-19

    授权

    授权

  • 2011-08-31

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110414

    实质审查的生效

  • 2011-07-20

    公开

    公开

说明书

(一)、技术领域:

本发明涉及一种存储结构的构建方法,特别是涉及一种面向语义搜索引擎的高效混合存储结构的构建方法。

(二)、背景技术:

搜索引擎是互联网中最重要的一类应用,搜索引擎处理互联网每天产生的海量网页信息、深网数据、音视频等泛媒体信息,并进行高效的组织和索引,以向海量用户提供一站式、个性化、智能化的并发检索服务。搜索引擎的应用特点是海量数据存储、海量数据处理、海量用户并发访问、对查询的准确性和实时性都有较高要求。

随着互联网用户和网页数量的急剧膨胀,搜索引擎系统在计算、I/O及存储等方面的压力越来越大。基于关键词向量结构化表示网页信息的传统搜索引擎,需要对<关键词,文档,词率>三元组进行匹配及评分,返回最接近搜索结果。这种搜索方式的优点是便于实现,查找速度快,查全率高。但对关键词的简单匹配导致传统搜索引擎有着查准率偏低,无法反映文章领域知识等缺点。用户的单次查询请求将导致搜索引擎系统内部产生多次访存操作。伴随着搜索引擎索引网页数量的迅速增长,现有硬件访存能力无法满足在全部索引数据中进行实时查询,现有解决方案是通过分布式存储方式和分级缓存技术提高索引数据的访问效率。

另一方面,云计算环境的不断发展也孕育云数据挖掘技术及云搜索引擎技术,以满足云环境下用户的新型服务需求,从而使面向云的语义搜索成为云环境的一个重要应用。

基于文档语义的搜索具有较好的查准率,现有的语义索引数据是通过对传统索引数据的二次计算得到,对海量文档的语义索引数据的存储还没有很好的解决方案。

(三)、发明内容:

本发明要解决的技术问题是:克服现有技术的缺陷,提供一种面向语义搜索引擎的高效混合存储结构的构建方法,在互联网系统中使用该方法构建的存储结构可提高用户的查询效率。

本发明的技术方案:

一种面向语义搜索引擎的高效混合存储结构的构建方法,该高效混合存储结构含有内存、专用控制器1、固态硬盘、专用控制器2和混合硬盘;一般数据放置在混合硬盘上,混合硬盘含有一个闪存存储器,闪存存储器具备对经常访问的数据的简单计数功能,闪存存储器中用于记录经常访问的数据,经常访问的数据属于热点数据区,热点数据区含有系统生成的中间变量;专用控制器2位于固态硬盘和混合硬盘之间,专用控制器2的作用是压缩数据、解压缩数据和固态硬盘中的热点数据区更新,专用控制器2对混合硬盘上的一般数据进行访问、存储,并对热点数据进行发现,专用控制器2通过记录数据块的访问频次将常用数据中经常访问的数据放置到固态硬盘中的热点数据区,并按照设定的更新周期对该热点数据区域进行更新;固态硬盘作为速度、数据存储需求、内存容量和成本之间的过渡,固态硬盘中存放热点队列中不能完整存放在内存中的那些热点队列,当用户提交查询请求时,专用控制器1将用户查询的热点数据由固态硬盘中的热点队列中读取到内存中,并将热点数据进行计数、加压缩,当需要生成热点队列时,专用控制器1将内存中的热点数据的计数信息读取到固态硬盘中,汇总热点队列中的暂存数据队列中的拍书,由专用控制器2进行重新排序后更新热点队列。

根据热点数据的可信度维护一个热点队列,热点队列含有热点数据队列和暂存数据队列,热点数据队列中存放当前的热点数据,后台推送的数据先由专用控制器2从混合硬盘存放入固态硬盘上的暂存数据队列中,再按照设定的时间窗口,每隔一段时间由专用控制器2对热点数据队列和暂存数据队列中的可信度进行计算,并排序更新热点队列,专用控制器2还通过离线聚类对新生成索引数据进行聚类,得到相关度比较高的                                                个相关领域,对每个相关领域进行分桶存储,减少查询的计算量。

当用户提交查询请求时,该查询请求到达搜索引擎系统中的查询代理模块,查询代理模块首先查询热点队列,如果查询到热点队列,则将热点队列从其存储区中调出,如果没有查询到热点队列,就将查询请求送至搜索引擎系统中的查询索引模块进行查询,查询索引模块查询到热点队列后,首先将查询结果返回,然后将查询结果传递到存储数据索引元数据的名称服务器,由名称服务器上运行的名称服务管理模块读取文档并返回给查询代理模块,同时更新索引次数,把计算结果推送到热点数据的存储区,并更新热点队列,更新热点队列是隔一段时间进行一次,主要的操作是对热点数据的排序和计算热点数据的可信度。

热点数据的可信度通过五元组描述,五元组含有新鲜度、访问次数、访问频度、领域权威评分和时间阈值;新鲜度指事件在系统中留存的时间长短,访问次数记录文档数据被访问的总的次数,访问频度为一个时间窗口内的访问次数,时间窗口由计数能力允许的系统根据访问量进行设定,领域权威评分为百分制,由专业人员通过人工标注对文档进行评分,因文档量较大,领域权威评分仅适用于突发性的热点数据,时间阈值为设定的热点数据的生存周期,对于超过时间阈值的热点数据,需要重新更新其可信度。

如果根据事件发生的时间记录新鲜度的初始评分,随着事件在系统中留存的时间增加,新鲜度呈指数衰减。

本发明的有益效果:

1、本发明采用多级存储结构,并定义了数据的访存协议和控制策略,能够有效地实现传统索引数据的分级存储、可信热点数据发现及语义索引数据的压缩存储。本发明采用热点数据广播推送、索引压缩编码与常用数据高速缓存查询相结合的方式,有效地较少数据的搬移次数,降低系统对存储器的访问代价。对索引数据采用分领域、分目录、分级别进行组织,支持热点数据发现,数据关联发现,通过维护热点数据队列和访存队列优先策略动态调整数据的访问带宽和访存方式,结合在数据拓扑网络上的推送方式,提高用户的查询效率。

2、本发明通过引入混合硬盘、固态硬盘和内存等多种存储容量和I/O速度不同的存储设备,配合与之相对应的数据存储结构。通过专用控制器1和专用控制器2对混合硬盘、固态硬盘和内存之间的数据交换进行记录,并通过引入自定义权重系统和聚类处理,生成和维护适合语义索引的热点数据队列,一方面缩小数据的查询范围,另一方面提升数据热度度量的准确性,从而达到高效访问语义索引数据的目的。

(四)、附图说明:

图1为面向语义搜索引擎的高效混合存储结构的结构示意图;

图2为热点队列的维护示意图;

图3为分级数据队列的结构示意图;

图4为对面向语义搜索引擎的高效混合存储结构的访存流程图。

(五)、具体实施方式:

参见图1~图4,图中,面向语义搜索引擎的高效混合存储结构的构建方法为:该高效混合存储结构含有内存、专用控制器1、固态硬盘、专用控制器2和混合硬盘;一般数据放置在混合硬盘上,混合硬盘含有一个闪存存储器,闪存存储器具备对经常访问的数据的简单计数功能,闪存存储器中用于记录经常访问的数据,经常访问的数据属于热点数据区,热点数据区含有系统生成的中间变量;专用控制器2位于固态硬盘和混合硬盘之间,专用控制器2的作用是压缩数据、解压缩数据和固态硬盘中的热点数据区更新,专用控制器2对混合硬盘上的一般数据进行访问、存储,并对热点数据进行发现,专用控制器2通过记录数据块的访问频次将常用数据中经常访问的数据放置到固态硬盘中的热点数据区,并按照设定的更新周期对该热点数据区域进行更新;固态硬盘作为速度、数据存储需求、内存容量和成本之间的过渡,固态硬盘中存放热点队列中不能完整存放在内存中的那些热点队列,当用户提交查询请求时,专用控制器1将用户查询的热点数据由固态硬盘中的热点队列中读取到内存中,并将热点数据进行计数、加压缩,当需要生成热点队列时,专用控制器1将内存中的热点数据的计数信息读取到固态硬盘中,汇总热点队列中的暂存数据队列中的拍书,由专用控制器2进行重新排序后更新热点队列。

根据热点数据的可信度维护一个热点队列,热点队列含有热点数据队列和暂存数据队列,热点数据队列中存放当前的热点数据,后台推送的数据先由专用控制器2从混合硬盘存放入固态硬盘上的暂存数据队列中,再按照设定的时间窗口,每隔一段时间由专用控制器2对热点数据队列和暂存数据队列中的可信度进行计算,并排序更新热点队列,专用控制器2还通过离线聚类对新生成索引数据进行聚类,得到相关度比较高的个相关领域,对每个相关领域进行分桶存储,减少查询的计算量。

当用户提交查询请求时,该查询请求到达搜索引擎系统中的查询代理模块,查询代理模块首先查询热点队列,如果查询到热点队列,则将热点队列从其存储区中调出,如果没有查询到热点队列,就将查询请求送至搜索引擎系统中的查询索引模块进行查询,查询索引模块查询到热点队列后,首先将查询结果返回,然后将查询结果传递到存储数据索引元数据的名称服务器,由名称服务器上运行的名称服务管理模块读取文档并返回给查询代理模块,同时更新索引次数,把计算结果推送到热点数据的存储区,并更新热点队列,更新热点队列是隔一段时间进行一次,主要的操作是对热点数据的排序和计算热点数据的可信度。

热点数据的可信度通过五元组描述,五元组含有新鲜度、访问次数、访问频度、领域权威评分和时间阈值;新鲜度指事件在系统中留存的时间长短,访问次数记录文档数据被访问的总的次数,访问频度为一个时间窗口内的访问次数,时间窗口由计数能力允许的系统根据访问量进行设定,领域权威评分为百分制,由专业人员通过人工标注对文档进行评分,因文档量较大,领域权威评分仅适用于突发性的热点数据,时间阈值为设定的热点数据的生存周期,对于超过时间阈值的热点数据,需要重新更新其可信度。

如果根据事件发生的时间记录新鲜度的初始评分,随着事件在系统中留存的时间增加,新鲜度呈指数衰减。

热点队列的维护方法为:现有的存储设备无法满足对所有索引数据的实时匹配要求,为降低数据访问的代价,提高数据访问速度,结合用户对网络数据需求的80/20原则,我们设计了图2中的分级数据结构,主要数据包括语义索引数据、语义索引表头、次热点数据队列和热点数据队列等。按照可能被访问的频率,以上数据依次存放在混合硬盘的普通扇区、混合硬盘的Flash芯片、固态硬盘和内存中。索引数据存储区1到索引数据存储区n中包含的是分桶存放的语义索引条目。系统响应用户查询请求时,按热点数据队列、次热点数据队列、语义索引表头、语义索引数据的热度依次递减的次序进行查询,可有效减少数据搬移路径的平均长度。

热点数据队列中维护的是一段时期内受访问热度最高的语义索引条目,按照数据的热点可信度进行排序。语义索引数据进入热点数据队列的方法如图3中所示,当语义索引数据的热点可信度达到一定阈值后,经专用控制器读入暂存区,进行进一步的热点可信度积累,直至达到阈值,可以参与下一次的热点数据队列更新。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号