首页> 中国专利> 基于数据挖掘技术的数据查询系统及方法

基于数据挖掘技术的数据查询系统及方法

摘要

本发明属于文档查询检索领域,涉及数据处理技术,用于解决现有技术中的数据查询系统无法对用户习惯进行差异化标记,导致数据查询效率低下的问题,具体是基于数据挖掘技术的数据查询系统及方法,包括数据查询平台,所述数据查询平台通信连接有用户管理模块、数据分析模块、索引管理模块以及存储模块;用户管理模块用于对数据查询平台的用户习惯进行管理分析:将管理对象输入检索词后,自主选取一个索引方式进行检索得到检索输出内容的行为标记为查询行为;本发明可以对数据查询平台的用户习惯进行管理分析,从而通过不同索引方式对应的管理系数对用户的优先方式进行标记,提高用户在没有自主选择索引方式时的数据查询效率。

著录项

  • 公开/公告号CN118035507A

    专利类型发明专利

  • 公开/公告日2024-05-14

    原文格式PDF

  • 申请/专利权人 辽宁凡锦科技有限公司;

    申请/专利号CN202410438621.1

  • 发明设计人

    申请日2024-04-12

  • 分类号G06F16/903;G06F16/901;

  • 代理机构深圳峰诚志合知识产权代理有限公司;

  • 代理人黄勇

  • 地址 110000 辽宁省沈阳市浑南区上深沟村860-2号(2门501)F7-B501-38

  • 入库时间 2024-05-24 17:48:49

说明书

技术领域

本发明属于文档查询检索领域,涉及数据处理技术,具体是基于数据挖掘技术的数据查询系统及方法。

背景技术

数据挖掘技术是一种从大量数据中提取有价值的信息和知识的技术;它通常涉及数据的预处理模式识别、机器学习、统计分析和可视化等步骤;在数据查询系统中,数据挖掘技术可以发挥重要作用,帮助用户更有效地查询和利用数据。

现有技术中的数据查询系统无法根据查询行为中的各项参数进行统计分析,进而无法根据统计分析结果对用户习惯进行差异化标记,不能为每一个用户提供合适的优先索引方式,导致数据查询效率低下。

针对上述技术问题,本申请提出一种解决方案。

发明内容

本发明的目的在于提供基于数据挖掘技术的数据查询系统及方法,用于解决现有技术中的数据查询系统无法对用户习惯进行差异化标记,导致数据查询效率低下的问题;

本发明需要解决的技术问题为:如何提供一种可以对用户习惯进行差异化标记的基于数据挖掘技术的数据查询系统及方法。

本发明的目的可以通过以下技术方案实现:

基于数据挖掘技术的数据查询系统,包括数据查询平台,所述数据查询平台通信连接有用户管理模块、数据分析模块、索引管理模块以及存储模块;

所述用户管理模块用于对数据查询平台的用户习惯进行管理分析:将数据查询平台的用户标记为管理对象,对管理对象的查询行为进行标记,生成管理周期并获取管理周期的管理系数GL;通过管理系数GL对管理对象的优先方式进行标记;管理对象在下一管理周期内输入检索词且没有自主选择索引方式时,采用优先方式进行检索;

所述数据分析模块用于对数据查询平台的查询行为进行数据分析:在下一管理周期中,管理对象输入检索词后,采用管理对象的优先方式进行检索得到检索输出内容,管理对象在点击检索输出内容时获取关联输出内容,由检索输出内容的显示内容与关联输出内容构成管理对象本次查询行为的数据输出内容,将数据输出内容发送至管理对象的用户终端;

所述索引管理模块用于对数据查询平台的索引方式进行管理分析。

作为本发明的一种优选实施方式,对管理对象的查询行为进行标记的具体过程包括:将管理对象输入检索词后,从B树索引、哈希索引以及位图索引中自主选取一个索引方式进行检索得到检索输出内容的行为标记为查询行为,管理对象没有进行自主选择时,从B树索引、哈希索引以及位图索引中随机选择一个索引方式进行检索。

作为本发明的一种优选实施方式,管理系数GL的获取过程包括:在第一个管理周期内获取管理对象的点击数据DJ、排序数据PX以及二次数据EC;通过对点击数据DJ、排序数据PX以及二次数据EC进行数值计算得到管理对象在管理周期内管理系数GL。

作为本发明的一种优选实施方式,点击数据DJ的获取过程包括:将管理对象输入检索词后点击检索输出内容的查询行为标记为点击行为,将管理周期内的点击行为数量标记为点击数据DJ;排序数据PX的获取过程包括:将管理对象在点击行为中点击的检索输出内容在输出列表中的序号标记为点击行为的排序值,对所有点击行为的排序值进行求和取平均值得到排序数据PX;二次数据EC的获取过程包括:将管理对象输入检索词后没有点击检索输出内容的查询行为标记为二次行为,将管理周期内的二次行为数量标记为二次数据EC。

作为本发明的一种优选实施方式,对管理对象的优先方式进行标记的具体过程包括:将查询行为采取B树索引、哈希索引以及位图索引进行检索输出内容时对应的管理系数GL分别标记为B树系数、哈希系数以及位图系数;将B树系数、哈希系数以及位图系数进行数值比较并通过比较结果得到优先方式。

作为本发明的一种优选实施方式,将B树系数、哈希系数以及位图系数进行数值比较的具体过程包括:将最大数值对应的索引方式标记为管理对象的优先方式,将优先方式发送至数据查询平台,数据查询平台接收到优先方式后将优先方式发送至存储模块中进行存储。

作为本发明的一种优选实施方式,关联输出内容的获取过程包括:将检索输出内容标记为分析对象,将分析对象在历史查询行为中被点击之后的M1秒内用户重新进行检索时输入的检索词标记为关联词,M1为数值常量,M1的具体数值由管理人员进行设置,将关联词在分析对象在历史查询行为中出现的次数标记为关联词的关联值,将关联值数值最大的关联词标记为分析对象的关联对象,以管理对象作为检索词,采用管理对象的优先方式进行检索得到关联输出内容。

作为本发明的一种优选实施方式,索引管理模块对数据查询平台的索引方式进行管理分析的具体过程包括:在第一个管理周期结束之后,每隔L1个管理周期进行一次管理对象的优先方式更新,L1为数值常量,L1的具体数值由管理人员进行设置,在优先方式更新之后,将采用B树索引作为优先方式的管理对象的数量标记为B树值,将采用哈希索引作为优先方式的管理对象的数量标记为哈希值,将采用位图索引作为优先方式的管理对象的数量标记为位图值,对B树值、哈希值以及位图值进行方差计算得到倾向系数,通过倾向系数对管理对象的优先方式是否具有倾向性进行判定。

作为本发明的一种优选实施方式,对管理对象的优先方式是否具有倾向性进行判定的具体过程包括:通过存储模块获取到倾向阈值,将倾向系数与倾向阈值进行比较:若倾向系数小于倾向阈值,则判定管理对象的优先方式不具有倾向性;若倾向系数大于等于倾向阈值,则判定管理对象的优先方式具有倾向性,将B树值、哈希值以及位图值中的最大数值对应的索引方式标记为所有管理对象的优先方式。

基于数据挖掘技术的数据查询方法,包括以下步骤:

步骤一:对数据查询平台的用户习惯进行管理分析:将数据查询平台的用户标记为管理对象,生成管理周期,在第一个管理周期内获取管理对象的点击数据DJ、排序数据PX以及二次数据EC并进行数值计算得到管理对象在管理周期内管理系数GL;

步骤二:通过查询行为采取B树索引、哈希索引以及位图索引进行检索输出内容时对应的管理系数GL对管理对象的优先方式进行标记;

步骤三:对数据查询平台的查询行为进行数据分析:在下一管理周期中,管理对象输入检索词后,采用管理对象的优先方式进行检索得到检索输出内容,管理对象在点击检索输出内容时获取关联输出内容,由检索输出内容的显示内容与关联输出内容构成管理对象本次查询行为的数据输出内容;

步骤四:对数据查询平台的索引方式进行管理分析:在第一个管理周期结束之后,每隔L1个管理周期进行一次管理对象的优先方式更新,并在优先方式更新之后对管理对象的优先方式是否具有倾向性进行判定。

本发明具备下述有益效果:

1、通过用户管理模块可以对数据查询平台的用户习惯进行管理分析,对用户在管理周期内的查询行为的多项参数进行综合分析与计算得到管理系数,从而通过不同索引方式对应的管理系数对用户的优先方式进行标记,提高用户在没有自主选择索引方式时的数据查询效率;

2、通过数据分析模块可以对数据查询平台的查询行为进行数据分析,以检索输出内容为基础,在历史数据中检索对应的关联数据,并自动提取关联数据的关键词作为检索词,结合优先方式进行关联检索,以此减少用户进行数据查询时的主动检索次数,进一步提高检索效率的同时提升用户体验;

3、通过索引管理模式可以对数据查询平台的索引方式进行管理分析,每隔L1个管理周期进行一次优先方式更新,对用户习惯与索引方式进行动态匹配,并结合倾向系数对优先方式的整体覆盖必要性进行分析与评估,必要时采用统一优先方式进行随机式检索,降低服务器运行负载。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一的系统框图;

图2为本发明实施例二的方法流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

实施例一

如图1所示,基于数据挖掘技术的数据查询系统,包括数据查询平台,数据查询平台通信连接有用户管理模块、数据分析模块、索引管理模块以及存储模块。

用户管理模块用于对数据查询平台的用户习惯进行管理分析:将数据查询平台的用户标记为管理对象,将管理对象输入检索词后,从B树索引、哈希索引以及位图索引中自主选取一个索引方式进行检索得到检索输出内容的行为标记为查询行为,管理对象没有进行自主选择时,从B树索引、哈希索引以及位图索引中随机选择一个索引方式进行检索,生成管理周期,在第一个管理周期内获取管理对象的点击数据DJ、排序数据PX以及二次数据EC,点击数据DJ的获取过程包括:将管理对象输入检索词后点击检索输出内容的查询行为标记为点击行为,将管理周期内的点击行为数量标记为点击数据DJ;排序数据PX的获取过程包括:将管理对象在点击行为中点击的检索输出内容在输出列表中的序号标记为点击行为的排序值,对所有点击行为的排序值进行求和取平均值得到排序数据PX;二次数据EC的获取过程包括:将管理对象输入检索词后没有点击检索输出内容的查询行为标记为二次行为,将管理周期内的二次行为数量标记为二次数据EC;通过公式GL=u1*DJ/(u2*PX+u3*EC)得到管理对象在管理周期内管理系数GL,其中u1、u2以及u3均为比例系数,且u1>u2>u3>1;将查询行为采取B树索引、哈希索引以及位图索引进行检索输出内容时对应的管理系数GL分别标记为B树系数、哈希系数以及位图系数;将B树系数、哈希系数以及位图系数进行数值比较并将最大数值对应的索引方式标记为管理对象的优先方式,将优先方式发送至数据查询平台,数据查询平台接收到优先方式后将优先方式发送至存储模块中进行存储;管理对象在下一管理周期内输入检索词且没有自主选择索引方式时,采用优先方式进行检索;对数据查询平台的用户习惯进行管理分析,对用户在管理周期内的查询行为的多项参数进行综合分析与计算得到管理系数,从而通过不同索引方式对应的管理系数对用户的优先方式进行标记,提高用户在没有自主选择索引方式时的数据查询效率。

数据分析模块用于对数据查询平台的查询行为进行数据分析:在下一管理周期中,管理对象输入检索词后,采用管理对象的优先方式进行检索得到检索输出内容,管理对象在点击检索输出内容时,将检索输出内容标记为分析对象,将分析对象在历史查询行为中被点击之后的M1秒内用户重新进行检索时输入的检索词标记为关联词,M1为数值常量,M1的具体数值由管理人员进行设置,将关联词在分析对象在历史查询行为中出现的次数标记为关联词的关联值,将关联值数值最大的关联词标记为分析对象的关联对象,以管理对象作为检索词,采用管理对象的优先方式进行检索得到关联输出内容,由检索输出内容的显示内容与关联输出内容构成管理对象本次查询行为的数据输出内容,将数据输出内容发送至管理对象的用户终端;对数据查询平台的查询行为进行数据分析,以检索输出内容为基础,在历史数据中检索对应的关联数据,并自动提取关联数据的关键词作为检索词,结合优先方式进行关联检索,以此减少用户进行数据查询时的主动检索次数,进一步提高检索效率的同时提升用户体验。

索引管理模块用于对数据查询平台的索引方式进行管理分析:在第一个管理周期结束之后,每隔L1个管理周期进行一次管理对象的优先方式更新,L1为数值常量,L1的具体数值由管理人员进行设置,在优先方式更新之后,将采用B树索引作为优先方式的管理对象的数量标记为B树值,将采用哈希索引作为优先方式的管理对象的数量标记为哈希值,将采用位图索引作为优先方式的管理对象的数量标记为位图值,对B树值、哈希值以及位图值进行方差计算得到倾向系数,通过存储模块获取到倾向阈值,将倾向系数与倾向阈值进行比较:若倾向系数小于倾向阈值,则判定管理对象的优先方式不具有倾向性;若倾向系数大于等于倾向阈值,则判定管理对象的优先方式具有倾向性,将B树值、哈希值以及位图值中的最大数值对应的索引方式标记为所有管理对象的优先方式;对数据查询平台的索引方式进行管理分析,每隔L1个管理周期进行一次优先方式更新,对用户习惯与索引方式进行动态匹配,并结合倾向系数对优先方式的整体覆盖必要性进行分析与评估,必要时采用统一优先方式进行随机式检索,降低服务器运行负载。

实施例二

如图2所示,基于数据挖掘技术的数据查询方法,包括以下步骤:

步骤一:对数据查询平台的用户习惯进行管理分析:将数据查询平台的用户标记为管理对象,生成管理周期,在第一个管理周期内获取管理对象的点击数据DJ、排序数据PX以及二次数据EC并进行数值计算得到管理对象在管理周期内管理系数GL;

步骤二:通过查询行为采取B树索引、哈希索引以及位图索引进行检索输出内容时对应的管理系数GL对管理对象的优先方式进行标记;

步骤三:对数据查询平台的查询行为进行数据分析:在下一管理周期中,管理对象输入检索词后,采用管理对象的优先方式进行检索得到检索输出内容,管理对象在点击检索输出内容时获取关联输出内容,由检索输出内容的显示内容与关联输出内容构成管理对象本次查询行为的数据输出内容;

步骤四:对数据查询平台的索引方式进行管理分析:在第一个管理周期结束之后,每隔L1个管理周期进行一次管理对象的优先方式更新,并在优先方式更新之后对管理对象的优先方式是否具有倾向性进行判定。

基于数据挖掘技术的数据查询系统及方法,工作时,将数据查询平台的用户标记为管理对象,生成管理周期,在第一个管理周期内获取管理对象的点击数据DJ、排序数据PX以及二次数据EC并进行数值计算得到管理对象在管理周期内管理系数GL;通过查询行为采取B树索引、哈希索引以及位图索引进行检索输出内容时对应的管理系数GL对管理对象的优先方式进行标记;在下一管理周期中,管理对象输入检索词后,采用管理对象的优先方式进行检索得到检索输出内容,管理对象在点击检索输出内容时获取关联输出内容,由检索输出内容的显示内容与关联输出内容构成管理对象本次查询行为的数据输出内容;在第一个管理周期结束之后,每隔L1个管理周期进行一次管理对象的优先方式更新,并在优先方式更新之后对管理对象的优先方式是否具有倾向性进行判定。

以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

上述公式均是采集大量数据进行软件模拟得出且选取与真实值接近的一个公式,公式中的系数是由本领域技术人员根据实际情况进行设置;如:公式GL=u1*DJ/(u2*PX+u3*EC);由本领域技术人员采集多组样本数据并对每一组样本数据设定对应的管理系数;将设定的管理系数和采集的样本数据代入公式,任意三个公式构成三元一次方程组,将计算得到的系数进行筛选并取均值,得到α1、α2以及α3的取值分别为3.52、3.08和2.63;

系数的大小是为了将各个参数进行量化得到的一个具体的数值,便于后续比较,关于系数的大小,取决于样本数据的多少及本领域技术人员对每一组样本数据初步设定对应的管理系数;只要不影响参数与量化后数值的比例关系即可,如管理系数与点击数据的数值成正比。

在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号