法律状态公告日
法律状态信息
法律状态
2017-12-22
授权
授权
2015-10-07
实质审查的生效 IPC(主分类):G06F17/30 申请日:20150522
实质审查的生效
2015-09-09
公开
公开
技术领域
本发明属于数据库应用领域,具体涉及一种支持用户自定义归类规则的数据库中信息归类的方法。
背景技术
信息归类是指为了某种目的,以一定的归类原则和方法为指导,按照信息内容、性质以及相关的需求,将数据库信息按一定的结构体系分门别类地组织起来。
信息归类的工作原理是:第一,将信息存入数据库,同时提取出信息的关键内容,作为归类的依据;第二,按照相关需求来定义归类规则;第三,根据归类规则,将数据库中内容相似或相近的信息放在一起。
与“信息归类”相关的技术是信息检索技术,针对数据库,检索一般是根据用户输入的检索关键词进行精确查找或者模糊查找,得到与检索内容相匹配的信息,并将此信息返回给用户。
目前,不论是对数据库进行精确检索还是进行模糊检索,采用的都是基于关键词的检索技术,这样的检索无法得到与检索内容相近、相似的相关信息内容,也无法得到与检索内容存在潜在关系的相关信息内容。
发明内容
本发明的目的就是为了克服上述现有技术中的不足之处,提供一种支持用户自定义归类规则的信息归类方法,支持面向语句的数据库检索,从而实现对相关或相近或具有潜在关系的信息归类。
本发明是一种支持用户自定义归类规则的信息归类方法,以用户定制的归类规则为基础,支持数据库进行语句检索,得到与检索语句相近或相似的信息内容,包括以下步骤:
(1)信息归类规则建模,将用于信息归类时的相关规则用一张图来描述,图中的每个节点代表一个关键词信息,包括关键词内容和关键词权重,图中的每条边代表两个关键词之间的关系信息,包括关系内容和关系权重,具体操作中,用一个三元组,即主语、谓语、宾语信息来表示图中的一条边,即主语和宾语两个节点之间的关系是谓语,用户通过定制上述规则关系图来定制用于信息归类时的相关规则;
(2)基于规则的检索语句分词,通过遍历用户定制的规则关系图,得到此规则中的所有关键词,组成关键词集,在用户输入检索语句之后,在关键词集中找出匹配的关键词,得到分词结果;
(3)基于规则的检索关键词扩展,以经过步骤(2)分词处理后得到的分词结果中的每一个关键词分别作为核心关键词加以处理,在用户定制的搜索层数的控制下,得到与之相近或相关的关键词以及相关权重,最后得到扩展关键词集。此外,考虑到规则中关键词之间的关联关系是图状拓扑结构形式,因此为了提高推理效率,需要限定关键词的扩展层数,即用户定制的搜索层数;
(4)利用扩展得到的关键词集,在数据库中进行精确检索或者模糊检索得到相应的内容。依据规则关系图,可以扩展出与正在处理的核心关键词相关或相近的关键词,这样再利用这些关键词进行进一步检索时,就可以得到与本次检索语句相关或相近的信息内容。同理,依据规则关系图,可以扩展出与正在处理的核心关键词具有潜在语义关系的关键词,利用这些关键词进行进一步检索时,就可得到与本次检索语句具有潜在语义关系的信息内容。
本发明适用于各类有信息归类需求的用户,支持用户按需定制相关的信息归类规则,这样用户能够随时修改相关规则或者制定新的归类规则。本发明的主要步骤均是以用户定制的归类规则为基础,一方面依据定制归类规则的不同,检索分词操作和关键词扩展操作将得到的不同结果,这使得信息归类的效果随着规则的定制而发生变化,另一方面,用户可根据信息归类的效果不断完善归类规则。利用本发明进行信息归类,所得到的归类结果除了得到与初始检索语句直接关联的结果外,还会得到与初始检索语句相关或相似或具有潜在关系的结果,这样将帮助用户获取到更加全面的信息。
附图说明
图1为本发明基于规则的检索语句分词算法流程图。
图2为本发明基于规则的关键词扩展算法流程图。
具体实施方式
本发明方法实施时,通过步骤1构造相关规则关系图,并将其存入数据库中。以下以在开发机上用Java语言在eclipse开发环境下实现本发明方法的应用程序为例,详细说明本发明技术方案。
步骤1:信息归类规则的建模。
选择适当规则建模工具,按照用户需求建立以图的形式描述的规则。将用于信息归类时的相关规则用一张图来描述,图中的每个节点代表一个关键词信息,包括关键词内容和关键词权重,图中的每条边代表两个关键词之间的关系信息,包括关系内容和关系权重,具体操作中,用一个三元组,即主语、谓语、宾语信息来表示图中的一条边,即主语和宾语两个节点之间的关系是谓语,用户通过定制上述规则关系图来定制用于信息归类时的相关规则。
本实施例定义了一个Web界面,供用户上传规则文件,通过解析该规则文件,将得到的三元组信息存入数据库,方便后继步骤使用。在将解析得到的三元组信息存入数据库,同时,通过遍历这些三元组,可得到一个用于后续步骤的的关键词集。
步骤2:基于规则的检索语句分词。
与传统的分词程序不同之处在于,本发明的分词操作是基于用户定制的规则的,因此在不同的规则上,同一个检索语句的分词结果可能会不一样。
如图1所示,基于规则的检索语句分词算法如下:
步骤一,设定当前考虑的字符串是从下标i开始的, ;
步骤二,从开始,截取一个长度为的字符串;为规则关键词集中关键词的最长长度;
步骤三,判断是否是规则关键词集中的词语,如果是,将加入到分词结果集,跳转至步骤五,否则转至步骤四;
步骤四,如果的长度为,则转到步骤五,否则删除的最后一个字符,然后转到步骤三;
步骤五,删除匹配的部分,值加1,如果已经超过检索字符串长度,则程序停止,返回分词结果集,否则转到步骤二。
上述基于规则的检索语句分词算法中的相关变量含义如表1。
表1.基于规则的检索语句分词算法中的变量
步骤3:基于规则的检索关键词扩展。
此步通过从数据库中读取三元组信息,并组成规则关系图,然后以每一个关键词为中心,搜索出与之相关或相近的其他关键词,以及通过解析得到二者之间的关系权重和相关的其他关键词的权重,最后将所有得到的关键词按综合权重进行排序。
如图2所示,基于规则的检索关键词扩展算法如下:
步骤一,如果分词结果集为空,则跳转至步骤九,否则,从中取出一个关键词,并删除,跳转至步骤二;
步骤二,清空待扩展关键词集,把信息加入和扩展结果集,设置当前搜索层数j=2,转置步骤三;
步骤三,如果j超过定制的搜索层数,则跳转至步骤一,否则j加上1,跳转至步骤四;
步骤四,如果集合为空,则跳转至步骤七,否则从中选出一个关键词,并删除它,跳转至步骤五;
步骤五,以为中心,在规则中搜索得到与之相关的三元组信息集合,跳至步骤六;
步骤六,如果为空,则跳转至步骤四,否则从中选出一条三元组信息,并删除它。通过解析,得到与相关的一个关键词,以及通过解析关系权重和权重综合得到的权重,将的信息,包括综合权重存入一个扩展中间集合,跳至步骤六;
步骤七,去掉中的重复元素,如果为空则跳至步骤三,否则从中选出一个关键词,跳转至步骤八;
步骤八,把加入,并且判断是否已经被扩展过,如果没有,则把加入,跳转至步骤七;
步骤九,去掉中的重复元素,按权重降序排序后,返回结果,程序停止。
上述基于规则的关键词扩展算法中的相关变量定义如表2。
表2. 基于规则的关键词扩展算法中的变量
注:表2中的AtomWord表示关键词信息,包括关键词的内容和权重。
表2中的Tripe表示三元组信息,即(主语、谓语、宾语)。
在得到关键词扩展结果之后,利用这些关键词在数据库中进行精确检索或者模糊检索,即可以得到检索结果,最后将检索结果按照关键词的相关权重排序即可。在本发明的实施中,用户可以按需定制相关的信息归类规则,包括新建规则和修改规则,并且在检索的时候,用户可以直接检索一个语句,而不仅限于检索单个的关键词,本发明可以以用户定制的归类规则为基础,对检索语句进行分词操作,提取出与归类规则有关的检索关键词。对于分词得到的每一个关键词,本发明可以通过在用户定制的规则中进行关键词扩展,得到相关或相近的其他关键词,通过对这些关键词进行数据库检索,得到了与用户初始检索内容相关相近的内容。同理也可以得到规则中与检索关键词具有潜在语义关联的其他关键词,因此也得到了与用户初始检索内容具有潜在联系的内容。
机译: 具有自动消息归类功能的用户支持系统
机译: 具有自动消息归类功能的用户支持系统
机译: 用于在用户,用户终端设备,社区查找设备,带有记录的自定义规则的记录介质,用户自定义规则的反馈方法,这些程序和程序记录介质之间共享用户中的自定义内容的系统