首页> 中国专利> 一种针对中小型网站的模块化用户检索意图建模方法

一种针对中小型网站的模块化用户检索意图建模方法

摘要

本发明公开了一种针对中小型网站的模块化用户检索意图建模方法,基于结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法的用户意图检索模型,取得了不要求用户进行额外的反馈操作,在用户正常检索时可以实现用户意图的即时建模过程的进步,达到了不需要用户任何反馈的条件下,为用户推荐更满意的检索结果的效果,节省了用户查找目标结果的时间和精力,提高了用户查询的效率,以及使得目标结果更符合用户检索意图。

著录项

  • 公开/公告号CN106599304A

    专利类型发明专利

  • 公开/公告日2017-04-26

    原文格式PDF

  • 申请/专利权人 中南大学;

    申请/专利号CN201611244184.1

  • 发明设计人 郭克华;李婷;

    申请日2016-12-29

  • 分类号G06F17/30(20060101);

  • 代理机构43113 长沙正奇专利事务所有限责任公司;

  • 代理人马强;王娟

  • 地址 410083 湖南省长沙市岳麓区麓山南路932号

  • 入库时间 2023-06-19 02:00:58

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-03-24

    授权

    授权

  • 2017-05-24

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20161229

    实质审查的生效

  • 2017-04-26

    公开

    公开

说明书

技术领域

本发明涉及计算机领域,特别是一种针对中小型网站的模块化用户检索意图建模方法。

背景技术

近年来,各大型搜索引擎公司始终致力于搜索引擎算法的优化,来预测用户搜索意图。与大型搜索引擎公司相比,中小型网站投入成本一般较低,在网站建设和维护中常忽略搜索算法的优化,用户在浏览这些网站时,可能耗费更多的精力和时间来得到符合自己检索意图的结果。因此,就需要为中小型网站提供一种检索优化方法,使其能为用户提供更加优质的检索服务。

目前,成熟的商用搜索引擎在用户检索意图研究方面颇有成果,已经提出的技术方案主要有以下几种:将用户查询意图分为导航类、信息类和事务类三种;通过分析用户搜索上下文猜测其检索意图;将查询结果分类后让用户粗略选择,并以此为依据对结果再提取;通过分析Web日志得到用户历史模型;通过分析浏览器的公共查询日志和用户个人查询活动来理解用户意图。对于中小型网站的优化,提出的技术有:基于缓冲、压缩编码等技术或思想的系统优化策略;站内优化策略和站外优化策略。这些方法都是对网站设计方案的研究。对于中小型网站的文本检索通常采用的检索模式是将用户输入的查询条件作为查询依据,仅以用户提交的关键词与数据库中的数据进行匹配,得到查询结果列表。

成熟的商用搜索引擎在用户检索意图研究方面提出的技术方案并未广泛应用于中小型网站的优化;对于中小型网站提出的技术方案都是对网站设计方案的研究。而针对中小型网站的文本检索所采用的检索模式仅以用户提交的关键词作为查询依据,较少考虑用户检索意图。一般情况下,用户只输入简短的词语作为查询条件,这样就导致在该检索模式下的检索结果滥而不准,用户则需要耗费更多的时间和精力去通过查看链接的详细信息来查找目标结果。

发明内容

本发明所要解决的技术问题是,针对现有技术不足,提供一种针对中小型网站的模块化用户检索意图建模方法。

为解决上述技术问题,本发明所采用的技术方案是:一种针对中小型网站的模块化用户检索意图建模方法,包括以下步骤:

1)将从用户与中小型网站服务器交互中提取的文本信息记为T,从文本T中提取初始关键词集K1={(ki,w1(ki))|1≤i≤R},其中,ki代表第i个关键词,R表示集合K1的元素个数,w1(ki)表示关键词ki的权重值,w1(ki)的值等于词语ki的交叉信息熵值TFIDF(ki),并计算关键词的词性因子权重p(ki)、词语ki在文本T中的频率freq(ki)和TFIDF(ki);

2)计算K1={(ki,w1(ki))|1≤i≤R}中各关键词的综合权重值w(ki),得到关键词集K2={(ki,w(ki))|1≤i≤R};ki的综合权重值计算公式如下:

w(ki)=a*F(ki)+b*P(ki)+c*S(ki)+d*L(ki)+e*TFIDF(ki);

其中,a、b、c、d、e分别为各特征权重的比例系数;F(ki)为词语ki的词频权重;S(ki)为词语ki的词跨度权重;L(ki)为词语ki的词位置权重;

3)对所述关键词集K2={(ki,w(ki))|1≤i≤R}进行遍历,从第i个关键词ki开始判断,将第i个之后的关键词kj依次与ki进行比较,其中i+1≤j≤R;若ki包含kj,且w(ki)>w(kj),则将ki加入到过滤后的关键词集中;否则,若kj包含ki,且w(kj)>w(ki),则将kj加入到过滤后的关键词集中;若上述两种情况都不满足,则将ki和kj都加入到过滤后的关键词集中,直到第i个之后的关键词全部和第i个比较完毕;当关键词集K2中的元素全部遍历一遍之后,结束,最后返回过滤后的关键词集K={(kr,w(kr))|1≤r≤M},其中M表示集合K中的元素个数;

4)按降序对集合K中关键词的综合权重值w(kr)排序,得到向量U=[w1,w2,…,wM],即为用户意图模型,其中w1,w2,…,wM分别对应排好序的K中关键词的综合权重值w(kr);

5)遍历文本的特征向量Ti=[wt1,wt2,…,wtM],依次判断wti是否为0,若不为0,则将用户意图模型U=[w1,w2,…,wM]中对应的wi除以1+wi,直到Ti中所有的元素遍历完成,将所求的wi/1+wi求和,得到一个值w_sum;再将用户意图模型U=[w1,w2,…,wM]中所有的wi除以1+wi,并求和,即最后将w_sum除以即得到用户意图模型与文本的特征向量Ti的加权海明距离dis(U,Ti);

6)利用以下公式计算U与Ti的最终相似度值Sim(U,Ti):

Sim(U,Ti)=p1*W(Ti,U)+p2*dis(U,Ti);

其中,p1、p2为比例系数;

7)将集合Ts中的所有文本按Sim(U,Ti)降序排列并返回给用户,从而实现基于用户意图检索的建模过程。

本发明中,a=1.5,b=1.1,c=0.8,d=1.0,e=0.8;p1=p2=1.0。

与现有技术相比,本发明所具有的有益效果为:本发明由于采用了基于结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法的用户意图检索模型,取得了不要求用户进行额外的反馈操作,在用户正常检索时可以实现用户意图的即时建模过程的进步,在不需要用户任何反馈的条件下,为用户推荐更满意的检索结果的效果,节省了用户查找目标结果的时间和精力,提高了用户查询的效率,以及使得目标结果更符合用户检索意图。

附图说明

图1为本发明基于用户意图检索系统流程图;

图2为本发明关键词提取过程;

图3为本发明模块包图。

具体实施方式

基于中小型网站网页结构简单的特点,本发明通过充分分析用户与服务器交互过程中的访问行为,从中挖掘出用户意图模型。该模型采用结合交互信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法。它首先从用户浏览的网页中提取出关键词集并建立意图模型。然后将新关键词集作为查询条件重新检索,最后对检索结果重新排序,从而为用户提供更加符合用户检索意图的结果。该方案不要求用户进行额外的反馈操作,在用户正常检索时可以实现用户意图的即时建模过程。其具体流程如附图中的图1。该技术实现方案包括三部分:关键词提取、结果集排序和系统模块化。

关键词提取部分采用结合交叉信息熵和词语特征信息的方法计算关键词权重,用户浏览网页可以反映其兴趣方向,因此,利用该网页中的文本信息建立用户意图模型。关键词提取过程如附图中的图2。

NLPIR分词系统在提取关键词采用的是交叉信息熵算法,较少考虑词语特征信息,本发明同时考虑词语特征信息和交叉信息熵来决定关键词权重。对于词的特征信息,考虑以下方面:(1)词频权重(2)词性因子权重(3)词位置权重(4)词跨度权重。具体定义如下:

(1)词频权重(F)

F(ki)=freq(ki)/(1+freq(ki))

其中,freq(ki)表示词语ki在T中的频率。

(2)词性因子权重(P)

(3)词位置权重(L)

(4)词跨度权重(S)

S(ki)=(last(ki)-first(ki))/N

其中,last(ki)、first(ki)分别表示词语ki最后一次和第一次出现在从用户与中小型网站服务器交互中提取的文本信息中的位置,N表示提取的文本信息分词后词语的总数。

关键词提取步骤如下。

第一步:利用网络爬虫将从用户与中小型网站服务器交互中提取的文本信息记为T,利用NLPIR分词系统从文本T中提取初始关键词集K1={(ki,w1(ki))|1≤i≤R},其中,ki代表第i个关键词,R表示集合K1的元素个数,w1(ki)表示关键词ki的权重值,w1(ki)的值等于词语ki的交叉信息熵值TFIDF(ki)。并保留由NLPIR系统分析计算得到的关键词的p(ki)、freq(ki)和TFIDF(ki)。

第二步:计算K1={(ki,w1(ki))|1≤i≤R}中各关键词的综合权重值w(ki),得到K2={(ki,w(ki))|1≤i≤R}。ki的综合权重值计算公式如下:

w(ki)=a*F(ki)+b*P(ki)+c*S(ki)+d*L(ki)+e*TFIDF(ki)

其中,a、b、c、d、e分别为各特征权重的比例系数,用来调节不同特征权重对于综合权重的重要程度,在此公式中,设置各比例系数为:a=1.5,b=1.1,c=0.8,d=1.0,e=0.8。TFIDF(ki)已由第一步计算得到。

第三步:为了消除同一关键词重复提取和父串子串共现问题,采用如下算法进行父串子串过滤:

对第二步计算所得的关键词集K2={(ki,w(ki))|1≤i≤R}进行遍历,从第i个关键词ki(1≤i≤R)开始判断,将第i个之后的关键词kj(i+1≤j≤R)依次与ki进行比较;若ki包含kj,且w(ki)>w(kj),则将ki加入到过滤后的关键词集中;否则,若kj包含ki,且w(kj)>w(ki),则将kj加入到过滤后的关键词集中;若上述两种情况都不满足,则将ki和kj都加入到过滤后的关键词集中,直到第i个之后的关键词全部和第i个比较完毕。当K2中的元素全部遍历一遍之后算法结束,最后返回过滤后的关键词集K={(kr,w(kr))|1≤r≤M},其中M表示集合K中的元素个数。

第四步:按降序对集合K中关键词的综合权重值w(kr)排序,得到向量U=[w1,w2,…,wM],即为用户意图模型,其中w1,w2,…,wM分别对应排好序的K中关键词的综合权重值w(kr)。

在结果集排序算法模型中,把利用关键词提取算法提取出的K中的Q(1≤Q≤M)个元素作为重新检索的条件在该搜索引擎中重新检索,得到Ts={ti|1≤i≤H},ti表示Ts中第i个文本信息,H表示Ts中文本个数,采用上述方法计算每个文本的特征向量Ti=[wt1,wt2,…,wtM]。然后采用余弦相似性与加权海明距离相结合的方法计算Ts中每个文本与U的相似度大小Sim(U,Ti)。Ti与U的余弦相似度计算公式如下:

由关键词提取部分得到的U中的特征值按降序排列,而余弦相似性方法未考虑不同关键词的重要性差异,因此,本发明采用加权海明距离算法来弥补该不足点。加权海明距离指按照关键词作用不同,在海明距离基础上添加合适的权值,然后对不同的关键词的权值进行求和计算。不同位置关键词的距离权值定义为:

本发明中计算两个文本空间向量的加权海明距离算法如下:

遍历文本的特征向量Ti=[wt1,wt2,…,wtM],依次判断wti是否为0,若不为0,则将用户意图模型U=[w1,w2,…,wM]中对应的wi除以1+wi,直到Ti中所有的元素遍历完成,将所求的wi/1+wi求和,得到一个值w_sum;再将用户意图模型U=[w1,w2,…,wM]中所有的wi除以1+wi,并求和,即最后将所得的w_sum除以即可得到用户意图模型与文本的特征向量Ti的加权海明距离dis(U,Ti)。

利用以下公式计算U与Ti的最终相似度值Sim(U,Ti):

Sim(U,Ti)=p1*W(Ti,U)+p2*dis(U,Ti)

其中,p1、p2为比例系数,并取p1=p2=1.0。

最后将集合Ts中的所有文本按Sim(U,Ti)降序排列并返回给用户,从而实现基于用户意图检索的建模过程。

对于系统模块化部分,由于不同的中小型网站采用不同的开发技术,且拥有各自的系统框架,如果将本发明的基于用户意图建模方法分别在不同的中小型网站实现,可能会导致大量的代码修改或增加。因此,本发明将该方法进行模块化处理,网站开发者只需进行少量配置和代码增加就可以实现中小型网站搜索性能的优化。模块化结构图如附图3。

利用该模块对中小型网站进行优化的步骤如下。

第一步:将mainpackage包和nlpir包放入工程中。

第二步:在工程中添加过滤器并在web.xml中配置。

第三步:新建一个web页面用于显示推荐结果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号