法律状态公告日
法律状态信息
法律状态
2015-06-03
授权
授权
2013-04-17
实质审查的生效 IPC(主分类):G06F17/30 申请日:20121129
实质审查的生效
2013-03-20
公开
公开
技术领域
本发明属于信息检索领域,具体地说是涉及一种基于事件分析的Web新 闻检索方法。
背景技术
由于现实中的事件在互联网上都有明显的反映,互联网上存在着大量的 面向事件的Web新闻报道。借助搜索引擎从互联网上获取事件相关信息已经 是用户的迫切需求。但由于互联网上的信息急剧膨胀,通用搜索引擎返回的 结果往往是信息量大、查询不准确。用户在输入某个关键字后,搜索到的有 用信息并不多,对事件类信息的检索更是如此。
事件检索指针对用户输入的事件查询关键字,获取相关信息或者精准的 答案。TDT与事件检索有着一定的联系,其主旨是基于事件对信息流进行组 织和利用。其研究方向主要是未知话题的识别及已知话题的跟踪,话题跟踪 经常提供若干篇新闻报道为种子,利用相关算法自动将后续相关新闻报道检 测加入到已知话题中。
国内外关于事件检索的研究成果不多,与事件检索密切相关的工作主要 有:在2012年加拿大出版的会议论文集:2012年北美计算语言学-人类语言 技术会议(Proceedings of 2012Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies),题目为:微博信息的结构化事件检索(Structured event retrieval over microblog archives),作者是:D.Metzler,C.X.Cai,and E.Hovy,该文提出了微博上的结构事件检索方法,对于一个事件查询,返回 的结果是历史事件的摘要排序,主要包括查询扩展及摘要生成两个核心步骤。 在2010年德国出版的期刊:软计算(Soft Computing),题目为:面向历史 事件检索的Web模糊时间信息推理(Reasoning about fuzzy temporal information from the web:towards retrieval of historical events), 作者是:S.Steven,D.C.Martine,and E.K.Etienn,该文针对历史事 件检索的时间约束,使用了简单的启发式技术支持从Web文档中获取事件的 时间信息,提出使用模糊时间推理算法改善抽取时间的可靠性。在2003年中 国出版的期刊:中文信息学报,题目为:基于事件框架的事件相关文档的智 能检索研究,作者是:吴平博,陈群秀,马亮,该文以某事件的几篇报道为检 索条件,在聚类的基础上手工对事件框架的侧面词进行整理,并将事件框架 的知识用到事件相关文档的检索中。在2011年中国出版的期刊:华南理工大 学学报(自然科学版),题目为:融合事件信息的复杂问句分析方法,作者是: 刘小明,樊孝忠,刘里,该文提出一种融合事件信息的复杂问句分析方法,将 事件视为由多个要素构成的复杂数据对象,利用事件抽取技术获取复杂问句 中若干事件,用多个事件语义模型实例表征整个复杂问句的语义信息。
但已有的Web新闻检索方法没有分析查询内容中不同的查询项的作用, 没能使用Web新闻的结构特征,没有考虑查询项之间的距离,因此,对一些 事件类信息的检索结果的准确率不高,不能满足实际应用的需求。
发明内容
本发明所要解决的技术问题是针对现有技术存在的问题和不足,提供一 种方法设计更为合理、可以有效地提高Web新闻检索的准确率的基于事件分 析的Web新闻检索方法。
本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是 一种基于事件分析的Web新闻检索方法,其具体步骤如下:
A.在查询框中输入事件项Qe和约束项Qc两部分,得到查询项Q={Qe,Qc};
B.选取一篇Web新闻di的标题T、首段FP和末段LP三个部分表示di, di={T,FP,LP},其具体步骤如下:
B1.提取Web新闻HTML源码中的<title>和</title>两标签的中间部分作为 di的标题T;
B2.提取Web新闻正文部分的第一段作为di的首段FP;
B3.提取Web新闻正文部分的最后一段作为di的末段LP,得到Web新闻 的三个部分di={T,FP,LP};
C.计算di={T,FP,LP}中各个部分特征项的权重,其具体步骤如下:
C1.假设事件项Qe={a2},a2表示事件的动作要素,约束项Qc={t,l,o,a1}, t,l,o,a1分别表示事件的时间、地点、对象及动作要素,它们在新闻di的 T,FP,LP各个部分出现的次数记为一个矩阵,TF(a1,T)表示a1在T中出现的次 数,其他类推,得到结果为:
C2.在事件的四要素中,动作要素是必不可少的,其他几个要素因不同的 事件而有不同的差异,给事件动作要素赋以更高的权重,得到结果为:
其中,α>1,α表示权重系数;
C3.在新闻di的T,FP,LP三个项中,标题T中的特征项最为重要,FP,LP 两项中的特征项的重要性认为相同;给标题T中出现的特征词赋以更高的权 重,得到结果为:
其中,β>1,β表示权重系数;
D.设置查询项Q中特征项的权重为1;
E.计算查询项Q和新闻di的相关度为R(Q,di),依据相关度R(Q,di)的大 小降序排列输出检索结果,其具体步骤如下:
E1.计算事件查询项间的距离,以Web新闻di的FP项为例,将FP分词后, Qc={t,l,o,a1}和Qe={a2}在FP中出现的位置依次记为pos(t,FP)、pos(l,FP)、 pos(o,FP)、pos(a1,FP)和pos(a2,FP);t与a1之间的距离记为
dis(t,a1)=|pos(t,FP)-pos(a1,FP)|,t,l,o与a1的距离之和为
dis(a1,a2)=|pos(a1,FP)-pos(a2,FP)|,那么FP中,t,l,o,a1与a2的距离之为:
E2.如果同一个事件动作要素a在文本中多次出现,其他要素与其距离取 最小值;
E3.Web新闻di的T,FP,LP三个部分中,事件查询项的距离之和为:s
Dis(di)=Dis(T)+Dis(FP)+Dis(LP)
E4.由步骤C3可知,初始的查询项Q与文档di的相关度计算方法如下:
R′(Q,di)=TF(a1,T)×α×β+TF(a2,T)×α×β+TF(t,T)+TF(o,T)+TF(l,T)
+TF(a1,FP)×α+TF(a2,FP)×α+TF(t,FP)+TF(o,FP)+TF(l,FP)
+TF(a1,LP)×α+TF(a2,LP)×α+TF(t,LP)+TF(o,LP)+TF(l,LP)
E5.考虑到相关度与事件查询项之间的距离成反比,得到最终的查询项Q 与文档di的相关度为:
E6.按照相似度R(Q,di)的大小降序排列输出检索结果。
本发明的基于事件分析的Web新闻检索方法与现有技术相比较,具有以 下效果:该方法区分查询内容中的事件项和约束项,选取Web新闻的标题、 首段及末段表示Web新闻,结合事件的动作要素、Web新闻标题的重要性及 事件项与约束项之间的距离,提出了事件查询项与新闻相关性的计算方法; 该方法显著的提高了事件类Web新闻检索结果的准确率。
附图说明
图1是本发明的基于事件分析的Web新闻检索方法的流程图;
图2是图1中步骤105所述的计算查询项与Web新闻的相关度的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描 述。
实施例1,一种基于事件分析的Web新闻检索方法,具体步骤如下:
A.在查询框中输入事件项Qe和约束项Qc两部分,得到查询项Q={Qe,Qc};
B.选取一篇Web新闻di的标题T、首段FP和末段LP三个部分表示di,di={T,FP,LP},其具体步骤如下:
B1.提取Web新闻HTML源码中的<title>和</title>两标签的中间部分作为 di的标题(T);
B2.提取Web新闻正文部分的第一段作为di的首段(FP);
B3.提取Web新闻正文部分的最后一段作为di的末段(LP),得到Web新 闻的三个部分di={T,FP,LP};
C.计算di={T,FP,LP}中各个部分特征项的权重,其具体步骤如下:
C1.假设事件项Qe={a2},约束项Qc={t,l,o,a1},它们在新闻di的T,FP,LP 各个部分出现的次数记为一个矩阵,TF(a1,T)表示a1在T中出现的次数,其他 类推,得到结果为:
C2.在事件的四要素中,动作要素是必不可少的,其他几个要素因不同的 事件而有不同的差异,给事件动作要素赋以更高的权重,得到结果为:
其中,α>1;
C3.在新闻di的T,FP,LP三个项中,标题T中的特征项最为重要,FP,LP 两项中的特征项的重要性认为相同;给标题T中出现的特征词赋以更高的权 重,得到结果为:
其中,β>1;
D.设置查询项Q中特征项的权重为1;
E.计算查询项Q和新闻di的相关度为R(Q,di),依据相关度R(Q,di)的大 小降序排列输出检索结果,其具体步骤如下:
E1.计算事件查询项间的距离,以Web新闻di的FP项为例,将FP分词后, Qc={t,l,o,a1}和Qe={a2}在FP中出现的位置依次记为pos(t,FP)、pos(l,FP)、 pos(o,FP)、pos(a1,FP)和pos(a2,FP);t与a1之间的距离记为 dis(t,a1)=|pos(t,FP)-pos(a1,FP)|,t,l,o与a1的距离之和为
E2.如果同一个事件动作要素a在文本中多次出现,其他要素与其距离取 最小值;
E3.Web新闻di的T,FP,LP三个部分中,事件查询项的距离之和为:s
Dis(di)=Dis(T)+Dis(FP)+Dis(LP)
E4.由步骤C3可知,初始的查询项Q与文档di的相关度计算方法如下:
R′(Q,di)=TF(a1,T)×α×β+TF(a2,T)×α×β+TF(t,T)+TF(o,T)+TF(l,T)
+TF(a1,FP)×α+TF(a2,FP)×α+TF(t,FP)+TF(o,FP)+TF(l,FP)
+TF(a1,LP)×α+TF(a2,LP)×α+TF(t,LP)+TF(o,LP)+TF(l,LP)
E5.考虑到相关度与事件查询项之间的距离成反比,得到最终的查询项Q 与文档di的相关度为:
E6.按照相似度R(Q,di)的大小降序排列输出检索结果。
实施例2,参照图1,一种基于事件分析的Web新闻检索方法应用实验, 该方法包括如下步骤:
步骤101、输入事件项Qe及约束项Qc,得到查询项Q={Qe,Qc},其具体 如下:
A1、设置事件项和限定项两类输入框,在指定的输入框中输入查询内容;
A2、事件表示为四元组e={t,l,o,a},t表示时间,l表示地点,o表示对 象,a表示动作,事件项Qe={a1,a2,…,am},一般的查询项都包含一个事件项, 即m=1,约束项Qc={t,l,o,a1,a2,…,an},约束项是t、l、o,或者是其他事件 ai,一般的查询项都包含0-2个事件约束项。比如, Qc={″2008″,″汶川″,″地震″},Qe={″死亡″},则查询项 Q={″2008汶川地震死亡″},其中“2008”是时间约束项,“汶川”是地点 约束项,“地震”是动作约束项,“死亡”是事件项。
步骤102、选取Web新闻di的标题(T)、首段(FP)和末段(LP)表示一 篇Web新闻di,其具体如下:
B1、提取Web新闻HTML源码中的<title>和</title>两标签的中间部分作 为di的标题(T);
B2、提取Web新闻正文部分的第一段作为di的首段(FP);
B3、提取Web新闻正文部分的最后一段作为di的末段(LP),得到Web新 闻的三个部分di={T,FP,LP}。
步骤103、计算Web新闻di={T,FP,LP}各个部分特征项的权重,其具体如 下:
C1、假设查询项Q的事件项Qe={a2},约束项Qc={t,l,o,a1},它们在新闻 di的T,FP,LP各个部分出现的次数记为一个矩阵,TF(a1,T)表示a1在T中出现 的次数,其他类推,得到结果见式(1):
C2、在事件的四要素中,动作要素是必不可少的,缺少动作要素就不能表 征具体的事件,其他几个要素因不同的事件而有不同的差异,给事件动作要 素赋以更高的权重,得到结果见式(2):
式(2)中显然α>1。
C3、在新闻di的T,FP,LP三个项中,标题T中的特征项最为重要,FP,LP 两项中的特征项的重要性认为相同。给标题T中出现的特征项赋以更高的权 重,得到结果见式(3):
式(3)中显然β>1。
步骤104、设置查询项中特征项的权重为1,其具体如下:
D1、设置事件项Qe中的各个特征项的权重为1;
D2、设置约束项Qc中的各个特征项的的权重为1。
步骤105、计算查询项与Web新闻的相关度,按照相关度的大小降序输出 检索结果,参照图2,其具体步骤如下:
步骤201、计算事件查询项间的距离。以web新闻di的FP项为例,将FP分 词后,Qc={t,l,o,a1}和Qe={a2}在FP中出现的位置依次记为pos(t,FP)、 pos(l,FP)、pos(o,FP)、pos(a1,FP)和pos(a2,FP)。t与a1之间的距离记为 dis(t,a1)=|pos(t,FP)-pos(a1,FP)|,t,l,o与a1的距离之和为
dis(a1,a2)=|pos(a1,FP)-pos(a2,FP)|,那么FP中,t,l,o,a1与a2的距离之和 见式(4):
步骤202、如果同一个事件动作要素在文本中多次出现,其他要素与其距 离取最小值。比如,同一事件动作要素ai,aj在文本中出现了两次,一对象约 束要素o在文本中出现了1次,位置依次记为pos(o,FP)、pos(ai,FP)、 pos(aj,FP),则o与a的距离为:dis(o,a)=min{dis(o,ai),dis(o,aj)}。
步骤203、计算Web新闻三个部分的事件查询项的距离之和。Web新闻di的 T,FP,LP三个部分中,事件查询项的距离之和见式(5):
Dis(di)=Dis(T)+Dis(FP)+Dis(LP) (5)
步骤204、计算事件查询项与Web新闻的相关度。由步骤C3可知,初始 的查询项Q与文档di的相关度计算方法如下:
R′(Q,di)=TF(a1,T)×α×β+TF(a2,T)×α×β+TF(t,T)+TF(o,T)+TF(l,T)
+TF(a1,FP)×α+TF(a2,FP)×α+TF(t,FP)+TF(o,FP)+TF(l,FP)(6)
+TF(a1,LP)×α+TF(a2,LP)×α+TF(t,LP)+TF(o,LP)+TF(l,LP)
考虑到相关度与事件查询项之间的距离成反比,得到最终的查询项Q与 文档di的相关度计算方法如式(7)所示:
Dis(di)取对数是为了减少距离大小对相关度平滑性的影响。
步骤205、按照相关度R(Q,di)的大小降序排列输出检索结果。
本发明的一种基于事件分析的Web新闻检索方法(简记作M1)与基于 百度搜索引擎直接获取返回结果的方法(简记作M2)在信息检索的准确率的 效果上进行了实验比较。
基于百度搜索引擎制定了10个事件查询项,每个查询项由约束项和事件 项组成,详见表1。在百度搜索框中分别输入每个查询项,选百度新闻类别后, 对每个事件查询项取返回的前10000条新闻作为实验语料,如果返回的新闻 少于10000条则取实际返回的新闻条数。
表1.10个事件查询项
实验结果的评价采用Pn,Pn指标模拟了常用搜索引擎返回的结果, 是一个拟人化的指标,目前的搜索评测中用的较多。Pn指标只关心检索到 的结果与查询项是否相关,不考虑返回的文本与查询项相关性的次序,评测 起来容易实现。本文选用了P10和P20两个指标由人工对返回的结果进 行评判。
对表1设计的10个事件查询项,得到的最终的结果如表2所示。
表2.10个事件查询项得到的实验结果
由表2可见,对于10个事件查询项,方法M1得到的平均P10=0.86, 平均P20=0.81,获取的检索结果是非常理想的,能满足用户获取事件类信 息的需求。方法M2得到的平均P10=0.27,平均p20=0.225,获取的检索 结果比较差,根本不能满足用户的需求。方法M1与方法M2比较,信息检索 的准确率有了大幅度提升,平均P10指标提高了0.59,平均P20指标提 高了0.585。
机译: 基于Web个性化的新闻跟踪与分析服务
机译: 基于Web浏览器事件提供大数据分析结果和管理信息的装置
机译: 基于Web浏览器事件提供大数据分析结果和管理信息的装置