首页> 中国专利> 一种基于事件分析的Web新闻检索方法

一种基于事件分析的Web新闻检索方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明是一种基于事件分析的Web新闻检索方法，其步骤如下：设置事件项Q

著录项

公开/公告号CN102982163A

专利类型发明专利
公开/公告日2013-03-20

原文格式PDF
申请/专利权人淮海工学院;
展开▼

申请/专利号CN201210519606.7
发明设计人仲兆满;李存华;管燕;
展开▼

申请日2012-11-29
分类号G06F17/30;
代理机构南京众联专利代理有限公司;
代理人刘喜莲
地址 222000 江苏省连云港市新浦区苍梧路59号淮海工学院计算机学院仲兆满转
入库时间 2024-02-19 17:47:45

法律信息

法律状态公告日

法律状态信息

法律状态
2015-06-03

授权

授权
2013-04-17

实质审查的生效 IPC(主分类):G06F17/30 申请日:20121129

实质审查的生效
2013-03-20

公开

公开

说明书

技术领域

本发明属于信息检索领域，具体地说是涉及一种基于事件分析的Web新闻检索方法。

背景技术

由于现实中的事件在互联网上都有明显的反映，互联网上存在着大量的面向事件的Web新闻报道。借助搜索引擎从互联网上获取事件相关信息已经是用户的迫切需求。但由于互联网上的信息急剧膨胀，通用搜索引擎返回的结果往往是信息量大、查询不准确。用户在输入某个关键字后，搜索到的有用信息并不多，对事件类信息的检索更是如此。

事件检索指针对用户输入的事件查询关键字，获取相关信息或者精准的答案。TDT与事件检索有着一定的联系，其主旨是基于事件对信息流进行组织和利用。其研究方向主要是未知话题的识别及已知话题的跟踪，话题跟踪经常提供若干篇新闻报道为种子，利用相关算法自动将后续相关新闻报道检测加入到已知话题中。

国内外关于事件检索的研究成果不多，与事件检索密切相关的工作主要有：在2012年加拿大出版的会议论文集：2012年北美计算语言学-人类语言技术会议(Proceedings of 2012Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies)，题目为：微博信息的结构化事件检索(Structured event retrieval over microblog archives)，作者是：D.Metzler，C.X.Cai，and E.Hovy，该文提出了微博上的结构事件检索方法，对于一个事件查询，返回的结果是历史事件的摘要排序，主要包括查询扩展及摘要生成两个核心步骤。在2010年德国出版的期刊：软计算(Soft Computing)，题目为：面向历史事件检索的Web模糊时间信息推理(Reasoning about fuzzy temporal information from the web：towards retrieval of historical events)，作者是：S.Steven，D.C.Martine，and E.K.Etienn，该文针对历史事件检索的时间约束，使用了简单的启发式技术支持从Web文档中获取事件的时间信息，提出使用模糊时间推理算法改善抽取时间的可靠性。在2003年中国出版的期刊：中文信息学报，题目为：基于事件框架的事件相关文档的智能检索研究，作者是：吴平博，陈群秀，马亮，该文以某事件的几篇报道为检索条件，在聚类的基础上手工对事件框架的侧面词进行整理，并将事件框架的知识用到事件相关文档的检索中。在2011年中国出版的期刊：华南理工大学学报(自然科学版)，题目为：融合事件信息的复杂问句分析方法，作者是：刘小明，樊孝忠，刘里，该文提出一种融合事件信息的复杂问句分析方法，将事件视为由多个要素构成的复杂数据对象，利用事件抽取技术获取复杂问句中若干事件，用多个事件语义模型实例表征整个复杂问句的语义信息。

但已有的Web新闻检索方法没有分析查询内容中不同的查询项的作用，没能使用Web新闻的结构特征，没有考虑查询项之间的距离，因此，对一些事件类信息的检索结果的准确率不高，不能满足实际应用的需求。

发明内容

本发明所要解决的技术问题是针对现有技术存在的问题和不足，提供一种方法设计更为合理、可以有效地提高Web新闻检索的准确率的基于事件分析的Web新闻检索方法。

本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于事件分析的Web新闻检索方法，其具体步骤如下：

A.在查询框中输入事件项Q_e和约束项Q_c两部分，得到查询项Q＝{Q_e，Q_c}；

B.选取一篇Web新闻d_i的标题T、首段FP和末段LP三个部分表示d_i， d_i＝{T，FP，LP}，其具体步骤如下：

B1.提取Web新闻HTML源码中的<title>和</title>两标签的中间部分作为 d_i的标题T；

B2.提取Web新闻正文部分的第一段作为d_i的首段FP；

B3.提取Web新闻正文部分的最后一段作为d_i的末段LP，得到Web新闻的三个部分d_i＝{T，FP，LP}；

C.计算d_i＝{T，FP，LP}中各个部分特征项的权重，其具体步骤如下：

C1.假设事件项Q_e＝{a₂}，a₂表示事件的动作要素，约束项Q_c＝{t，l，o，a₁}， t，l，o，a₁分别表示事件的时间、地点、对象及动作要素，它们在新闻d_i的 T，FP，LP各个部分出现的次数记为一个矩阵，TF(a₁，T)表示a₁在T中出现的次数，其他类推，得到结果为：

$(\begin{matrix} TF (a_{1}, T) & TF (a_{1}, FP) & TF (a_{1}, LP) \\ TF (a_{2}, T) & TF (a_{2}, FP) & TF (a_{2}, LP) \\ TF (t, T) & TF (t, FP) & TF (t, LP) \\ TF (o, T) & TF (o, FP) & TF (o, LP) \\ TF (l, T) & TF (l, FP) & TF (l, LP) \end{matrix})$

C2.在事件的四要素中，动作要素是必不可少的，其他几个要素因不同的事件而有不同的差异，给事件动作要素赋以更高的权重，得到结果为：

$[α, α, 1,1,1] \times (\begin{matrix} TF (a_{1}, T) & TF (a_{1}, FP) & TF (a_{1}, LP) \\ TF (a_{2}, T) & TF (a_{2}, FP) & TF (a_{2}, LP) \\ TF (t, T) & TF (t, FP) & TF (t, LP) \\ TF (o, T) & TF (o, FP) & TF (o, LP) \\ TF (l, T) & TF (l, FP) & TF (l, LP) \end{matrix})$

其中，α＞1，α表示权重系数；

C3.在新闻d_i的T，FP，LP三个项中，标题T中的特征项最为重要，FP，LP 两项中的特征项的重要性认为相同；给标题T中出现的特征词赋以更高的权重，得到结果为：

其中，β＞1，β表示权重系数；

D.设置查询项Q中特征项的权重为1；

E.计算查询项Q和新闻d_i的相关度为R(Q，d_i)，依据相关度R(Q，d_i)的大小降序排列输出检索结果，其具体步骤如下：

E1.计算事件查询项间的距离，以Web新闻d_i的FP项为例，将FP分词后， Q_c＝{t，l，o，a₁}和Q_e＝{a₂}在FP中出现的位置依次记为pos(t，FP)、pos(l，FP)、 pos(o，FP)、pos(a₁，FP)和pos(a₂，FP)；t与a₁之间的距离记为

dis(t，a₁)＝|pos(t，FP)-pos(a₁，FP)|，t，l，o与a₁的距离之和为

$\underset{x \in {t, l, o}}{Σ} | pos (x, FP) - pos (a_{1}, FP) |,$ a₁与a₂的距离为：

dis(a₁，a₂)＝|pos(a₁，FP)-pos(a₂，FP)|，那么FP中，t，l，o，a₁与a₂的距离之为：

$Dis (FP) = \underset{x \in {t, l, o}}{Σ} | pos (x, FP) - pos (a_{1}, FP) | + | pos (a_{1}, FP) - pos (a_{2}, FP) |$

E2.如果同一个事件动作要素a在文本中多次出现，其他要素与其距离取最小值；

E3.Web新闻d_i的T，FP，LP三个部分中，事件查询项的距离之和为：s

Dis(d_i)＝Dis(T)+Dis(FP)+Dis(LP)

E4.由步骤C3可知，初始的查询项Q与文档d_i的相关度计算方法如下：

R′(Q，d_i)＝TF(a₁，T)×α×β+TF(a₂，T)×α×β+TF(t，T)+TF(o，T)+TF(l，T)

+TF(a₁，FP)×α+TF(a₂，FP)×α+TF(t，FP)+TF(o，FP)+TF(l，FP)

+TF(a₁，LP)×α+TF(a₂，LP)×α+TF(t，LP)+TF(o，LP)+TF(l，LP)

E5.考虑到相关度与事件查询项之间的距离成反比，得到最终的查询项Q 与文档d_i的相关度为：

$R (Q, d_{i}) = R^{'} (Q, d_{i}) \times \frac{1}{{\log_{2}}^{Dis (d_{i})}}$

E6.按照相似度R(Q，d_i)的大小降序排列输出检索结果。

本发明的基于事件分析的Web新闻检索方法与现有技术相比较，具有以下效果：该方法区分查询内容中的事件项和约束项，选取Web新闻的标题、首段及末段表示Web新闻，结合事件的动作要素、Web新闻标题的重要性及事件项与约束项之间的距离，提出了事件查询项与新闻相关性的计算方法；该方法显著的提高了事件类Web新闻检索结果的准确率。

附图说明

图1是本发明的基于事件分析的Web新闻检索方法的流程图；

图2是图1中步骤105所述的计算查询项与Web新闻的相关度的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。

实施例1，一种基于事件分析的Web新闻检索方法，具体步骤如下：

A.在查询框中输入事件项Q_e和约束项Q_c两部分，得到查询项Q＝{Q_e，Q_c}；

B.选取一篇Web新闻d_i的标题T、首段FP和末段LP三个部分表示d_i，d_i＝{T，FP，LP}，其具体步骤如下：

B1.提取Web新闻HTML源码中的<title>和</title>两标签的中间部分作为 d_i的标题(T)；

B2.提取Web新闻正文部分的第一段作为d_i的首段(FP)；

B3.提取Web新闻正文部分的最后一段作为d_i的末段(LP)，得到Web新闻的三个部分d_i＝{T，FP，LP}；

C.计算d_i＝{T，FP，LP}中各个部分特征项的权重，其具体步骤如下：

C1.假设事件项Q_e＝{a₂}，约束项Q_c＝{t，l，o，a₁}，它们在新闻d_i的T，FP，LP 各个部分出现的次数记为一个矩阵，TF(a₁，T)表示a₁在T中出现的次数，其他类推，得到结果为：

C2.在事件的四要素中，动作要素是必不可少的，其他几个要素因不同的事件而有不同的差异，给事件动作要素赋以更高的权重，得到结果为：

其中，α＞1；

其中，β＞1；

D.设置查询项Q中特征项的权重为1；

E.计算查询项Q和新闻d_i的相关度为R(Q，d_i)，依据相关度R(Q，d_i)的大小降序排列输出检索结果，其具体步骤如下：

E1.计算事件查询项间的距离，以Web新闻d_i的FP项为例，将FP分词后， Q_c＝{t，l，o，a₁}和Q_e＝{a₂}在FP中出现的位置依次记为pos(t，FP)、pos(l，FP)、 pos(o，FP)、pos(a₁，FP)和pos(a₂，FP)；t与a₁之间的距离记为 dis(t，a₁)＝|pos(t，FP)-pos(a₁，FP)|，t，l，o与a₁的距离之和为 $\underset{x \in {t, l, o}}{Σ} | pos (x, FP) - pos (a_{1}, FP) |,$ a₁与a₂的距离为： dis(a₁，a₂)＝|pos(a₁，FP)-pos(a₂，FP)|，那么FP中，t，l，o，a₁与a₂的距离之为：

$Dis (FP) = \underset{x \in {t, l, o}}{Σ} | pos (x, FP) - pos (a_{1}, FP) | + | pos (a_{1}, FP) - pos (a_{2}, FP) |$

E2.如果同一个事件动作要素a在文本中多次出现，其他要素与其距离取最小值；

E3.Web新闻d_i的T，FP，LP三个部分中，事件查询项的距离之和为：s

Dis(d_i)＝Dis(T)+Dis(FP)+Dis(LP)

E4.由步骤C3可知，初始的查询项Q与文档d_i的相关度计算方法如下：

R′(Q，d_i)＝TF(a₁，T)×α×β+TF(a₂，T)×α×β+TF(t，T)+TF(o，T)+TF(l，T)

+TF(a₁，FP)×α+TF(a₂，FP)×α+TF(t，FP)+TF(o，FP)+TF(l，FP)

+TF(a₁，LP)×α+TF(a₂，LP)×α+TF(t，LP)+TF(o，LP)+TF(l，LP)

E5.考虑到相关度与事件查询项之间的距离成反比，得到最终的查询项Q 与文档d_i的相关度为：

$R (Q, d_{i}) = R^{'} (Q, d_{i}) \times \frac{1}{{\log_{2}}^{Dis (d_{i})}}$

E6.按照相似度R(Q，d_i)的大小降序排列输出检索结果。

实施例2，参照图1，一种基于事件分析的Web新闻检索方法应用实验，该方法包括如下步骤：

步骤101、输入事件项Q_e及约束项Q_c，得到查询项Q＝{Q_e，Q_c}，其具体如下：

A1、设置事件项和限定项两类输入框，在指定的输入框中输入查询内容；

A2、事件表示为四元组e＝{t，l，o，a}，t表示时间，l表示地点，o表示对象，a表示动作，事件项Q_e＝{a₁，a₂，…，a_m}，一般的查询项都包含一个事件项，即m＝1，约束项Q_c＝{t，l，o，a₁，a₂，…，a_n}，约束项是t、l、o，或者是其他事件 a_i，一般的查询项都包含0-2个事件约束项。比如， Q_c＝{″2008″，″汶川″，″地震″}，Q_e＝{″死亡″}，则查询项 Q＝{″2008汶川地震死亡″}，其中“2008”是时间约束项，“汶川”是地点约束项，“地震”是动作约束项，“死亡”是事件项。

步骤102、选取Web新闻d_i的标题(T)、首段(FP)和末段(LP)表示一篇Web新闻d_i，其具体如下：

B1、提取Web新闻HTML源码中的<title>和</title>两标签的中间部分作为d_i的标题(T)；

B2、提取Web新闻正文部分的第一段作为d_i的首段(FP)；

B3、提取Web新闻正文部分的最后一段作为d_i的末段(LP)，得到Web新闻的三个部分d_i＝{T，FP，LP}。

步骤103、计算Web新闻d_i＝{T，FP，LP}各个部分特征项的权重，其具体如下：

C1、假设查询项Q的事件项Q_e＝{a₂}，约束项Q_c＝{t，l，o，a₁}，它们在新闻 d_i的T，FP，LP各个部分出现的次数记为一个矩阵，TF(a₁，T)表示a₁在T中出现的次数，其他类推，得到结果见式(1)：

C2、在事件的四要素中，动作要素是必不可少的，缺少动作要素就不能表征具体的事件，其他几个要素因不同的事件而有不同的差异，给事件动作要素赋以更高的权重，得到结果见式(2)：

式(2)中显然α＞1。

C3、在新闻d_i的T，FP，LP三个项中，标题T中的特征项最为重要，FP，LP 两项中的特征项的重要性认为相同。给标题T中出现的特征项赋以更高的权重，得到结果见式(3)：

式(3)中显然β＞1。

步骤104、设置查询项中特征项的权重为1，其具体如下：

D1、设置事件项Q_e中的各个特征项的权重为1；

D2、设置约束项Q_c中的各个特征项的的权重为1。

步骤105、计算查询项与Web新闻的相关度，按照相关度的大小降序输出检索结果，参照图2，其具体步骤如下：

步骤201、计算事件查询项间的距离。以web新闻d_i的FP项为例，将FP分词后，Q_c＝{t，l，o，a₁}和Q_e＝{a₂}在FP中出现的位置依次记为pos(t，FP)、 pos(l，FP)、pos(o，FP)、pos(a₁，FP)和pos(a₂，FP)。t与a₁之间的距离记为 dis(t，a₁)＝|pos(t，FP)-pos(a₁，FP)|，t，l，o与a₁的距离之和为

$\underset{x \in {t, l, o}}{Σ} | pos (x, FP) - pos (a_{1}, FP) |,$ a₁与a₂的距离为：

dis(a₁，a₂)＝|pos(a₁，FP)-pos(a₂，FP)|，那么FP中，t，l，o，a₁与a₂的距离之和见式(4)：

$Dis (FP) = \underset{x \in {t, l, o}}{Σ} | pos (x, FP) - pos (a_{1}, FP) | + | pos (a_{1}, FP) - pos (a_{2}, FP) | - - - (4)$

步骤202、如果同一个事件动作要素在文本中多次出现，其他要素与其距离取最小值。比如，同一事件动作要素a_i，a_j在文本中出现了两次，一对象约束要素o在文本中出现了1次，位置依次记为pos(o，FP)、pos(a_i，FP)、 pos(a_j，FP)，则o与a的距离为：dis(o，a)＝min{dis(o，a_i)，dis(o，a_j)}。

步骤203、计算Web新闻三个部分的事件查询项的距离之和。Web新闻d_i的 T，FP，LP三个部分中，事件查询项的距离之和见式(5)：

Dis(d_i)＝Dis(T)+Dis(FP)+Dis(LP) (5)

步骤204、计算事件查询项与Web新闻的相关度。由步骤C3可知，初始的查询项Q与文档d_i的相关度计算方法如下：

R′(Q，d_i)＝TF(a₁，T)×α×β+TF(a₂，T)×α×β+TF(t，T)+TF(o，T)+TF(l，T)

+TF(a₁，FP)×α+TF(a₂，FP)×α+TF(t，FP)+TF(o，FP)+TF(l，FP)(6)

+TF(a₁，LP)×α+TF(a₂，LP)×α+TF(t，LP)+TF(o，LP)+TF(l，LP)

考虑到相关度与事件查询项之间的距离成反比，得到最终的查询项Q与文档d_i的相关度计算方法如式(7)所示：

$R (Q, d_{i}) = R^{'} (Q, d_{i}) \times \frac{1}{{\log_{2}}^{Dis (d_{i})}} - - - (7)$

Dis(d_i)取对数是为了减少距离大小对相关度平滑性的影响。

步骤205、按照相关度R(Q，d_i)的大小降序排列输出检索结果。

本发明的一种基于事件分析的Web新闻检索方法(简记作M1)与基于百度搜索引擎直接获取返回结果的方法(简记作M2)在信息检索的准确率的效果上进行了实验比较。

基于百度搜索引擎制定了10个事件查询项，每个查询项由约束项和事件项组成，详见表1。在百度搜索框中分别输入每个查询项，选百度新闻类别后，对每个事件查询项取返回的前10000条新闻作为实验语料，如果返回的新闻少于10000条则取实际返回的新闻条数。

表1.10个事件查询项

实验结果的评价采用Pn，Pn指标模拟了常用搜索引擎返回的结果，是一个拟人化的指标，目前的搜索评测中用的较多。Pn指标只关心检索到的结果与查询项是否相关，不考虑返回的文本与查询项相关性的次序，评测起来容易实现。本文选用了P10和P20两个指标由人工对返回的结果进行评判。

对表1设计的10个事件查询项，得到的最终的结果如表2所示。

表2.10个事件查询项得到的实验结果

由表2可见，对于10个事件查询项，方法M₁得到的平均P10＝0.86，平均P20＝0.81，获取的检索结果是非常理想的，能满足用户获取事件类信息的需求。方法M₂得到的平均P10＝0.27，平均p20＝0.225，获取的检索结果比较差，根本不能满足用户的需求。方法M₁与方法M₂比较，信息检索的准确率有了大幅度提升，平均P10指标提高了0.59，平均P20指标提高了0.585。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于事件分析的Web新闻检索方法 [P] . 中国专利： CN102982163B . 2015.06.03
2. 一种组合新闻分析基于多篇资讯的内容检索方法 [P] . 中国专利： CN107066461A . 2017-08-18
3. NEWS TRACKER AND ANALYSIS SERVICE BASED ON WEB PERSONALIZATION [P] . 韩国专利： KR20020014026A . 2002-02-25

机译：基于Web个性化的新闻跟踪与分析服务
4. APPARATUS FOR PROVIDING BIGDATA ANALYING RESULT AND MANEGEMENT INFORMATION BASED ON WEB BROWSER EVENT [P] . KR102298999B1 . 2021-09-07

机译：基于Web浏览器事件提供大数据分析结果和管理信息的装置
5. APPARATUS FOR PROVIDING BIGDATA ANALYING RESULT AND MANEGEMENT INFORMATION BASED ON WEB BROWSER EVENT [P] . 韩国专利： KR20200092297A . 2020-08-03

机译：基于Web浏览器事件提供大数据分析结果和管理信息的装置