首页> 中文学位 >Web新闻发表时间在线抽取方法研究
【6h】

Web新闻发表时间在线抽取方法研究

代理获取

目录

声明

致谢

摘要

第一章 绪论

1.1 研究背景、目的及意义

1.2.1 课题来源

1.2.2 本文研究思路和主要研究内容

1.2.3 内容组织

1.3 本章小结

第二章 网页时间抽取相关研究综述

2.1 相关工作

2.1.1 Web信息抽取概述

2.1.2 命名实体识别概述

2.1.3 网页时间抽取研究现状

2.2 网页时间抽取的难点

2.3 网页时间抽取的评价体系

2.4 本章小结

第三章 基于规则的在线Web新闻发表时间抽取方法研究

3.1 概述

3.2 规则设计

3.2.1 新闻发表时间正则表达式

3.2.2 时间节点抽取的限定条件

3.3 基于规则的在线Web新闻发表时间抽取方法

3.3.1 抽取模型

3.3.2 基于新闻链接URL抽取发表时间

3.3.3 基于DOM树文本节点抽取发表时间

3.3.4 抽取算法PTER

3.4 实验与分析

3.4.1 实验数据集与评估指标

3.4.2 对比实验

3.4.3 实验结果与分析

3.5 本章小结

第四章 基于文本节点特征融合的在线Web新闻发表时间抽取方法研究

4.1 概述

4.2 文本节点特征系

4.3 文本节点特征融合

4.3.1 组合特征选择

4.3.2 组合特征融合

4.4.1 抽取算法PTENF

4.4.2 时间格式规范化

4.5 实验与分析

4.5.1 实验数据集与评估指标

4.5.2 对比实验

4.5.3 实验结果与分析

4.6 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

攻读学位期间的学术活动及成果情况

展开▼

摘要

在Web搜索中,网页的发布时间起着十分重要的作用,因为搜索的返回结果通常都是基于时间的。此外,Web新闻的发表时间也常用来定位新闻事件的发生时间并用于进一步追踪新闻事件进展。然而,Web新闻网页多源、海量、异构的特性使得发表时间的格式千差万别,而且新闻网页中除了发表时间以外还包含其他时间信息,如网页正文以及相关推荐中的时间信息。因此,Web新闻发表时间的抽取问题具有重要的研究意义和应用价值。实例分析发现,Web新闻网页的发表时间分布与该新闻网页的链接URL地址和其对应的DOM解析树中的文本节点有着潜在关联,为此,本文探索了基于网页链接URL和DOM树文本节点的在线Web新闻发表时间抽取问题,并展开以下研究:
  (1)根据Web新闻网页的URL地址隐含时间信息以及Web新闻发表时间是该网页相应HTML文件的DOM解析树的其中一个文本节点的内容这两条重要线索,设计了一种基于规则的在线Web新闻发表时间抽取方法。首先,为了区分时间节点与非时间节点,统计了大量Web新闻网页实例并进行分析,挖掘出二者的特征与不同之处并作为规则和限定条件用以从大量文本节点中抽取时间节点;其次,为了从URL以及时间节点中抽取时间信息,构建了用于抽取Web新闻发表时间的正则表达式。实验结果表明,该方法是一种高效的Web新闻发表时间在线抽取方法。
  (2)鉴于基于URL抽取出的时间信息不够精确(仅能精确到日期),为提高Web新闻发表时间抽取的精确度,设计并实现了一种基于文本节点特征融合的在线Web新闻发表时间抽取方法。该方法把抽取目标对准文本节点,深入挖掘与分析时间节点和非时间节点的各种特征,构建了文本节点特征系,然后进行特征选择与特征融合,构造出一个区分能力更强的综合特征,用以从文本节点中精准地抽取出时间节点,进而从时间节点中抽取出Web新闻网页的发表时间并规范化输出。实验结果表明,该方法是一种精确的Web新闻发表时间在线抽取方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号