首页> 中文学位 >基于事件-时间关联模型的新闻话题检测与动态演化跟踪
【6h】

基于事件-时间关联模型的新闻话题检测与动态演化跟踪

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 课题研究背景

1.2 研究意义

1.3 国内外相关研究综述

1.4 本文研究内容

1.5 本文组织结构

第2章 相关技术介绍

2.1 话题检测与跟踪系统研究体系

2.2 新闻数据采集与文本预处理

2.3 新闻文本表示模型

2.4 文本特征选择及其权重计算

2.5 文本相似度的计算

2.6 本章小结

第3章 基于事件-时间关联模型的话题检测方法

3.1 引言

3.2 事件-时间关联模型描述

3.3 新闻事件及其时间信息的识别与抽取

3.4 融合时间信息改进的话题检测原理

3.5 本章小结

第4章 基于时间特征演变的自适应话题跟踪研究

4.1 引言

4.2 基于静态话题模型的话题跟踪

4.3 基于动态话题模型的自适应话题跟踪

4.4 基于时间特征演变模型的自适应话题跟踪

4.5 本章小结

第5章 实验设计与结果分析

5.1 实验语料介绍

5.2 实验测评方法

5.3 话题检测系统实验

5.4 话题跟踪系统实验

5.5 本章小结

第6章 总结与展望

参考文献

攻读硕士学位期间发表的论文

致谢

展开▼

摘要

随着互联网技术的飞速发展,信息的传播与交互方式都有了彻底的改变,网络信息呈爆炸式地增长,成为人们获取讯息的主要途径。面对海量无序的网络新闻,如何对各个话题进行准确且智能化地识别与组织,已经成为网络信息处理领域的重要研究课题。话题检测与跟踪(Topic Detection and Tracking,TDT)正是面向这一课题提出的研究方向,主要任务是自动检测时序新闻报道流中的新话题并实时跟踪已知话题的后续相关报道,将各种新闻信息组织起来再呈现给用户。
  本文首先针对话题检测(Topic Detection,TD)任务提出基于事件-时间关联模型(Event-Time Relation Model,ETRM)的话题检测方法。ETRM模型依据话题和报道中事件内容及其时间属性的关联特征而构建,依赖时间属性对话题中事件进行切分和提取,而后组织成事件报道集对话题进行描述。新事件检测是话题检测研究中的重要环节,其任务是识别新闻话题的种子事件,并为后续话题跟踪任务提供话题的初始质心。本文基于ETRM对新事件检测任务进行探究,提出改进的话题检测策略:利用时间信息建立话题模型的事件索引;在新事件的判定过程中遵循同时同事的原则并引入时间频率因素;针对论述种子事件的新闻报道,对其相关于旧话题的概率进行相应的调整,以提高新旧话题判定的准确性。经过实验测评,证明基于ETRM的话题检测方法有效改进了话题检测系统的相关性判定效率及其准确率。
  话题跟踪任务也是话题检测与跟踪领域中重要的应用研究之一,它直接针对时序新闻报道流进行特定新闻话题后续相关报道的识别与挖掘。本文依据新闻报道动态地随时间变化的特性,提出一种基于时间特征演变模型的自适应话题跟踪算法:在传统的向量空间模型中引入特征项的时间信息对话题进行描述,通过特征项的时间差信息计算时间相关度,并将其与余弦夹角公式结合应用,对报道与话题的相关性判定机制进行改进。此外,针对传统的话题跟踪过程中出现的漂移现象,在话题模型特征项自学习更新的同时基于时间相关度进行相应权重调整,借以及时准确地捕捉话题的焦点。通过对静态话题跟踪、动态话题跟踪以及改进后的基于时间特征演变的自适应话题跟踪三种跟踪系统的性能对比测评,证明基于时间特征演变的自适应话题跟踪算法有效提高了系统跟踪话题演化的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号