首页> 中文学位 >基于系统相似模型与持续时间的话题检测技术研究
【6h】

基于系统相似模型与持续时间的话题检测技术研究

代理获取

摘要

话题检测与跟踪(Topic Detection and Tracking,TDT)作为一个新兴的自然语言处理研究方向,它的研究主要涉及了自然语言处理、信息检索、信息过滤、人工智能和机器学习等多个领域,是一个跨学科领域的综合性课题。话题检测与跟踪旨在基于事件对信息进行组织和利用,同时也是为了应对信息过载问题而提出的一项应用研究。TDT是指在新闻专线和广播新闻等来源的新闻数据流中自动的发现话题并把话题相关的内容联系在一起的技术。自1996年TDT概念提出以来,国内外许多研究机构都参与了这一技术的研究。目前TDT研究已经引起了国内外研究者们的广泛关注,逐渐成为自然语言处理领域的一个研究热点。
   本文以文本形式的英文新闻报道流为处理对象,对话题检测任务进行了深入细致的研究。我们首先介绍了话题检测与跟踪技术的相关概念,以及近年来的发展动向。然后重点介绍了系统相似模型及系统相似度计算方法。本文分析词变体与缩略词在话题检测与跟踪中的作用,研究并实现了一种基于形态学与语义相结合的词变体与缩略词的识别方法。
   本文针对话题检测研究中存在的“难以区分”的难题,并分析了英语新闻报道内容及书写形式上的特点提出了一种基于语义划分的话题检测技术。实验证明,基于语义划分的话题检测算法对于解决“难以区分”问题非常有效。最后探索了时间信息在话题检测中的应用研究,研究并实现了基于话题持续时间的动态阈值模型,并结合其特点采用了一种比值法来选择和话题最相似的报道。通过在英语语料上对该动态阈值模型进行实验证明基于话题持续时间的动态阈值模型配合比值法的使用大大提高了系统的整体性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号