首页> 中文学位 >基于统计模型的文本分割方法及其改进
【6h】

基于统计模型的文本分割方法及其改进

代理获取

摘要

文本分割是信息检索和多文档技术中的一个重要的处理步骤。通常一篇文本是由多个主题构成的,文本分割的主要任务是通过对文档结构的分析,识别出文本中不同主题之间的边界,将文本分割成多个主题段落,每一个主题段落描述一个单独的主题。
  本文在对已有的主题分割方法及词汇相似性度量概括总结的基础上,探讨了Masao Utiyama和Hitoshi Isahar等人提出的概率统计模型,该模型基于贝叶斯公式以及主题分割中的词汇集聚思想,定义了一段文本描述同一个主题的概率计算公式,作为确定分割点的标准,并且在确定分割边界时将待分割文本抽象为一个带权有向图,使用动态规划算法求解该图中头节点到尾节点的最短路径以确定文本的最大概率分割,取得了较高的准确率。
  本文在Masao&Hitoshi概率模型的基础上提出了文本分割的一点改进策略。针对Masao&Hitoshi概率模型中只使用段内相似度、没有考虑段间不相似度的情况,我们模拟计算了段间不相似度;针对Masao&Hitoshi概率模型在定义中没有充分考虑最终分段长度对概率影响的情况,我们基于在文本预处理时确定的主题段落的范围,定义了分段函数;针对同一主题内词汇可能比较分散难于确定边界的情况,我们通过在Masao&Hitoshi概率模型对应项中添加权值的方法来扩大词汇分散或集中的效果。实验结果表明,改进后的概率模型在一定程度上提高了分割的准确率。
  Masao&Hitoshi模型在确定分割边界时使用了动态规划算法,该方法不需要在计算前人为地设定先验参数。本文仍采用动态规划算法来确定分割边界。为了进一步确定概率模型改进后对分割结果的影响,我们也使用了基本粒子群算法来确定分割边界。所做工作在一定程度上改善了文本分割的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号