基于统计模型的文本分割方法及其改进

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

文本分割是信息检索和多文档技术中的一个重要的处理步骤。通常一篇文本是由多个主题构成的，文本分割的主要任务是通过对文档结构的分析，识别出文本中不同主题之间的边界，将文本分割成多个主题段落，每一个主题段落描述一个单独的主题。
　　本文在对已有的主题分割方法及词汇相似性度量概括总结的基础上，探讨了Masao Utiyama和Hitoshi Isahar等人提出的概率统计模型，该模型基于贝叶斯公式以及主题分割中的词汇集聚思想，定义了一段文本描述同一个主题的概率计算公式，作为确定分割点的标准，并且在确定分割边界时将待分割文本抽象为一个带权有向图，使用动态规划算法求解该图中头节点到尾节点的最短路径以确定文本的最大概率分割，取得了较高的准确率。
　　本文在Masao&Hitoshi概率模型的基础上提出了文本分割的一点改进策略。针对Masao&Hitoshi概率模型中只使用段内相似度、没有考虑段间不相似度的情况，我们模拟计算了段间不相似度;针对Masao&Hitoshi概率模型在定义中没有充分考虑最终分段长度对概率影响的情况，我们基于在文本预处理时确定的主题段落的范围，定义了分段函数;针对同一主题内词汇可能比较分散难于确定边界的情况，我们通过在Masao&Hitoshi概率模型对应项中添加权值的方法来扩大词汇分散或集中的效果。实验结果表明，改进后的概率模型在一定程度上提高了分割的准确率。
　　Masao&Hitoshi模型在确定分割边界时使用了动态规划算法，该方法不需要在计算前人为地设定先验参数。本文仍采用动态规划算法来确定分割边界。为了进一步确定概率模型改进后对分割结果的影响，我们也使用了基本粒子群算法来确定分割边界。所做工作在一定程度上改善了文本分割的性能。

著录项

作者
李效晋;
展开▼
作者单位

山东大学;

展开▼
授予单位山东大学;
学科计算机应用技术
授予学位硕士
导师姓名韩爱丽;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
文本分割; 概率统计模型; 动态规划; 粒子群优化;

相似文献

中文文献
外文文献
专利

1. 基于谱聚类的改进的文本图像分割方法 [J] . 尹芳 ,吴锐 ,陈德运 . 高技术通讯 . 2013,第010期
2. 基于噪声统计模型的图像分割方法 [J] . 胡小丹 ,滕忠坚 . 计算机与现代化 . 2011,第003期
3. 基于高斯统计模型的快速图像区域分割方法 [J] . 胡小丹 ,李文 ,刘海博 . 福建师范大学学报：自然科学版 . 2011,第2期
4. 基于统计模型的变分水平集SAR图像分割方法 [J] . 曹宗杰 ,闵锐 ,庞伶俐 . 电子与信息学报 . 2008,第012期
5. 基于统计模型和小波变换的文本检索方法 [J] . 魏彬 ,张军 ,项颖 . 电脑知识与技术 . 2009,第007期
6. 基于改进型Dotplotting的文本分割模型 [C] . 叶娜 ,罗海涛 ,郑妍 . 中国中文信息学会二十五周年学术会议 . 2006
7. 基于统计模型的SAR图像降斑和分割方法研究 [A] . 张鹏 . 2012

基于统计模型的文本分割方法及其改进

摘要

著录项

相似文献

相关主题

期刊订阅