首页> 中文期刊> 《计算机工程与应用》 >基于词典词语量化关系的中文文本分割方法

基于词典词语量化关系的中文文本分割方法

         

摘要

随着Internet网络资源的快速膨胀,海量的非结构化文本处理任务成为巨大的挑战.文本分割作为文本处理的一个重要的预处理步骤,其性能的优劣直接影响信息检索、文本摘要和问答系统等其他任务处理的效果.针对文本分割中需要解决的主题相关性度量和边界划分策略两个根本问题,提出了一种基于词典词语量化关系的句子间相关性度量方法,并建立了一个计算句子之间的间隔点分隔值的数学模型,以实现基于句子层次的中文文本分割.通过三组选自国家汉语语料库的测试语料的实验表明,该方法识别分割边界的平均错误概率pk和最低值均好于现有的其他中文文本分割方法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号