首页> 中文学位 >面向中文陌生文本的人机交互式分词研究
【6h】

面向中文陌生文本的人机交互式分词研究

代理获取

目录

文摘

英文文摘

学位论文独创性声明及使用授权声明

前言

第一章中文分词及面向陌生文本分词的意义

第二章词语分布与统计方法调查

第三章基于后缀数组的自动抽词方法

第四章人机交互式分词系统的设计及实现

第五章系统测试及分析

结语

附录

参考文献

攻读硕士学位期间参加科研项目情况、发表科研论文情况、获奖情况

致谢

展开▼

摘要

自动分词是中文信息处理的基础课题之一。现有的分词软件和技术主要是针对现代汉语新闻科技等较为规范的文本,对于其他领域汉语文本处理能力较差。如何减少系统对先验知识的依赖,面向不同领域文本、不同分词标准进行分词,无论是从实际的需要还是从理论和技术上看,都是亟需解决的问题。 本文提出了面向中文陌生文本的人机交互式分词方法,在没有分词底表和训练语料等语言知识的条件下,由系统自动地发现未登录词,提交给用户进行增删,不断重复此过程,反复获取文本中的词语,以得到领域词表,最后进行最大匹配法分词。 在自动获取未登录词方面,本文提出了改进的后缀数组抽取方法,能够快速高效地提取候选字串,通过互信息筛选,使得抽词精确率达到70%以上。在获取方法上,本文也尝试一改传统的单次获取全部未登录词的做法,通过阈值的控制,逐批获取未登录词。在相同的阈值条件下,获取词条的数量增加了9%,精确率提高了7%左右。 四个不同语料的实验显示,在没有人机交互的条件下,可以得到72%(F值)左右的分词精度。经过较少的人机交互,可以使分词F值提高12%以上。随着用户工作量的增加,系统还能够进一步提高分词效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号