面向中文陌生文本的人机交互式分词研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自动分词是中文信息处理的基础课题之一。现有的分词软件和技术主要是针对现代汉语新闻科技等较为规范的文本，对于其他领域汉语文本处理能力较差。如何减少系统对先验知识的依赖，面向不同领域文本、不同分词标准进行分词，无论是从实际的需要还是从理论和技术上看，都是亟需解决的问题。本文提出了面向中文陌生文本的人机交互式分词方法，在没有分词底表和训练语料等语言知识的条件下，由系统自动地发现未登录词，提交给用户进行增删，不断重复此过程，反复获取文本中的词语，以得到领域词表，最后进行最大匹配法分词。在自动获取未登录词方面，本文提出了改进的后缀数组抽取方法，能够快速高效地提取候选字串，通过互信息筛选，使得抽词精确率达到70％以上。在获取方法上，本文也尝试一改传统的单次获取全部未登录词的做法，通过阈值的控制，逐批获取未登录词。在相同的阈值条件下，获取词条的数量增加了9％，精确率提高了7％左右。四个不同语料的实验显示，在没有人机交互的条件下，可以得到72％(F值)左右的分词精度。经过较少的人机交互，可以使分词F值提高12％以上。随着用户工作量的增加，系统还能够进一步提高分词效果。

著录项

作者
李斌;
展开▼
作者单位

南京师范大学;

展开▼
授予单位南京师范大学;
学科语言学及应用语言学
授予学位硕士
导师姓名陈小荷;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
人机交互; 自动分词; 未登录词识别; 中文信息处理;

相似文献

中文文献
外文文献
专利

1. 面向中文陌生文本的人机交互式分词方法 [J] . 李斌 ,陈小荷 . 中文信息学报 . 2007,第003期
2. 有限状态机在中文文本分词中的应用 [J] . 火善栋 . 现代计算机（专业版） . 2010,第006期
3. 基于微博信息库和文本分词的人机对话模型设计 [J] . 施询之 ,孙宁远 ,李骋罡 . 计算机与现代化 . 2013,第011期
4. 常用中文分词软件在中医文本文献研究领域的适用性研究 [J] . 杨海丰 ,陈明亮 ,赵臻 . 世界科学技术-中医药现代化 . 2017,第003期
5. 中文文本分词及其可视化技术研究 [J] . 石凤贵 . 现代计算机（专业版） . 2020,第012期
6. 面向中文陌生文本的人机交互式分词方法 [C] . 李斌 ,陈小荷 . 第三届学术计算语言学研讨会 . 2006
7. 面向分布式文本知识管理的中文分词与文本分类研究 [A] . 李志国 . 2008

面向中文陌生文本的人机交互式分词研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅