基于词典的中文分词算法改进与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

中文分词是按照特定的规范将汉语中连续的字序列切分为合理的词序列的过程。作为自然语言处理基础性任务，中文分词已经被广泛应用在相关领域中。因此，研究中文分词算法具有重要的理论和现实意义。为了满足上层应用对分词实用性要求，本文将机械分词和基于统计的分词法有机结合，提出了基于词典和统计规则的中文分词算法。该算法首先使用切分速度快的机械分词法对预处理后的文本进行初步切分，采用改进的双向最大匹配检测法检测出歧义字段，并运用基于二元统计模型的全切分消解歧义。其次，采用基于角色的命名实体识别方法识别出未登录词。最后，引入规则库对分词结果进一步修正。本文的研究工作主要有:
　　采用二次索引的词典结构，提升词典查找速度，使用Java对象序列化技术实现词典文件的加载（反序列化）和词典对象的序列化。
　　在未登录词识别方面，将隐马尔科夫模型中解决编码问题的前向Viterbi算法用以角色标注，采用角色模式集上的模式串匹配出中文专有名词。使用一个小型校正规则库进行分词碎片的修正。
　　在歧义检测方面，提出了改进的双向最大匹配检测算法，不仅能检测到链长为奇数的歧义字段，而且能检测出所有同时满足链长为偶数且交段长度为1的歧义字段。在歧义字段上，采用全切分法消解歧义。
　　目前中文分词软件包大都以C++语言开发，而作为主流开发语言之一的Java，其中文分词组件相对较少。因此，在分词算法的研究基础上，设计并实现了支持Java语言的中文自动分词系统。

著录项

作者
顾剑云;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科软件工程
授予学位硕士
导师姓名吴蓉晖,邱丽霞;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文字处理; 中文分词算法; 字典结构; 规则库;
入库时间 2022-08-17 10:47:07

相似文献

中文文献
外文文献
专利

1. 一种基于词典的中文分词法的设计与实现 [J] . 周军 ,王艳红 . 黑龙江科技信息 . 2008,第025期
2. 基于层次分析法的中文分词算法改进 [J] . 丁洁 . 信息技术 . 2016,第010期
3. 基于条件随机场的中文分词算法改进 [J] . 顾佼佼 ,杨志宏 ,姜文志 . 太赫兹科学与电子信息学报 . 2012,第002期
4. 面向医学知识的中文分词词典设计与实现 [J] . 陈玫 ,蒙祖强 . 大众科技 . 2010,第011期
5. 自扩充中文分词词典的研究与实现 [J] . 马志强 ,周长胜 ,丁维 . 计算机与数字工程 . 2007,第006期
6. 基于限定词典和词频统计的中文分词算法 [C] . 周学广 ,高飞 ,孙艳 . 第四届中国计算机网络与信息安全学术会议(CCNIS2011) . 2011
7. 基于词典与统计结合的中文分词方法研究及全文检索系统设计 [A] . 周世宇 . 2017

基于词典的中文分词算法改进与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅