基于后缀数组SALM模型的中文分词研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自然语言处理(NLP)是语言学和人工智能的一个交叉域,它研究人类自然语言的自动化产生和理解的问题,对于汉语来说,它涉及自动分词、词法分析、语法分析和语义分析等。其中,自动分词是语言处理其它方面的关键和前提。特别是随着中国计算机科学的发展,中文自动分词已经成为一项基础性课题。很多机构如公司、院校都成立了专门的研究部门,希望在中文自动分词技术有所突破。目前分词算法大概有几十种,可以归纳为三类：基于字符串匹配的机械分词、基于概率论和信息论的统计分词和基于理解的分词方法。由于中文自身的复杂性,中文自动分词有两个难点很难解决——歧义识别和未登录词识别。解决某一个难点已经成为评价一个分词系统好坏的重要标志之一。其它重要标志还包括分词准确率、召回率、分词速度等。本文开始介绍了机械分词技术、统计分词技术。然后,提出并实现了一个基于后缀数组和句子字词表的分词方法。后缀数组是信息检索领域的通用高效技术,本文系统利用SAI_,M模型得到高频词条,经减枝后,用Berkeley DB把它们组织成一个分词词典。分词算法在利用句子字词表进行分词的同时,还能发现歧义,歧义句子采用最大句频原则进行切分。实验结果表明,本文系统的分词速度能达到50kb/s,分词准确率达到90％,值得进一步的研究。本文最后总结了全文内容,并分析了本文系统存在的问题,提出了改进方法。

著录项

作者
温伟杰;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科计算机软件与理论
授予学位硕士
导师姓名周玉龙;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.12;
关键词
自然语言处理; 中文分词; SALM模型; 字词表; 歧义切分; 后缀数组;

相似文献

中文文献
外文文献
专利

1. 基于字簇的多模型中文分词方法研究 [J] . 李对红 ,王裴岩 ,张桂平 . 计算机应用研究 . 2020,第002期
2. 基于N-gram模型的中文分词算法的研究 [J] . 丁洁 ,赵景惠 . 福建电脑 . 2017,第005期
3. 基于隐马尔科夫模型的中文分词研究 [J] . 魏晓宁 . 电脑知识与技术 . 2007,第021期
4. 基于隐马尔科夫模型的中文分词研究 [J] . 魏晓宁 . 电脑知识与技术 . 2007,第021期
5. 基于隐马尔科夫模型的中文分词研究 [J] . 魏晓宁 . 电脑知识与技术：学术交流 . 2007,第011期
6. 基于序列标注的中文分词、词性标注模型比较分析 [C] . 刘一佳 ,车万翔 ,刘挺 . 第六届全国青年计算语言学会议 . 2012
7. 一种基于后缀数组和倒排表的全文索引模型 [A] . 郭鹏飞 . 2014

基于后缀数组SALM模型的中文分词研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅