基于信赖度与潜力的中文分词处理

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

自然语言处理技术是一门融语言学、计算机科学、数学于一体的科学，它包含词法分析，语法分析和语义分析等几个部分。中文自动分词是中文语言处理的最关键的环节所在。在这一领域有国内外有很多的研究成果，也有很多的算法实现，目前来说分词算法主要分为机械分词，统计分词以及基于理解的分词三大类。本文将基于词典的机械分词与基于概率论的统计分词相结合，提出了一个混合分词系统，即基于信赖度和潜力的中文分词处理系统。
　　本文阐述了机械分词领域与统计分词领域的基础理论、发展与研究成果，介绍了词典模块的生成，采用基于词条抽取和某些基于后缀数组的方法，从大量的语料库中获取一定量的词条与词频信息，并储存在Berkeley DB这一数据库中作为词典使用。使用本文提出的基于信赖度与潜力的分词算法对经过预处理的待切分文本进行处理。评价一个分词系统性能主要有三个方面的数据：分词准确度，召回率以及调和度。经实验证明，本系统在这三个方面都令人满意，准确度达到了约93.5％，召回率接近90％，调和度达到了0.91。对遇到的一些问题进行总结和分析，对需要改进和添加的功能进行补充，以便以后的研究者对系统不足的地方进一步地完善。

著录项

作者
胡冬明;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科计算机软件与理论
授予学位硕士
导师姓名周玉龙;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字处理软件;
关键词
汉字处理; 语法分析; 中文分词; 软件工具;

相似文献

中文文献
外文文献
专利

1. 基于语义扩展度的中文分词交叉歧义处理方法 [J] . 尹倩 . 南昌工程学院学报 . 2016,第001期
2. 基于双字耦合度的中文分词交叉歧义处理方法 [J] . 王思力 ,王斌 . 中文信息学报 . 2007,第005期
3. 基于jieba中文分词的中文文本语料预处理模块实现 [J] . 石凤贵 . 电脑知识与技术 . 2020,第014期
4. 基于语境信息的中文分词交叉歧义处理方法 [J] . 尹倩 . 重庆工商大学学报（自然科学版） . 2016,第005期
5. 基于语境相似度的中文分词一致性检验研究 [J] . 刘伟 ,黄锴宇 ,余浩 . 北京大学学报:自然科学版 . 2022,第1期
6. 基于双字耦合度的中文分词交叉歧义处理方法 [C] . 王思力 ,王斌 . 第九届全国计算语言学学术会议 . 2007
7. 基于机器学习的中文分词处理 [A] . Sudeep Pokharel(苏滴) . 2020

基于信赖度与潜力的中文分词处理

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅