基于字边界特征的中文抽词模型研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

中文抽词是中文信息处理中最基本的任务之一。目前，传统的中文抽词技术主要采用基于统计的抽词方法，取得了较好的结果，但仍有提升的空间。基于这种现状，本文提出了一种改进型抽词模型。
　　论文首先通过总结归纳传统的抽词算法，设计了基本抽词模型，提出了基本抽词模型中的抽词特征的挑选策略，构词评价策略，选词策略，过滤算法等概念的标准流程和模块功能。并通过对基本抽词模型的原理上的分析得到了改进基本抽词模型的几个关键点。
　　在基本抽词模型的基础上，引入了相应的评价标准，针对性的设计了改进型选词特征的挑选策略，设计了相应的选词策略以及实现方案，改进后的过滤算法设计，以及针对不频繁词汇的启发式算法。本文根据相关理论提出了基于通过多步迭代完成抽词的理念，针对这个理念，设计了相应的基于字边界抽词特征的一整套改进型抽词模型的具体实现。
　　实验部分以Bake-off2005提供的训练数据为基础，首先分析了采用字边界特征作为抽词特征的可行性，接着通过采用合理的选词算法生成候选词集合，并通过过滤算法对候选词进行筛选，最后根据启发式算法挖掘语料中更多潜在的词语。最后实验结果表明该方法在准确率、召回率和F-measure等方面都得到一定程度的提高。

著录项

作者
刘洋;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科软件工程
授予学位硕士
导师姓名欧阳柳波,甘志;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理 ; 算法理论 ;
关键词
中文抽词模型; 字边界特征; 启发式算法; 边界过滤算法; 信息处理;

相似文献

中文文献
外文文献
专利

1. 词边界字向量的中文命名实体识别 [J] . 姚霖 ,刘轶 ,李鑫鑫 . 智能系统学报 . 2016 ,第001期
2. 基于词聚类特征的统计中文组块分析模型 [J] . 孙广路 ,王晓龙 ,刘秉权 . 电子学报 . 2008 ,第012期
3. 基于字角色标注的中文书目关键词标引研究 [J] . 邓三鸿 ,王昊 ,秦嘉杭 . 中国图书馆学报 . 2012 ,第002期
4. 基于EMM中文抽词算法的XMARC主题信息挖掘 [J] . 王兰成 . 情报学报 . 2005 ,第001期
5. 基于词边界分类的中文分词方法 [J] . 李寿山 ,黄居仁 . 中文信息学报 . 2010 ,第001期
6. 基于字特征的中文文本分类技术研究 [C] . 张煜斌 ,陆建峰 ,杨静宇 . 2009年全国模式识别学术会议暨首届中日韩模式识别学术研讨会 . 2009
7. 中文双字词与三字词字形识别的时间进程研究 [A] . 徐霄扬 . 2014

基于字边界特征的中文抽词模型研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅