基于词典和词频分析的论坛语料未登录词识别研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

中文自动分词技术是中文信息处理的一个基础性课题,在中文信息处理中,首先需要对词进行切分,然后才能进行更深层次应用研究,随着信息科技的高速发展,Internet的中文信息量的飞速增长对中文分词准确性的要求越来越高,未登录词识别问题一直是制约中文分词效率的瓶颈,为了有效解决中文分词中未登录词识别效率低的问题,本文提出了一种基于词典和词频分析相结合的网络论坛语料未登录词识别策略,将从以下几个方面展开。
　　 (1)选取天涯论坛数据构建动态语料库,利用网络蜘蛛WebLech爬取技术,下载天涯论坛数据至本地硬盘,利用基于Java解析器Jsoup对下载到本地html等网页文件进行解析,得到干净的Txt文本文件构建语料库。将双字耦合度函数和T-测试函数线性叠加构造新的统计量CT来识别语料库中的候选未登录词。CT算法是未登录词识别原型系统中学习训练模块的重要组成部分,作为判断候选未登录词的依据,将其加入到临时词典中,在临时词典中统计候选未登录词的词频,将词频大于阈值的候选未登录词认定为未登录词加入到核心词典,其余作为高频非词字串加入停用词典。
　　 (2)设计了分词词典结构,将分词词典设计成核心词典和扩展词典两级结构:核心词典作为分词的依据,采用首字hash存储支持快速查找,词典以词组为单位按词长由长到短顺序存储,这样可以大大减少匹配次数,提高查找效率。扩展词典分为临时词典和停用词典,临时词典与统计策略相结合,作为候选未登录词的学习训练依据,停用词典用来存储高频非词字串,这样可以减少临时词典的负担。优化了分词匹配算法,设计了改进的正向匹配算法AMM。实现了根据词组长度动态设置最大匹配词长。实验证明,提高了匹配效率,同时一定程度上解决了多次无效匹配和长词被切分的问题。
　　 (3)设计实现了未登录词原型系统。在整合前面研究的基础上设计实现了原型系统,原型系统包括:语料采集模块、文档解析模块,这两个模块用于构建语料库;系统学习训练模块,此模块用于向核心词典输送新词;分词模块,此模块用于实现中文自动分词。同时对系统初始化后和学习训练后分词比较,证明系统的可行性,在新词召回率、准确率等方面都有了一定提高。

著录项

作者
朱明强;
展开▼
作者单位

西南大学;

展开▼
授予单位西南大学;
学科计算机软件与理论
授予学位硕士
导师姓名余建桥;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
未登录词; 词频分析; 核心词典; 中文自动分词技术; 识别效率;

相似文献

中文文献
外文文献
专利

1. 基于论坛语料识别中文未登录词的方法 [J] . 都菁 ,熊海灵 . 计算机工程与设计 . 2010,第003期
2. 基于《现代汉语语义词典》的未登录词语义预测研究 [J] . 尚芬芬 ,顾彦慧 ,戴茹冰 . 北京大学学报：自然科学版 . 2016,第1期
3. 基于语料库的商务英语学习词典编纂研究--兼评《牛津商务英语学习词典》 [J] . 胡春雨 ,何家宁 . 广东外语外贸大学学报 . 2013,第006期
4. 基于领域文献的未登录词识别方法研究 [J] . 徐坤 ,曹锦丹 . 情报杂志 . 2012,第001期
5. 基于互信息的识别中文地名未登录词技术研究 [J] . 付海辰 . 唐山师范学院学报 . 2011,第002期
6. 语料信息的应用与民族文字语义词典的开发——以蒙古语语料信息研究与新词语词典编纂为例 [C] . 松布尔巴图 . 第二届全国少数民族青年自然语言处理学术研讨会 . 2008
7. 基于论坛语料的未登录词自动识别新方法 [A] . 都菁 . 2010

基于词典和词频分析的论坛语料未登录词识别研究

摘要

著录项

相似文献

相关主题

期刊订阅