首页> 中文学位 >基于词典和词频分析的论坛语料未登录词识别研究
【6h】

基于词典和词频分析的论坛语料未登录词识别研究

代理获取

摘要

中文自动分词技术是中文信息处理的一个基础性课题,在中文信息处理中,首先需要对词进行切分,然后才能进行更深层次应用研究,随着信息科技的高速发展,Internet的中文信息量的飞速增长对中文分词准确性的要求越来越高,未登录词识别问题一直是制约中文分词效率的瓶颈,为了有效解决中文分词中未登录词识别效率低的问题,本文提出了一种基于词典和词频分析相结合的网络论坛语料未登录词识别策略,将从以下几个方面展开。
   (1)选取天涯论坛数据构建动态语料库,利用网络蜘蛛WebLech爬取技术,下载天涯论坛数据至本地硬盘,利用基于Java解析器Jsoup对下载到本地html等网页文件进行解析,得到干净的Txt文本文件构建语料库。将双字耦合度函数和T-测试函数线性叠加构造新的统计量CT来识别语料库中的候选未登录词。CT算法是未登录词识别原型系统中学习训练模块的重要组成部分,作为判断候选未登录词的依据,将其加入到临时词典中,在临时词典中统计候选未登录词的词频,将词频大于阈值的候选未登录词认定为未登录词加入到核心词典,其余作为高频非词字串加入停用词典。
   (2)设计了分词词典结构,将分词词典设计成核心词典和扩展词典两级结构:核心词典作为分词的依据,采用首字hash存储支持快速查找,词典以词组为单位按词长由长到短顺序存储,这样可以大大减少匹配次数,提高查找效率。扩展词典分为临时词典和停用词典,临时词典与统计策略相结合,作为候选未登录词的学习训练依据,停用词典用来存储高频非词字串,这样可以减少临时词典的负担。优化了分词匹配算法,设计了改进的正向匹配算法AMM。实现了根据词组长度动态设置最大匹配词长。实验证明,提高了匹配效率,同时一定程度上解决了多次无效匹配和长词被切分的问题。
   (3)设计实现了未登录词原型系统。在整合前面研究的基础上设计实现了原型系统,原型系统包括:语料采集模块、文档解析模块,这两个模块用于构建语料库;系统学习训练模块,此模块用于向核心词典输送新词;分词模块,此模块用于实现中文自动分词。同时对系统初始化后和学习训练后分词比较,证明系统的可行性,在新词召回率、准确率等方面都有了一定提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号