基于互联网海量语料的新词发现研究及中文分词系统改进

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

中文自动分词是中文自然语言处理的基础。随着Web2.0的发展，网络新词的自动识别已经成为中文分词的一个主要难点和瓶颈。对此提出了一种非监督的新词识别方法，该方法利用互信息(PMI，Point-wise Mutual Information)的改进算法—PMIk算法与少量的基本规则相结合从大规模语料中自动识别2-n元网络新词（n代表发现的新词最大长度，可以根据需要指定）。
　　新词基于257MB的百度贴吧语料实验，当PMIk方法的参数等于5时，结果精度达到84.8％，相对PMI方法精度提高了16.2％，实验结果表明该新词发现方法能够有效的从大规模网络语料中发现新词。基于大规模语料库对这些新词进行词性推测，得到的结果编纂成用户词典，加载到汉语词法分析系统ICTCLAS(Institute of Computing Technology，Chinese Lexical Analysis System)中，基于10KB的百度贴吧语料实验，相对加载用户词典前的分词结果准确率、召回率和F-值分别提高7.93％、3.73％和5.91％，实验表明通过进行新词发现能有效改善分词系统对网络文本的处理效果。

著录项

作者
杜丽萍;
展开▼
作者单位

西安邮电学院;

西安邮电大学;

展开▼
授予单位西安邮电学院;西安邮电大学;
学科软件工程
授予学位硕士
导师姓名李晓戈;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.43;
关键词
词汇识别; 中文分词系统; 互信息改进算法; 词性推测; 用户词典; 海量语料;

相似文献

中文文献
外文文献
专利

1. 基于互信息改进算法的新词发现对中文分词系统改进 [J] . 夏同飞 ,李志 ,王超 . 电子元器件与信息技术 . 2018,第009期
2. 基于互信息改进算法的新词发现对中文分词系统改进 [J] . 夏同飞 ,李志 ,王超 . 电子元器件与信息技术 . 2018,第009期
3. 一种基于海量语料的网络热点新词识别方法 [J] . 张海军 ,李勇 ,闫琪琪 . 计算机工程与应用 . 2015,第005期
4. 基于古汉语语料的新词发现方法 [J] . LIU Yutong ,WU Bin ,XIE Tao . 中文信息学报 . 2019,第001期
5. 面向网络语言基于微博语料的新词发现方法 [J] . 雷一鸣 ,刘勇 ,霍华 . 计算机工程与设计 . 2017,第003期
6. 基于古文语料的新词发现方法 [C] . Yutong Liu ,刘昱彤 ,Bin Wu . 第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（CCL 2018） . 2018
7. 基于大规模网络语料的中文新词发现技术研究 [A] . 伍午阳 . 2017

基于互联网海量语料的新词发现研究及中文分词系统改进

目录

摘要

著录项

相似文献

相关主题

期刊订阅