基于古汉语语料的新词发现方法

LIU Yutong; WU Bin; XIE Tao; WANG Bai

首页> 中文期刊>中文信息学报 >基于古汉语语料的新词发现方法

基于古汉语语料的新词发现方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步.该文提出一种基于古汉语料的新词识别方法,称为AP-LSTM-CRF算法.该算法分为三个步骤.第一步,基于Apache Spark分布式并行计算框架实现的并行化的Apriori改进算法,能够高效地从大规模原始语料中产生候选词集.第二步,用结合循环神经网络和条件随机场的切分概率模型对测试集文档的句子进行切分,产生切分概率的序列.第三步,用结合切分概率的过滤规则从候选词集里过滤掉噪声词,从而筛选出真正的新词.实验结果表明,该新词发现方法能够有效地从大规模古汉语语料中发现新词,在宋词和宋史数据集上分别进行实验,F1值分别达到了89.68％和81.13％,与现有方法相比,F1值分别提高了8.66％和2.21％.

著录项

来源
《中文信息学报》|2019年第1期|46-55|共10页
作者
LIU Yutong; WU Bin; XIE Tao; WANG Bai;
展开▼
作者单位

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
Apriori的改进算法; 长短时记忆网络; 条件随机场; 过滤规则; 并行化;
入库时间 2022-08-18 14:08:05

相似文献

中文文献
外文文献
专利

1. 面向网络语言基于微博语料的新词发现方法 [J] . 雷一鸣 ,刘勇 ,霍华 . 计算机工程与设计 . 2017,第003期
2. 博客语料的新词发现方法 [J] . 黄轩 ,李熔烽 . 现代电子技术 . 2013,第002期
3. 基于大规模语料的新词发现算法 [J] . 顾森 . 程序员 . 2012,第007期
4. 一种基于海量语料的网络热点新词识别方法 [J] . 张海军 ,李勇 ,闫琪琪 . 计算机工程与应用 . 2015,第005期
5. 基于语料库的创新词汇教学方法 [J] . 于筱睿 . 海外英语(上) . 2013,第009期
6. 基于古文语料的新词发现方法 [C] . Yutong Liu ,刘昱彤 ,Bin Wu . 第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（CCL 2018） . 2018
7. 基于大规模网络语料的中文新词发现技术研究 [A] . 伍午阳 . 2017

基于古汉语语料的新词发现方法

摘要

著录项

相似文献

相关主题

期刊订阅