首页> 中文期刊>中文信息学报 >基于长时间跨度语料的词义演变计算研究

基于长时间跨度语料的词义演变计算研究

     

摘要

该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两类方法展开研究,计算并辅助识别汉语词语的词义历时演变现象.采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语.针对历时语料上不同时间段的词向量对齐,采用SGNS训练词向量加正交矩阵投影、SGNS递增训练和"锚点词"二阶词向量表示三种方法,其中以SGNS递增训练效果最佳.针对自动发现的词义演变现象,采用目标词历时自相似度和锚点词历时相似度的分析方法,并利用近邻词来明确目标词变迁前后的词义.

著录项

  • 来源
    《中文信息学报》|2020年第8期|10-22|共13页
  • 作者

    孙琦鑫; 饶高琦; 荀恩东;

  • 作者单位

    北京语言大学 信息科学学院 北京 100083;

    北京语言大学 语言资源高精尖创新中心 北京 100083;

    北京语言大学 信息科学学院 北京 100083;

    北京语言大学 语言资源高精尖创新中心 北京 100083;

    北京语言大学 汉语国际教育研究院 北京 100083;

    北京语言大学 信息科学学院 北京 100083;

    北京语言大学 语言资源高精尖创新中心 北京 100083;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    词义演变; 历时语料; 分布式表示;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号