基于大规模语料库的古文词典构建及分词技术研究

邢付贵; 朱廷劭

首页> 中文期刊>中文信息学报 >基于大规模语料库的古文词典构建及分词技术研究

基于大规模语料库的古文词典构建及分词技术研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节.当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349740个字词的集成古文词典CCIDict.在CCIDict基础上,利用多种分词算法实现古文的分词.基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14％,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果.

著录项

来源
《中文信息学报》|2021年第7期|41-46|共6页
作者
邢付贵; 朱廷劭;
展开▼
作者单位

中国科学院心理研究所北京 100101;

中国科学院大学心理学系北京 100049;

中国科学院心理研究所北京 100101;

中国科学院大学心理学系北京 100049;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
古汉语分词; 大数据; 语料库;

相似文献

中文文献
外文文献
专利

1. 基于大规模语料库和词汇习得理论的学习型词典编撰构想 [J] . 郝瑜鑫 ,刘文 ,邢红兵 . 湘南学院学报 . 2010,第006期
2. 基于Hash结构词典的逆向回溯中文分词技术研究 [J] . 梁桢 ,李禹生 . 计算机工程与设计 . 2010,第023期
3. 基于反序词典的中文分词技术研究 [J] . 罗桂琼 ,费洪晓 ,戴弋 . 计算机技术与发展 . 2008,第001期
4. 面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究 [J] . 才让加 . 中文信息学报 . 2011,第006期
5. 基于改进K-SVD的英文语料库分词特征提取模型构建 [J] . 周永英 . 自动化技术与应用 . 2021,第011期
6. 藏语语料库加工和处理用的藏文切分词典的建立与设计 [C] . 才藏太 ,华却才让 . 第十届全国少数民族语言文字信息处理学术研讨会 . 2005
7. 传统蒙古文、西里尔蒙古文—汉文电子词典的构建 [A] . 乌日力嘎 . 2009

基于大规模语料库的古文词典构建及分词技术研究

摘要

著录项

相似文献

相关主题

期刊订阅