首页> 中文期刊>烟台大学学报(哲学社会科学版) >对汉语史语料库文本处理问题的若干思考

对汉语史语料库文本处理问题的若干思考

     

摘要

将纸质印刷本的古代文献转换成便于电脑系统识别和应用的电子文本,是汉语史语料库的基础工作.根据中古汉语语料库建设的实践,这一转换过程中主要存在正文注释材料的处理、标记性附属材料的存删、异形字的选用、句子的分合、标点符号的处理等问题.既涉及到古代文献的撰写体例、语料性质、时代特性,也涉及到程序软件的自动识别过程.实践中需要兼顾语料库建设的可操作性、用户检索的便利性,在不违背文献学、语言学学理的前提下,对古代文献的文本进行一些必要的技术性处理.主要方法包括:保留同时代的注释材料,并添加相应的标记符号;剔除后人添加的或者时代不明的注释材料,以案语的形式保存原书文字;保留现有的佚文材料,添加相应的标记;删除正文中不具备汉语史语料价值的标记性文字;按照不同的优先层级选用字形,以《通用规范汉字表》及其附件《规范字与繁体字、异体字对照表》作为异体字、新旧字的标准字形.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号