首页> 中国专利> 中文标点符号添加方法和系统及设备

中文标点符号添加方法和系统及设备

摘要

本发明公开了一种中文标点符号添加方法和系统及设备。方法包括:获取文本信息并进行预处理,得到训练数据;通过对训练数据进行音素级编码、字级编码和词级编码,将训练数据的字序列转换成音素级特征向量、字级特征向量和词级特征向量并进行叠加融合,得到融合三个级别信息的特征向量;基于融合三个级别信息的特征向量,进行特征提取和分类器训练,得到预测模型,该预测模型用于给输入的文本信息添加中文标点符号。本发明在模型训练阶段,通过加入词级信息,不需要因遇到OOV问题而对预测模型重新训练;通过加入音素级信息,学习标点符号与汉字发音之间的规律,可以提升标点预测的精度。

著录项

  • 公开/公告号CN112069816A

    专利类型发明专利

  • 公开/公告日2020-12-11

    原文格式PDF

  • 申请/专利权人 深圳市北科瑞声科技股份有限公司;

    申请/专利号CN202010958997.7

  • 发明设计人 黄石磊;刘轶;王昕;

    申请日2020-09-14

  • 分类号G06F40/289(20200101);G06F40/126(20200101);G06K9/62(20060101);

  • 代理机构44279 深圳市万商天勤知识产权事务所(普通合伙);

  • 代理人罗建平

  • 地址 518000 广东省深圳市南山区高新区南区深港产学研基地大楼西座四楼W406室

  • 入库时间 2023-06-19 08:06:35

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号