首页> 中国专利> 基于加权有限状态转换器的文本内容添加标点方法

基于加权有限状态转换器的文本内容添加标点方法

摘要

基于加权有限状态转换器的文本内容添加标点方法,涉及语音识别文本内容的后处理以及自然语言处理。将待处理文本进行预处理;将待处理句子文本中可能出现标点的分词间插入标志;将包含标志的句子编译为加权有限状态转换器形式;将均为加权有限状态转换器形式的句子和语言模型进行合成;对合成出的加权有限状态转换器进行剪枝等处理并求解最优路径;将最优路径上的数字状态索引转换为真实符号并逆序排列,即得经过自动添加标点处理的最终结果。以主要解决语音识别中解码内容无标点等断句信息从而影响文字表达与人工阅读的问题,次要用于任何现成无标点文本自动添加标点的问题。

著录项

  • 公开/公告号CN109410949B

    专利类型发明专利

  • 公开/公告日2021-11-16

    原文格式PDF

  • 申请/专利号CN201811180949.9

  • 发明设计人 洪青阳;赵淼;

    申请日2018-10-11

  • 分类号G10L15/26(20060101);G10L15/183(20130101);G06F40/166(20200101);G06F40/20(20200101);

  • 代理机构35200 厦门南强之路专利事务所(普通合伙);

  • 代理人马应森

  • 地址 361005 福建省厦门市思明南路422号

  • 入库时间 2022-08-23 12:48:50

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号