首页> 中国专利> 一种基于混合特征的中文文档基因提取方法

一种基于混合特征的中文文档基因提取方法

摘要

本发明涉及一种基于混合特征的中文文档基因提取方法。该方法针对中文文档格式,面向文档逃避检查场景,提出了文档载体特征、属性特征、内容特征融合的混合特征,首次将顺序关系引入内容特征,作为内容特征的有效补充,并最终形成一种相对层次清晰的文档基因表征。基于该基因表征,进一步提出了基于短语特征提取的顺序关系特征提取方法,并对混合特征中的其他特征提出了可操作的特征提取方法。基于本发明混合特征提取的文档基因,对降低文档分析的时间复杂度、防逃避检查具有重要帮助作用,可实现性和实用性较强。

著录项

  • 公开/公告号CN107526719B

    专利类型发明专利

  • 公开/公告日2020-10-09

    原文格式PDF

  • 申请/专利权人 北京云量数盟科技有限公司;

    申请/专利号CN201610434439.4

  • 发明设计人 李岩;

    申请日2016-06-19

  • 分类号G06F40/205(20200101);G06F40/279(20200101);G06F40/194(20200101);

  • 代理机构11472 北京方安思达知识产权代理有限公司;

  • 代理人陈琳琳;杨青

  • 地址 100012 北京市朝阳区水岸南街16号4层420

  • 入库时间 2022-08-23 11:16:04

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号