首页> 中国专利> 一种基于词嵌入与自编码器融合的生物序列特征提取方法

一种基于词嵌入与自编码器融合的生物序列特征提取方法

摘要

本发明公开了一种基于词嵌入与自编码器融合的生物序列特征提取方法。该方法包括:构建表示模型和压缩模型,表示模型包含词嵌入网络,压缩模型是自编码器模型,包括编码器和解码器;以设定的总损失函数最小化为优化目标,联合训练表示模型和压缩模型,其中词嵌入网络以短序列Kmer集合作为输入,并通过遮挡部分短序列Kmer,对序列中的Kmer进行上下文关联,学习序列中每个Kmer的嵌入向量,获得组成序列的Kmer对应的嵌入信息;压缩模型的编码器将该嵌入信息转化为低维特征向量,并通过解码器解码重构序列的Kmer嵌入,输出重构向量;利用该重构向量对序列中被遮挡的Kmer进行分类。本发明实现生物序列的高效表征,保证了后续分类的准确性。

著录项

  • 公开/公告号CN113392929A

    专利类型发明专利

  • 公开/公告日2021-09-14

    原文格式PDF

  • 申请/专利权人 中国科学院深圳先进技术研究院;

    申请/专利号CN202110747940.7

  • 发明设计人 杨金;蔡云鹏;肖瑞;

    申请日2021-07-01

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11430 北京市诚辉律师事务所;

  • 代理人耿慧敏;朱伟军

  • 地址 518055 广东省深圳市南山区深圳大学城学苑大道1068号

  • 入库时间 2023-06-19 12:35:33

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号