首页> 中文学位 >有机小分子结构式图像识别研究
【6h】

有机小分子结构式图像识别研究

代理获取

目录

展开▼

摘要

随着科技的发展,有机小分子在医药、材料、食品等多个领域的研究蓬勃发展,专利和论文的数量呈现爆炸性增长。科研人员往往需要浏览大量的专利、论文、书籍等相关文献,从中分析海量化学结构,研究它们之间的异同,以便从中提取本领域研究的线索和方法。文献中的化学结构往往以图像的方式进行呈现,为了方便科研人员检索这些图像,化学信息库领域专家需要人工将这些图像转为计算机可以处理的字符类表示。科研人员在分析化学结构时,可以通过领域知识获得图像的化学结构表示,进而在化学信息库查询分析相关结构。  面对海量的化学结构式图像,人工将每一个化学结构图像转换为字符形式的SMILES或者Mol文件,是一个非常耗时的过程。因此,需要一种可靠的自动化方法来将原始图像自动转换成相应的化学结构式存储格式。自动识别化学结构式图像的信息表示,将为科研人员提供很大便利,可以辅助科研人员快速判定化学结构式,将其转换为适合检索的格式。  深度学习在目标检测和图像分割上可以通过小模型、小数据量达到检测和分割目的,本文使用光学化学结构识别(Optical Chemical Structure Recognition OCSR)多任务识别方法,结合深度学习目标检测和图像分割方法对平面结构化学结构式进行识别,实现化学结构式图结构的生成和SMILES串表示。重点解决多任务识别方法中的单键、双键、三键矢量化问题和包含桥结构、粘连结构、连接键的图结构生成问题。本文的主要工作和贡献有以下三点:  (1)提出一种OCSR任务中单键、双键、三键矢量化方法。该方法定义了线段间的相对相似性和间隔相似性,在分割算法分割出的化学结构式主结构图像上使用霍夫变换得到线段集合,使用基准线段作为类簇中心,基于相对和间隔相似性对线段进行聚类,实现单键、双键、三键矢量化线段表示。使用同样的相似性度量参数,本文方法在精度上比层次聚类提高3%,耗时仅为层次聚类的44%。  (2)通过多个识别子任务实现了化学结构式图像转图结构,在对桥结构、粘连结构及连接键的处理上,使用深度学习目标检测方法实现桥结构和连接键识别及位置判定,在此基础上对图结构进行调整,解决了桥结构和连接键识别精度问题。  (3)设计化学结构式图像自动识别系统,通过将子任务进行集成,获得图像到SMILES表示。为了方便分析子任务结果优劣,系统实现了子任务的可视化。在系统中实现了输入图像SMILES串与识别结果SMILES串相似性比对功能。基于分子指纹相似性比对方法,实现了自动识别比对结果的仿真实验系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号