首页> 中文学位 >科技文档中化学结构的描述与搜索
【6h】

科技文档中化学结构的描述与搜索

代理获取

摘要

Internet中存在着大量的化学信息资源,在这些海量信息面前,用户要查找自己需要的信息,必须要借助于搜索引擎。目前,很多化学结构信息采用了系统命名法、线性码等方法进行描述,但是这些化学结构描述方法本身难以实现化学结构的检索,且Google、百度等通用搜索引擎目前只能按文本关键词进行检索。如要有效地利用Internet中这些化学资源,必须要建立针对这些资源的化学结构搜索引擎。
   在分析化学结构不同描述方法的基础上,为方便化学结构的检索,科技文档描述语言ScienceML中采用了CML(Chemical Markup Language)作为描述化学信息的标记语言;结合现代信息检索技术和化学结构检索的特点,设计了一个化学结构搜索引擎(Chem Search),实现了化学结构的全结构、子结构、结构相似性检索。为了在检索时可以快速地查找化学结构,化学结构在数据库中的存储位置采用Hash函数来定位;网络机器人采用“关键词匹配算法”来指导其爬行,以减少搜索范围,提高网页采集性能;化学结构相似性检索采用了改进的基于图特征矩阵索引的检索算法,进一步提高了相似性检索的效率;用户可以通过浏览器直接访问Chem Search,输入要检索化学结构的SMILES或InChI,也可以借助于提供的JME分子编辑器直接绘制出化学结构,并指定检索类型,得到检索结果。
   实验证明Chem Search可以有效地实现对化学结构的检索。下一步的研究重点是如何有效地识别与提取以图片形式表示的化学结构信息,实现对这一部分化学信息的检索,以丰富Chem Search的检索内容。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号