...
首页> 外文期刊>Сельскохозяйственная биология: Ежемес. науч.-теорет. журн.. Серия биология растения >РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ НАУЧНЫХ ПУБЛИКАЦИЙ ДЛЯ СОЗДАНИЯ БАЗЫ ЗНАНИЙ SOLANUM TUBEROSUM
【24h】

РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ НАУЧНЫХ ПУБЛИКАЦИЙ ДЛЯ СОЗДАНИЯ БАЗЫ ЗНАНИЙ SOLANUM TUBEROSUM

机译:从科学文献的文本中自动提取知识以建立茄属植物的知识库的方法的开发

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

В настоящее время в мире существуют сотни научных журналов, публикующих результаты исследований в различных областях биологии растенийи агробиологии. Сотни тысяч международных патентов содержат сведения по агробиотехнологии. Число статей и патентов со временем растет в экспоненциальной прогрессии. Например, изучению важнейшей сельскохозяйственной культуры Solatium tuberosum L. посвящено более 1,5 млн публикаций. Анализ такого огромного количества экспериментальных фактов, представленных в текстовых источниках (научных публикациях и патентах), требует применения автоматизированных методов извлечения знаний (text-mining). Целью настоящей работы была адаптация методов, представленных в системе ANDSystem, для автоматического извлечения знаний по растениеводству и создание на этой основе базы знаний SOLANUM TUBEROSUM, содержащей информацию по генетике, маркерам, селекции, семеноводству, диагностике возбудителей заболеваний, средствам защиты и технологиям хранения картофеля. Онтология базы знаний включает данные словарей более чем по 20 типам объектов (молекулярно-генетические объекты — белки, гены, метаболиты, микроРНК, биологические процессы, биомаркеры и др.; сорта картофеля и их фенотипические признаки; болезни и вредители картофеля; биотические и абиотические факторы окружающейсреды; агробиотехнологии возделывания, биотехнологии переработки и хранения картофеля и др.). Описание отношений между этими объектами, включая молекулярные, регуля-торные и ассоциативные взаимодействия, содержит более 25 типов связей. Для извлечения информации о взаимодействиях в сумме создано более 5 тыс. семантических шаблонов. Значения точности и полноты извлечения знаний с помощью разработанных правил, оценка которых осуществлялась с привлечением экспертного ручного анализа выборок текстов, составили соответственно более 65 % и 70 %. На основе разработанных подходов предполагается создание полномасштабной версии базы знаний SOLANUM TUBEROSUM.
机译:当前,世界上有数百种科学期刊发表有关植物生物学和农业生物学各个领域的研究成果。数十万项国际专利包含有关农业生物技术的信息。文章和专利的数量随时间呈指数增长。例如,有超过150万种出版物专门用于研究最重要的农作物马铃薯(Solatium tuberosum L)。对文本来源(科学出版物和专利)中呈现的大量实验事实的分析,需要使用自动的知识提取方法(文本挖掘)。这项工作的目的是使ANDSystem中介绍的方法适用于作物生产知识的自动提取,并在此基础上创建SOLANUM TUBEROSUM知识库,其中包含有关遗传学,标记,育种,种子生产,病原体诊断,治疗方法和马铃薯存储技术的信息。知识库本体包括超过20种类型的对象(分子遗传对象-蛋白质,基因,代谢产物,microRNA,生物过程,生物标记等)的字典数据;马铃薯品种及其表型特征;马铃薯病虫害;生物和非生物因素环境;栽培的农业生物技术,马铃薯的加工和储存生物技术等)。这些对象之间的关系(包括分子,调节和缔合相互作用)的描述包含25种以上的连接类型。已经创建了超过5000个语义模板来提取有关交互的信息。使用已开发的规则进行知识提取的准确性和完整性的值分别是在文本样本的专家手动分析的参与下进行的评估,分别超过65%和70%。基于已开发的方法,计划创建SOLANUM TUBEROSUM知识库的完整版本。

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号