首页> 外文OA文献 >Desarrollo de un sistema de indexación y búsqueda sobre la base de datos de biomedicina MEDLINE
【2h】

Desarrollo de un sistema de indexación y búsqueda sobre la base de datos de biomedicina MEDLINE

机译:基于MEDLINE生物医学数据库的索引和搜索系统的开发

摘要

Nuestro proyecto consiste en crear dos sistemas de indexación y búsqueda sobre la base de datos de biomedicina MEDLINE, con dos tecnologías distintas de manera que se pueda evaluar cual de ellas es la más adecuada para tratar con MEDLINE.udMEDLINE es la mayor base de datos de referencias bibliograficas en el área biomédica, tiene mas de 15 millones de referencias recopiladas por la LibreríaudNacional de Medicina Estadounidense (NML) desde el año 1965. MEDLINE se distribuye en formato XML y ocupa alrededor de 55 GB, lo cual hace imprescindible una evaluación del rendimiento a la hora de elegir una tecnología para manejar los datos.udLas tecnologías elegidas son Lucene y PostgreSQL. PostgreSQL es un sistema de bases de datos relacional similar MySQL o Oracle, pero suele ser mas robusta queudestas cuando trata con bases de datos muy grandes y Lucene es una Scalable Information Retrieval Library (IR) implementada en java y parte de la familia de proyectos de Apache Jakarta, es decir, Lucene crea bases de datos totalmente textuales y permite realizar búsquedas sobre ellas.udud[ABSTRACT]udThe current project consists of creating two indexing and searching systems over the biomedicine database MEDLINE, with two different technologies in order to evaluate which one of them is more suited to deal with MEDLINE. MEDLINE isudthe largest database of bibliography references in the biomedical area; it has more than fifteen millions of references collected by the United States National MedicineudLibrary (NML) since year 1965. MEDLINE is distributed in XML format and its size is about fifty five Gigabytes, which makes an evaluation of the performance of each technology definitely essential to make a proper choice to handle the data processing.udThe chosen technologies are Lucene and PostgreSQL. PostgreSQL is a system of relational databases similar to MySQL or Oracle, but tends to be stronger when processing massive databases. Lucene is one Scalable Information Retrieval Library (IR) implemented using Java and part of the projects family known as Apache Jakarta, that is to say Lucene create fully textual databases and allows performing searches through them.ud
机译:我们的项目包括在MEDLINE生物医学数据库上创建两个索引和搜索系统,并使用两种不同的技术,以便可以对其中的哪一种最适合处理MEDLINE进行评估。 UdMEDLINE是最大的数据库生物医学领域的书目参考文献自1965年以来已由美国国家医学图书馆(NML)收集了1500万份参考文献。MEDLINE以XML格式分发,占用约55 GB的空间,这对于选择用于处理数据的技术时的性能评估 ud所选择的技术是Lucene和PostgreSQL。 PostgreSQL是类似于MySQL或Oracle的关系数据库系统,但是在处理非常大的数据库时通常比 udestas更强大,而Lucene是用Java实现的可伸缩信息检索库(IR),并且是该系列的一部分 ud ud [ABSTRACT] ud当前的项目包括在生物医学数据库MEDLINE上创建两个索引和搜索系统,其中两个不同为了评估其中哪一种更适合处理MEDLINE。 MEDLINE是生物医学领域最大的书目参考数据库。自1965年以来,它已被美国国家医学 udLibrary(NML)收集了超过一千五百万份参考文献。MEDLINE以XML格式分发,其大小约为55千兆字节,因此绝对可以评估每种技术的性能。做出正确选择以处理数据的必要条件。 ud所选的技术是Lucene和PostgreSQL。 PostgreSQL是一个与MySQL或Oracle类似的关系数据库系统,但是在处理海量数据库时往往更强大。 Lucene是一个可扩展信息检索库(IR),它使用Java和称为Apache Jakarta的项目家族的一部分来实现,也就是说Lucene可以创建全文本数据库并允许通过它们进行搜索。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号