首页> 美国卫生研究院文献>other >Synthesizer: Expediting synthesis studies from context-free data with information retrieval techniques
【2h】

Synthesizer: Expediting synthesis studies from context-free data with information retrieval techniques

机译:合成器:利用信息检索技术加快无上下文数据的合成研究

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Scientists have unprecedented access to a wide variety of high-quality datasets. These datasets, which are often independently curated, commonly use unstructured spreadsheets to store their data. Standardized annotations are essential to perform synthesis studies across investigators, but are often not used in practice. Therefore, accurately combining records in spreadsheets from differing studies requires tedious and error-prone human curation. These efforts result in a significant time and cost barrier to synthesis research. We propose an information retrieval inspired algorithm, Synthesize, that merges unstructured data automatically based on both column labels and values. Application of the Synthesize algorithm to cancer and ecological datasets had high accuracy (on the order of 85–100%). We further implement Synthesize in an open source web application, Synthesizer (). The software accepts input as spreadsheets in comma separated value (CSV) format, visualizes the merged data, and outputs the results as a new spreadsheet. Synthesizer includes an easy to use graphical user interface, which enables the user to finish combining data and obtain perfect accuracy. Future work will allow detection of units to automatically merge continuous data and application of the algorithm to other data formats, including databases.
机译:科学家可以前所未有地访问各种高质量的数据集。这些通常独立管理的数据集通常使用非结构化电子表格来存储其数据。标准化注释对于在研究人员中进行综合研究至关重要,但在实践中通常不使用。因此,准确地组合来自不同研究的电子表格中的记录需要繁琐且容易出错的人员管理。这些努力对合成研究造成了重大的时间和成本障碍。我们提出了一种受信息检索启发的算法Synthesize,该算法基于列标签和值自动合并非结构化数据。将Synthesize算法应用于癌症和生态数据集具有很高的准确性(大约85-100%)。我们进一步在开源Web应用程序Synthesizer()中实现Synthesize。该软件接受以逗号分隔值(CSV)格式作为电子表格输入的内容,可视化合并后的数据,并将结果作为新的电子表格输出。合成器包括易于使用的图形用户界面,使用户能够完成数据组合并获得完美的精度。未来的工作将允许检测单元以自动合并连续数据,并将算法应用于其他数据格式(包括数据库)。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号