【24h】

Detecting Invalid Dictionary Entries for Biomedical Text Mining

机译:检测用于生物医学文本挖掘的无效词典条目

获取原文
获取原文并翻译 | 示例

摘要

In text mining, to calculate precise keyword frequency distributions in a particular document collection, we need to map different keywords that denote the same entity to a canonical form. In the life science domain, we can construct a large dictionary that contains the canonical forms and their variants based on the information from external resources and use this dictionary for the term aggregation. However, in this automatically generated dictionary, there are many invalid entries that have negative effects on the calculations of keyword frequencies. In this paper, we propose and test methods to detect invalid entries in the dictionary.
机译:在文本挖掘中,要计算特定文档集中精确的关键字频率分布,我们需要将表示同一实体的不同关键字映射为规范形式。在生命科学领域,我们可以根据来自外部资源的信息构建一个包含规范形式及其变体的大型词典,并将该词典用于术语聚合。但是,在此自动生成的词典中,有许多无效条目会对关键字频率的计算产生负面影响。在本文中,我们提出并测试了检测字典中无效条目的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号