【24h】

Unsupervised Discrimination of Person Names in Web Contexts

机译:Web背景下的人名的无人监督歧视

获取原文

摘要

Ambiguous person names are a problem in many forms of written text, including that which is found on the Web. In this paper we explore the use of unsupervised clustering techniques to discriminate among entities named in Web pages. We examine three main issues via an extensive experimental study. First, the effect of using a held–out set of training data for feature selection versus using the data in which the ambiguous names occur. Second, the impact of using different measures of association for identifying lexical features. Third, the success of different cluster stopping measures that automatically determine the number of clusters in the data.
机译:含糊不清的人名是许多形式的书面文本中的问题,包括在网上找到的。在本文中,我们探讨了使用无监督的聚类技术来区分在网页中名为的实体之间。我们通过广泛的实验研究来研究三个主要问题。首先,使用展示训练数据的效果来使用特征选择与其中发生模糊名称的数据。二,采用不同措施识别词汇特征的影响。第三,不同群集停止措施的成功,可自动确定数据中的群集数。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号