首页> 外文OA文献 >String Matching Techniques: An Empirical AssessmentudBased on Statistics Austria's Business Register
【2h】

String Matching Techniques: An Empirical AssessmentudBased on Statistics Austria's Business Register

机译:字符串匹配技术:实证评估 ud根据奥地利统计局的商业登记

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

The maintenance and updating of Statistics Austria's business registerudrequires a regularly matching of the register against other data sources;udone of them is the register of tax units of the Austrian Federal Ministry ofudFinance. The matching process is based on string comparison via bigrams ofudenterprise names and addresses, and a quality class approach assigning pairsudof register units into classes of different compliance (i.e., matching quality)udbased on bigram similarity values and the comparison of other matching variables,udlike the NACE code or the year of foundation.udBased on methodological research concerning matching techniques carriedudout in the DIECOFIS project, an empirical comparison of the bigram methodudand other string matching techniques was conducted: the edit distance, theudJaro algorithm and the Jaro-Winkler algorithm, the longest common subsequenceudand the maximal match were selected as appropriate alternatives andudevaluated in the study.udThis paper briefly introduces Statistics Austria's business register and the correspondingudmaintenance process and reports on the results of the empiricaludstudy.
机译:维护和更新奥地利统计局的商业登记册 ud需要定期将其与其他数据源进行匹配; 其中一个是奥地利联邦财政部税务部门的登记册。匹配过程基于通过 udenterprise名称和地址的二元组进行字符串比较,以及基于classram相似性值和其他比较的质量类方法,将成对 udof寄存器单元分配为不同一致性(即匹配质量)的类 ud ud类似于NACE代码或成立年份。 ud基于对DIECOFIS项目中采用的 udud匹配技术的方法学研究,对bigram方法 ud和其他字符串匹配技术进行了实证比较:编辑距离, udJaro算法和Jaro-Winkler算法,最长的公共子序列 ud和最大匹配被选为适当的替代方案,并在研究中进行了 udevaluated。实证研究的结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号