Incremental entity fusion from linked documents

机译：链接文档中的增量实体融合

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

In many government applications, especially for intelligence and law-enforcement, we often find that information about entities, such as persons or even companies, are available in disparate data sources. For example, information distributed across passports, driving licences, bank accounts, and income tax documents that need to be resolved and fused to reveal a consolidated profile of an individual. In this paper we describe an algorithm to fuse documents that are highly likely to belong to the same entity by exploiting inter-document references in addition to attribute similarity. Our technique uses a combination of iterative graph-traversal, locality-sensitive hashing, iterative match-merge, and graph-clustering to discover unique entities based on a document corpus. Further, new sets of documents can be added incrementally while having to re-process only a small subset of a previously fused entity-document collection. We present performance and quality results via both Bayesian likelihood fusion as well as using Support Vector Machines to demonstrate benefit of using inter-document references, both to improve accuracy as well as for detecting attempts at deliberate obfuscation.

机译：在许多政府应用程序中，特别是在情报和执法方面，我们经常发现有关实体（例如个人甚至公司）的信息可在不同的数据源中获得。例如，跨护照，驾驶执照，银行帐户和所得税文件分发的信息需要解决和融合以显示个人的综合资料。在本文中，我们描述了一种算法，除了属性相似性之外，还通过利用文档间引用来融合很可能属于同一实体的文档。我们的技术结合使用了迭代图遍历，局部敏感哈希，迭代匹配合并和图聚类来发现基于文档语料库的唯一实体。此外，可以递增地添加新的文档集，而仅需重新处理先前融合的实体文档集合的一小部分。我们通过贝叶斯似然融合以及使用支持向量机来展示性能和质量结果，以证明使用文档间引用的好处，既可以提高准确性，也可以检测故意混淆的尝试。

著录项

来源
《International Conference on Information Fusion》|2014年|1-8|共8页
会议地点
作者
Malhotra Pankaj; Agarwal Puneet; Shroff Gautam;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Bayes methods; Boolean functions; Databases; Fuses; Licenses; Silicon; Support vector machines;

机译：贝叶斯方法;布尔函数;数据库;保险丝;许可证;硅;支持向量机;

相似文献

外文文献
中文文献
专利

1. Entanglement entropy for T T ˉ documentclass[12pt]{minimal} usepackage{amsmath} usepackage{wasysym} usepackage{amsfonts} usepackage{amssymb} usepackage{amsbsy} usepackage{mathrsfs} usepackage{upgreek} setlength{oddsidemargin}{-69pt} egin{document}$$ mathrm{T}overline{mathrm{T}} $$end{document} , J T ˉ documentclass[12pt]{minimal} usepackage{amsmath} usepackage{wasysym} usepackage{amsfonts} usepackage{amssymb} usepackage{amsbsy} usepackage{mathrsfs} usepackage{upgreek} setlength{oddsidemargin}{-69pt} egin{document}$$ mathrm{J}overline{mathrm{T}} $$end{document} , T J ˉ documentclass[12pt]{minimal} usepackage{amsmath} usepackage{wasysym} usepackage{amsfonts} usepackage{amssymb} usepackage{amsbsy} usepackage{mathrsfs} usepackage{upgreek} setlength{oddsidemargin}{-69pt} egin{document}$$ mathrm{T}overline{mathrm{J}} $$end{document} deformed holographic CFT [J] . Soumangsu Chakraborty, Akikazu Hashimoto The journal of high energy physics . 2021,第2期

机译：为<直列式ID = “IEq1”> <替代>纠缠熵 T T ˉ < TEX-数学ID = “IEq1_TeX”> 的DocumentClass [12磅] {最小} usepackage {amsmath} usepackage {wasysym} usepackage {amsfonts} usepackage {amssymb} usepackage {amsbsy} usepackage {mathrsfs} usepackage { upgreek} setlength { oddsidemargin} { - 69pt} {开始文档} $$ mathrm【T} {划线 mathrm【T}} $$ {端文档} <直列图形的xlink：HREF = “MediaObjects / 13130__14822_IEq1.gif”/> ，<直列式ID = “IEq2”> <替代> Ĵ T ˉ 的DocumentClass [12磅] {最小} {usepackage amsmath} {usepackage wasysym} {usepackage amsfonts} {usepackage amssymb} {usepackage amsbsy} {usepackage mathrsfs} {usepackage upgreek} setlength { oddsidemargin} { - 69pt} {开始文档} $$ mathrm {Ĵ} 上划线{ mathrm【T}} $$ {端文档} <直列图形的xlink：HREF = “MediaObjects / 13130__14822_IEq2.gif”/> ，<直列式ID = “IEq3”> <替代> T < MML：MI mathvariant = “正常”>Ĵ ˉ 的DocumentClass [12磅] {最小} usepackage {amsmath} usepackage {wasysym} usepackage {amsfonts} usepackage {amssymb} usepackage {amsbsy} usepackage {mathrsfs} usepackage {upgreek} setlength { oddsidemargin} { - 69pt} {开始文档} $$ mathrm【T} {划线 mathrm {Ĵ}} $$ {端文档} <直列图形的xlink：HREF = “MediaObjects / 13130__14822_IEq3.gif”/> 变形全息CFT
2. Top-induced contributions to H → b b ˉ documentclass[12pt]{minimal} usepackage{amsmath} usepackage{wasysym} usepackage{amsfonts} usepackage{amssymb} usepackage{amsbsy} usepackage{mathrsfs} usepackage{upgreek} setlength{oddsidemargin}{-69pt} egin{document}$$ boverline{b} $$end{document} and H → c c ˉ documentclass[12pt]{minimal} usepackage{amsmath} usepackage{wasysym} usepackage{amsfonts} usepackage{amssymb} usepackage{amsbsy} usepackage{mathrsfs} usepackage{upgreek} setlength{oddsidemargin}{-69pt} egin{document}$$ coverline{c} $$end{document} at O α s 3 documentclass[12pt]{minimal} usepackage{amsmath} usepackage{wasysym} usepackage{amsfonts} usepackage{amssymb} usepackage{amsbsy} usepackage{mathrsfs} usepackage{upgreek} setlength{oddsidemargin}{-69pt} egin{document}$$ mathcal{O}left({lpha}_s^3ight) $$end{document} [J] . Roberto Mondini, Ulrich Schubert, Ciaran Williams The journal of high energy physics . 2020,第12期

机译：顶部引起的<斜体> h →<内联公式id =“IEQ1”> <替代方案> b < MML：MOVER ACCENT =“TRUE”> B ˉ documentClass [12pt] {minimal} usepackage {ammath} usepackage {keysym} usepackage {amsfonts} usepackage {amssys} usepackage {mathrsfs} usepackage {supmeek} setLength { oddsidemargin} { - 69pt} begin {document} $$ b overline {b} $$ end {document} 和<斜体> h →<内联公式id =”IEQ2“> <替代方案> C C ˉ documentclass [12pt] {minimal} usepackage {ammath} usepackage {isysym} usepackage {amsfonts} usepackage {amssymb} u sepackage {amsbsy} usepackage {mathrsfs} usepackage {supmeek} setLength { oddsidemargin} { - 69pt} begin {document} $$ c overline {c} $$ end {document} 在 < mml：mi mathvariant =“script”> α S 3 DocumentClass [12pt] {minimal} usepackage {ammath} usepackage {keysym} usepackage {amsfonts} usepackage {amssysfs} usepackage {mathrsfs} usepackage {supmeek} setLength { oddsidemargin} { -69pt} begin {document} $$$ mathcal {o} left（{ alpha} _s ^ 3 右）$$ end {document}
3. Thermodynamics of T T ˉ documentclass[12pt]{minimal} usepackage{amsmath} usepackage{wasysym} usepackage{amsfonts} usepackage{amssymb} usepackage{amsbsy} usepackage{mathrsfs} usepackage{upgreek} setlength{oddsidemargin}{-69pt} egin{document}$$ mathrm{T}overline{mathrm{T}} $$end{document} , J T ˉ documentclass[12pt]{minimal} usepackage{amsmath} usepackage{wasysym} usepackage{amsfonts} usepackage{amssymb} usepackage{amsbsy} usepackage{mathrsfs} usepackage{upgreek} setlength{oddsidemargin}{-69pt} egin{document}$$ mathrm{J}overline{mathrm{T}} $$end{document} , T J ˉ documentclass[12pt]{minimal} usepackage{amsmath} usepackage{wasysym} usepackage{amsfonts} usepackage{amssymb} usepackage{amsbsy} usepackage{mathrsfs} usepackage{upgreek} setlength{oddsidemargin}{-69pt} egin{document}$$ mathrm{T}overline{mathrm{J}} $$end{document} deformed conformal field theories [J] . Soumangsu Chakraborty, Akikazu Hashimoto The journal of high energy physics . 2020,第7期

机译：<内联公式ID =“IEQ1”> <替代品> T t ˉ DocumentClass [12pt] {minimal} usepackage {ammath} usepackage {isysym} usepackage {amsfonts} usepackage {amssys} usepackage {mathrsfs} usepackage {mathrsfs} usepackage {supbeek } setLength { oddsidemargin} { - 69pt} begin {document} $$ mathrm {t} overline { mathrm {t}} $$ end {document} <内联图xlink ：href =“13130_2020_13473_ARTICLICLE_IEQ1.gif”/> ， Ĵ T ˉ< / mml：mo> DocumentClass [12pt] {minimal} usepackage {ammath} usepackage {keysym} usepackage {amsfonts} usepackage {amssymb} usepackage {amsbsy} usepackage {mathrsfs} usepackage {supmeek} setLength { oddsideDemargin} {-69pt} begin {document} $$$$ mathrm {j} overline { $$ end {document} ，<内联公式id =“IEQ3”> <替代方案> T J ˉ 的DocumentClass [12磅] {最小} usepackage {amsmath} usepackage {wasysym} usepackage {amsfonts} usepackage {amssymb} usepackage {amsbsy} usepackage {mathrsfs} usepackage {upgreek} setlength { oddsidemargin} {-69pt} begin {document} $$ mathrm {t} overline { mathrm {t}} $$ end {document} 变形的保形磁场领域IES.
4. Incremental entity fusion from linked documents [C] . Malhotra Pankaj, Agarwal Puneet, Shroff Gautam International Conference on Information Fusion . 2014

机译：来自链接文档的增量实体融合
5. Multi-document Summarization Based on Document Clustering and Neural Sentence Fusion [D] . Fuad, Tanvir Ahmed. 2018

机译：基于文档聚类和神经句子融合的多文件摘要
6. A document processing pipeline for annotating chemical entities in scientific documents [O] . David Campos, Sérgio Matos, José L Oliveira 2015

机译：用于在科学文件中注释化学实体的文件处理管道
7. Incremental Entity Resolution from Linked Documents [O] . Malhotra, Pankaj, Agarwal, Puneet, Shroff, Gautam 2014

机译：链接文档的增量实体解析

Incremental entity fusion from linked documents

摘要

著录项

相似文献

相关主题

期刊订阅