首页> 外国专利> Constructing Comparable Corpora with Universal Similarity Measure

Constructing Comparable Corpora with Universal Similarity Measure

机译:通用相似度构建可比语料库

摘要

The invention describes a system and method for creating a comparable corpus by obtaining a set of source documents containing text, constructing language-independent semantic structures for at least one sentence of each of the texts in the source documents; determining universal similarity measures for groups of the source documents by comparing the constructed language-independent semantic structures of the texts in the source documents; identifying sets of similar documents based on the determined universal similarity measures for the groups of the source documents; and creating the comparable corpus based on the identified sets of similar documents.
机译:本发明描述了一种系统和方法,用于通过获得一组包含文本的源文档,为源文档中每个文本的至少一个句子构造与语言无关的语义结构来创建可比语料库;通过比较源文档中文本的构造独立于语言的语义结构,确定源文档组的通用相似性度量;根据所确定的针对原始文档组的通用相似性度量来识别相似文档集;并根据识别出的相似文档集创建可比语料库。

著录项

  • 公开/公告号US2015278197A1

    专利类型

  • 公开/公告日2015-10-01

    原文格式PDF

  • 申请/专利权人 ABBYY INFOPOISK LLC;

    申请/专利号US201514668434

  • 发明设计人 DARIA NIKOLAEVNA BOGDANOVA;

    申请日2015-03-25

  • 分类号G06F17/27;

  • 国家 US

  • 入库时间 2022-08-21 15:24:51

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号