首页> 外国专利> Aligning hierarchial and sequential document trees to identify parallel data

Aligning hierarchial and sequential document trees to identify parallel data

机译:对齐分层和顺序文档树以标识并行数据

摘要

A set of candidate parallel pages is identified based on trigger words in one or more pages downloaded from a given network location (such as a website). A set of document trees representing each of the candidate pages are aligned to identify translationally parallel content and hyperlinks. The parallel content is further fed into conventional sentence aligner for parallel sentences. And the parallel hyperlinks usually refer to other parallel documents, and lead to a recursive mining of parallel documents.
机译:基于从给定网络位置(例如网站)下载的一个或多个页面中的触发词来标识一组候选并行页面。对齐表示每个候选页面的一组文档树,以标识翻译上并行的内容和超链接。并行内容被进一步馈送到用于并行句子的常规句子对齐器中。并行超链接通常引用其他并行文档,并导致对并行文档的递归挖掘。

著录项

  • 公开/公告号US8073679B2

    专利类型

  • 公开/公告日2011-12-06

    原文格式PDF

  • 申请/专利权人 MING ZHOU;CHENG NIU;LEI SHI;

    申请/专利号US20100842177

  • 发明设计人 MING ZHOU;CHENG NIU;LEI SHI;

    申请日2010-07-23

  • 分类号G06F17/28;G06F17/20;

  • 国家 US

  • 入库时间 2022-08-21 17:25:37

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号