首页> 外国专利> Automatic acquisition of a parallel corpus from a network

Automatic acquisition of a parallel corpus from a network

机译:从网络自动获取并行语料库

摘要

Network pages are identified based on whether the pages include image alternative text that indicates that the network pages contain links to pages that are translations of each other. A plurality of pages and a plurality of respective uniform resource locators are downloaded from a server associated with the domain name of the identified network pages. The uniform resource locators are used to identify a set of candidate parallel page pairs and a set of features are created for each candidate parallel page pair. The sets of features are used to identify parallel page pairs, wherein the pages in a parallel page pair are translations of each other.
机译:基于页面是否包含图像替代文本来识别网络页面,该图像替代文本指示网络页面包含指向彼此翻译的页面的链接。从与所标识的网络页面的域名相关联的服务器下载多个页面和多个相应的统一资源定位符。统一资源定位符用于标识一组候选并行页面对,并为每个候选并行页面对创建一组功能。这些特征集用于识别并行页面对,其中并行页面对中的页面是彼此的翻译。

著录项

  • 公开/公告号US2008168049A1

    专利类型

  • 公开/公告日2008-07-10

    原文格式PDF

  • 申请/专利权人 JIANFENG GAO;YING ZHANG;KE WU;

    申请/专利号US20070650660

  • 发明设计人 KE WU;YING ZHANG;JIANFENG GAO;

    申请日2007-01-08

  • 分类号G06F17/30;

  • 国家 US

  • 入库时间 2022-08-21 20:11:22

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号