首页> 中国专利> 汉泰双语平行语料自动采集的系统及实现方法

汉泰双语平行语料自动采集的系统及实现方法

摘要

一种汉泰双语平行语料自动采集的系统及实现方法,包括汉泰双语平行信息的自动发现、自动提取、自动整理,首先,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;其次,通过访问搜索结果数据库里的网页,自动提取汉泰双语平行信息;最后,针对自动提取的汉泰双语平行信息,进行数据过滤,并将经过过滤处理后的汉泰双语平行数据存放到汉泰双语平行语料库。本发明为汉泰语言研究和机器翻译应用提供重要基础数据,解决了语料采集人员和研究人员所面临的数据来源的问题,为双语语料自动采集的发展和汉泰自然语言处理做出了杰出的贡献。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-31

    发明专利申请公布后的驳回 IPC(主分类):G06F17/30 申请公布日:20151209 申请日:20150713

    发明专利申请公布后的驳回

  • 2016-01-06

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150713

    实质审查的生效

  • 2015-12-09

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号