首页> 中国专利> 汉泰双语平行语料自动采集的系统及实现方法

汉泰双语平行语料自动采集的系统及实现方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

一种汉泰双语平行语料自动采集的系统及实现方法，包括汉泰双语平行信息的自动发现、自动提取、自动整理，首先，制定需要采集语料的关键词组，通过搜索引擎搜索网站，采集网页得到搜索结果，对搜索结果的信息进行过滤和筛选后，将经过滤得搜索结果存储于搜索结果数据库；其次，通过访问搜索结果数据库里的网页，自动提取汉泰双语平行信息；最后，针对自动提取的汉泰双语平行信息，进行数据过滤，并将经过过滤处理后的汉泰双语平行数据存放到汉泰双语平行语料库。本发明为汉泰语言研究和机器翻译应用提供重要基础数据，解决了语料采集人员和研究人员所面临的数据来源的问题，为双语语料自动采集的发展和汉泰自然语言处理做出了杰出的贡献。

著录项

公开/公告号CN105138548A

专利类型发明专利
公开/公告日2015-12-09

原文格式PDF
申请/专利权人广西达译商务服务有限责任公司;南宁市平方软件新技术有限责任公司;
展开▼

申请/专利号CN201510407565.6
发明设计人温家凯;农强;刘连芳;
展开▼

申请日2015-07-13
分类号G06F17/30(20060101);
代理机构北京科亿知识产权代理事务所(普通合伙);
代理人张锋
地址 530007 广西壮族自治区南宁市科园东五路4号508室
入库时间 2023-12-18 12:45:22

法律信息

法律状态公告日

法律状态信息

法律状态
2019-05-31

发明专利申请公布后的驳回 IPC(主分类):G06F17/30 申请公布日:20151209 申请日:20150713

发明专利申请公布后的驳回
2016-01-06

实质审查的生效 IPC(主分类):G06F17/30 申请日:20150713

实质审查的生效
2015-12-09

公开

公开

相似文献

专利
中文文献
外文文献

1. 汉泰双语平行语料自动采集的系统及实现方法 [P] . 中国专利： CN105138548A . 2015-12-09
2. 汉缅双语平行语料自动采集的系统及实现方法 [P] . 中国专利： CN104933195A . 2015-09-23
3. Bilingual corpus update method, bilingual corpus update apparatus, and recording medium storing bilingual corpus update program [P] . 美国专利： US10354646B2 . 2019-07-16

机译：双语语料库更新方法，双语语料库更新装置和存储双语双语语料库更新程序的记录介质
4. BILINGUAL CORPUS UPDATE METHOD, BILINGUAL CORPUS UPDATE APPARATUS, AND RECORDING MEDIUM STORING BILINGUAL CORPUS UPDATE PROGRAM [P] . 美国专利： US2018082681A1 . 2018-03-22

机译：双语语料库更新方法，双语语料库更新装置和记录介质的双语双语语料库更新程序
5. BILINGUAL CORPUS CREATION SYSTEM AND BILINGUAL CORPUS CREATION METHOD [P] . 日本专利： JP2010033392A . 2010-02-12

机译：双语语料库创建系统和双语语料库创建方法