首页> 中国专利> 基于Web采集与文本特征均衡分布的语料库构建方法

基于Web采集与文本特征均衡分布的语料库构建方法

摘要

一种基于Web采集与文本特征均衡分布的语料库构建方法,利用Web进行语料收集,采用基于词典的方式对预处理后的生语料进行标注,利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序,形成按照降序排列的语料素材序列,利用这些序列可以实现任意规模的最逼近的语料子库。例如可以通过增量方式对电力语料库进行更新,从而建立起能够自由扩充的电力行业专用语料库。同时量化排序后的语料素材序列支持对语料库进行子集化操作,即取得一部分语料库的素材,使其尽可能地代表原始语料库的相关特性,从而开展语料库的离线应用。

著录项

  • 公开/公告号CN109522549B

    专利类型发明专利

  • 公开/公告日2022-06-10

    原文格式PDF

  • 申请/专利权人 云南电网有限责任公司信息中心;

    申请/专利号CN201811273931.3

  • 发明设计人 林宝德;张新阳;张梅;

    申请日2018-10-30

  • 分类号G06F40/216;G06F40/289;G06F16/35;G06F16/9535;G06Q50/06;

  • 代理机构北京晋德允升知识产权代理有限公司;

  • 代理人王戈

  • 地址 650041 云南省昆明市拓东路73号

  • 入库时间 2022-08-23 13:49:40

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号