首页> 中国专利> 电商评论分类任务中数据集的建立和后续优化及扩充方案

电商评论分类任务中数据集的建立和后续优化及扩充方案

摘要

本发明涉及一种电商评论分类任务中数据集的建立和后续优化及扩充方案,其特征在于,包括如下步骤:S1.对收集到的评论进行预处理;S2.利用人工标注平台按照步骤S1制定的标注规范进行标注,生成最初的数据集;S3.将步骤S1中预处理后的大量无标签的电商评论作为语料,采用Skip‑Gram模型训练出适用于电商评论的词向量,用于后续的模型训练,和数据集的扩充和优化;S4.利用词向量对现有数据集进行扩充;S5.利用模型的实际自动标注结果,结合词向量对现有数据集进行优化;S6.重复步骤S3至步骤S5,以实现数据集的持续更新。其优点表现在:降低人工标注耗费的时间和人力,同时在最初的数据集生成之后,能够进行持续的扩充和优化以满足后续自然语言处理的要求。

著录项

  • 公开/公告号CN110096574A

    专利类型发明专利

  • 公开/公告日2019-08-06

    原文格式PDF

  • 申请/专利权人 上海宝尊电子商务有限公司;

    申请/专利号CN201910375040.7

  • 发明设计人 郑圆;丁丁;李平章;王航;

    申请日2019-05-07

  • 分类号

  • 代理机构上海卓阳知识产权代理事务所(普通合伙);

  • 代理人周春洪

  • 地址 200436 上海市静安区万荣路1188弄1、2、3号108室

  • 入库时间 2024-02-19 12:09:05

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-30

    实质审查的生效 IPC(主分类):G06F16/33 申请日:20190507

    实质审查的生效

  • 2019-08-06

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号