首页> 外国专利> SYSTEM, METHOD AND APPARATUS FOR AUTOMATIC TOPIC RELEVANT CONTENT FILTERING FROM SOCIAL MEDIA TEXT STREAMS USING WEAK SUPERVISION

SYSTEM, METHOD AND APPARATUS FOR AUTOMATIC TOPIC RELEVANT CONTENT FILTERING FROM SOCIAL MEDIA TEXT STREAMS USING WEAK SUPERVISION

机译:利用弱监督从社交媒体文本流中自动主题相关内容过滤的系统,方法和装置

摘要

Presented are a system, method, and apparatus for automatic topic relevant content filtering from social media text streams using weak supervision. A computing device utilizes heuristic rules allowing topic filtering and a data stream data chunk identifier. A plurality of messages are transmitted as streaming message data from a social media network in real-time. The messages are split into a plurality of data stream data chunks according to the data stream data chunk identifier. A rule-based labeled data set L0 is built from one or more data instances in the first stream data chunk. An initial classifier is built based upon features of L0. The initial classifier is applied to a next data stream data chunk to build a labeled data set L1. A subset of representative instances S1 is selected from labeled data set L1. A first representative classifier C1 is constructed from representative instance S1.
机译:提出了一种用于使用弱监督从社交媒体文本流中自动过滤主题相关内容的系统,方法和设备。计算设备利用启发式规则,该启发式规则允许主题过滤和数据流数据块标识符。多个消息作为流消息数据从社交媒体网络实时发送。根据数据流数据块标识符,将消息划分为多个数据流数据块。从第一个流数据块中的一个或多个数据实例构建基于规则的标记数据集L 0 。初始分类器是基于L 0 的特征构建的。将初始分类器应用于下一个数据流数据块,以构建标记的数据集L 1 。从标记的数据集L 1 中选择代表实例S 1 的子集。根据代表实例S 1 构造第一个代表性分类器C 1

著录项

  • 公开/公告号US2016117400A1

    专利类型

  • 公开/公告日2016-04-28

    原文格式PDF

  • 申请/专利权人 XEROX CORPORATION;

    申请/专利号US201514877970

  • 发明设计人 ARVIND AGARWAL;CAILING DONG;

    申请日2015-10-08

  • 分类号G06F17/30;G06N5/04;G06N99;

  • 国家 US

  • 入库时间 2022-08-21 14:36:06

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号