首页> 中国专利> 一种基于词网络的偶发敏感词发现方法

一种基于词网络的偶发敏感词发现方法

摘要

一种基于词网络的偶发敏感词发现方法,借助互联网公开文本数据或者其他渠道获取的互联网文本信息,以及对应的文本语言设置和发文具体时间;提取文本,以时间粒度(一般设定为1天)为单位进行时间划分,结合既有的常见敏感词词典筛选特定语言的敏感文本,按照文本中标点符号的位置切割得到若干短文本,对短文本进行分词处理;以短文本为基础构建词网络,计算词网络的最大K‑core值,以及网络中每个单词的K‑core值和核心系数;对选定的核心词,提取该核心词在指定历史时期(一般设定为30天)内处于核心位置的次数,以及在指定历史时期内不处于核心位置的时间段的平均核心系数,最后利用检测公式发现词网络中的偶发敏感词。

著录项

  • 公开/公告号CN111460796B

    专利类型发明专利

  • 公开/公告日2022-04-08

    原文格式PDF

  • 申请/专利权人 北京航空航天大学;

    申请/专利号CN202010234909.9

  • 发明设计人 赵吉昌;赵怡雯;杨阳;盛浩;

    申请日2020-03-30

  • 分类号G06F40/242(20200101);G06F40/284(20200101);G06F40/289(20200101);G06F16/951(20190101);

  • 代理机构11003 北京中创阳光知识产权代理有限责任公司;

  • 代理人尹振启

  • 地址 100191 北京市海淀区学院路37号

  • 入库时间 2022-08-23 13:25:29

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号