首页> 中国专利> 基于网页文本内容检测色情赌博域名的方法

基于网页文本内容检测色情赌博域名的方法

摘要

本发明提供一种基于网页文本内容检测色情赌博域名的方法,首先对域名发起HTTP请求,获取域名对应的HTTP文本内容,针对网页内容进行预处理,同时,构建色情、赌博、非色情赌博的三种语料库信息。针对语料库信息,进行分词处理,停用词处理等,构建算法模型的数据集信息。其次,使用语料库中的热点词汇对数据集进行编码处理,使用基于LSTM深度学习算法模型对数据编码进行处理,最后使用SoftMax三分类(色情、赌博、非色情赌博),输出结果。不仅可以解决传统黑名单检测方法中色情赌博域名频繁变更域名,不断扩充黑名单的问题,也能解决传统机器学习算法(SVM、随机森林等)人工提取文本特征的不充分,算法识别精度低等问题。

著录项

  • 公开/公告号CN115146056A

    专利类型发明专利

  • 公开/公告日2022-10-04

    原文格式PDF

  • 申请/专利权人 哈尔滨工业大学(威海);

    申请/专利号CN202210542929.1

  • 申请日2022-05-18

  • 分类号G06F16/35;G06F40/289;G06F40/242;G06N3/04;G06N3/08;

  • 代理机构威海中智弈航专利代理事务所(普通合伙);

  • 代理人唐晓刚

  • 地址 264200 山东省威海市环翠区文化西路2号

  • 入库时间 2023-06-19 17:02:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-04

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号