人物信息相关网页过滤方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着信息技术的提高以及智能手机的普及，互联网已经彻底改变了我们的沟通交流和日常实践方式，人们越来越喜欢在社交网络上发表自己的看法与观点，这些活动在网络中留下了宝贵的文本数据资源。而在这些文本数据中蕴藏着大量有关人物介绍的信息，准确获取这些人物信息对于人物画像等领域来说具有重要的意义。此外，互联网文本内容的非正式性使得其在自然语言处理的各个层面都面临着挑战。因此本文以互联网中人物信息相关网页过滤为应用背景，结合网页文本数据预处理相关技术，重点研究了人物信息网页正文文本抽取以及人物信息网页的过滤问题，具体贡献如下：（1）提出基于网页DOM节点路径特征的潜在人物信息文本抽取方法。本文根据网页DOM节点路径与网页文本内容之间存在联系性的特点，建立了主题正文文本与噪声文本的DOM节点路径特征集合，然后对节点路径特征进行聚类挖掘，获取到了主题正文的节点路径类簇，最后通过正文类簇中的节点路径抽取出主题正文文本。实验结果表明，该方法能够适用于不同类型网页的文本抽取工作，具有抽取准确率高、速度快等特点。（2）提出基于人物信息触发词特征的网页过滤方法。本文首先运用主题爬虫技术从互联网上抓取具有潜在人物介绍信息的网页。通过对大量人物信息网页文本内容的观察和分析，发现文本中的人物属性词组附近往往存在着人物触发词信息。基于此特点，本文总结了一些描述人物属性信息的触发词特征。在特征提取的过程中，还提取了网页的结构性特征。最后本文利用支持向量机模型构建分类器,训练并应用于人物信息网页的过滤中。实验结果表明，该方法对人物信息网页能够起到较好的过滤效果，能够解决目前获取人物信息网页难的问题。

著录项

作者
周成阳;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科信息与通信工程
授予学位硕士
导师姓名费高雷;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类图书馆学、图书馆事业;信息与知识传播;
关键词
人物信息; 网页过滤;

相似文献

中文文献
外文文献
专利

1. 面向网页文本内容的网页信息过滤系统设计 [J] . 周天绮 . 电脑知识与技术 . 2009,第027期
2. 基于 SV M的三重网页过滤方法研究 [J] . 李兆翠 ,朱振方 ,许红云 . 软件导刊 . 2014,第011期
3. 基于 SV M的三重网页过滤方法研究 [J] . 李兆翠 ,朱振方 ,许红云 . 软件导刊 . 2014,第011期
4. 基于文件过滤驱动的网页防篡改方法研究 [J] . 王勇 ,何倩 ,何胜韬 . 桂林电子科技大学学报 . 2010,第005期
5. 基于自然语言处理的网页过滤方法研究 [J] . 张茂元 ,邹春燕 . 计算机与数字工程 . 2003,第003期
6. 基于信息类别的网页过滤算法 [C] . 吕月娥 ,李信利 . 第二十届全国计算机信息管理学术研讨会 . 2006
7. 基于向量空间模型的网页信息过滤方法研究 [A] . 吴新涛 . 2007

人物信息相关网页过滤方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅