首页> 中文学位 >人物信息相关网页过滤方法研究
【6h】

人物信息相关网页过滤方法研究

代理获取

目录

第一个书签之前

展开▼

摘要

近年来,随着信息技术的提高以及智能手机的普及,互联网已经彻底改变了我们的沟通交流和日常实践方式,人们越来越喜欢在社交网络上发表自己的看法与观点,这些活动在网络中留下了宝贵的文本数据资源。而在这些文本数据中蕴藏着大量有关人物介绍的信息,准确获取这些人物信息对于人物画像等领域来说具有重要的意义。此外,互联网文本内容的非正式性使得其在自然语言处理的各个层面都面临着挑战。因此本文以互联网中人物信息相关网页过滤为应用背景,结合网页文本数据预处理相关技术,重点研究了人物信息网页正文文本抽取以及人物信息网页的过滤问题,具体贡献如下: (1)提出基于网页DOM节点路径特征的潜在人物信息文本抽取方法。本文根据网页DOM节点路径与网页文本内容之间存在联系性的特点,建立了主题正文文本与噪声文本的DOM节点路径特征集合,然后对节点路径特征进行聚类挖掘,获取到了主题正文的节点路径类簇,最后通过正文类簇中的节点路径抽取出主题正文文本。实验结果表明,该方法能够适用于不同类型网页的文本抽取工作,具有抽取准确率高、速度快等特点。 (2)提出基于人物信息触发词特征的网页过滤方法。本文首先运用主题爬虫技术从互联网上抓取具有潜在人物介绍信息的网页。通过对大量人物信息网页文本内容的观察和分析,发现文本中的人物属性词组附近往往存在着人物触发词信息。基于此特点,本文总结了一些描述人物属性信息的触发词特征。在特征提取的过程中,还提取了网页的结构性特征。最后本文利用支持向量机模型构建分类器,训练并应用于人物信息网页的过滤中。实验结果表明,该方法对人物信息网页能够起到较好的过滤效果,能够解决目前获取人物信息网页难的问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号