互联网上少数民族信息统计分析的关键技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络的迅速发展，互联网已成为海量信息的载体。搜索引擎的出现为人们使用互联网提供了较好的便利性，同时也成为研究网站用户行为的有效工具。近年来伴随着网络的兴起，民族问题是困扰我国发展的一大障碍，其在互联网中的传播也愈来愈突出。如何运用已有搜索引擎对互联网中民族问题的传播进行监督成为目前网络舆情监控的一大课题。本文着重对网络中民族问题特定信息提取面临的关键技术进行研究。
　　本文首先介绍了聚焦搜索引擎及相关关键技术发展概况及原理，重点介绍了常见的网页分类算法、网页关键信息提取及抓取策略，为本文所设计的基于搜索引擎的聚焦爬虫算法及实现提供理论基础。搜索引擎搜索结果并不能完全与用户的需求匹配，且在某些情况下给出的搜索信息量明显不足。因此对搜索引擎搜索结果进行进一步聚焦搜索具有一定的价值。
　　互联网中信息主要以HTML页面形式出现，而HTML具有明显的分类特点。网页代码中大量的信息与搜索信息关联度很低，使得优化网页代码搜索机制显得极其重要。由于搜索的目的性较强，使得搜索的要求，如对特定事件中网页的共同特点，具有明显的结构化，因此选用空间向量对网页代码进行简化，并基于向量空间模型对问题进行算法设计。
　　算法首先将模型分为两大模块，百度搜索模块和聚焦搜索模块。百度搜索模块通过算法实现对搜索词在百度搜索引擎上进行抓取搜索结果对应的URL等信息，得到相应的初始URL队列;聚焦搜索模块实现以此初始URL队列作为起点，基于空间向量模型通过KNN分类算法在网络中实现聚焦爬虫搜索，得到相应的搜索结果。
　　最后本文完成对算法的初步实现，并对结果进行简要统计分析。通过搜索结果中所含信息的特点与社会中影响网络传播的事件进行分析，得到搜索结果与社会中敏感信息来源匹配，证明搜索结果的可操作性和有效性，为算法实现的进一步优化提供数据支持。

著录项

作者
王运松;
展开▼
作者单位

中央民族大学;

展开▼
授予单位中央民族大学;
学科基础数学
授予学位硕士
导师姓名徐世英;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
互联网; 少数民族; 信息提取; 舆情监控; 聚焦搜索; KNN分类算法;

相似文献

中文文献
外文文献
专利

1. 少数民族文字信息在互联网上的共享技术 [J] . 李刚 ,吾守尔·斯拉木 ,陈卫东 . 计算机应用 . 2004,第0z1期
2. 互联网上的农业信息资源(三):互联网农业信息资源开发项目 [J] . 国立 . 调研世界 . 2000,第004期
3. 语言文字规范问题中的数学分析--以互联网上缩略语的统计分析为例 [J] . 李治平 . 湖北师范学院学报（哲学社会科学版） . 2004,第001期
4. 快速准确获取因特网上的教育信息资源——互联网上搜索技巧 [J] . 冯家俊 ,陆逊 . 江苏教育 . 2002,第07B期
5. “中国梦”在互联网上大放异彩--访中国互联网络信息中心（CNNIC）执行主任李晓东 [J] . 廖潇莎 . 科学中国人 . 2014,第002期
6. 重金属冶金:在科技创新中最新科技信息的获得——简介互联网上重冶相关科技信息资源的利用 [C] . 刘业翔 . 中国重有色金属工业发展战略研讨会暨重冶学委会第四届学术年会 . 2003
7. 互联网上基于粗糙集的不良文本信息监控关键技术研究及实现 [A] . 张广成 . 2006

互联网上少数民族信息统计分析的关键技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅