首页> 中文学位 >基于特定领域的Web文本信息获取系统的研究与设计
【6h】

基于特定领域的Web文本信息获取系统的研究与设计

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1引言

1.2课题的研究背景与意义

1.2.1 Web文本信息挖掘的难点

1.2.2 Web文本信息挖掘中的关键技术

1.3相关技术与国内外研究现状

1.3.1目前国外的研究现状

1.3.2目前国内的研究现状

1.4本课题研究的内容及工作

1.5论文大纲

第二章 搜索引擎

2.1综述

2.2搜索引擎基本构成及采用技术

2.3搜索引擎的分类及其工作原理

2.3.1搜索引擎的分类

2.3.2搜索引擎的工作原理

2.4搜索引擎的主要指标

2.5现有搜索引擎的不足和缺点

2.6搜索引擎的未来发展趋势

第三章 Web文本挖掘及其技术

3.1文本挖掘的起源和主要任务

3.2 Web文本挖掘的过程及其任务

3.3 Web文本挖掘与Web信息检索的区别

3.4中文分词技术

3.4.1中文分词及其方法

3.4.2中文分词技术的现状

3.4.3中文分词的难点及其处理方法

3.5系统的文档建模

第四章 文本分类

4.1文本分类的定义和应用

4.2文本分类的方法

4.3合理分类的前提

4.4文本分类的过程

4.5分类器

4.5.1概念

4.5.2分类器的类型

4.6文档相似度计算

4.7分类器的准确度评估方法

4.8文本分类的评估指标

第五章 基于特定领域的Web文本信息获取系统的设计

5.1系统的结构框架

5.2系统的模块组成及其功能划分

5.3分类器的选择及训练

5.4特征项集的构造及其原则

第六章 总结与展望

6.1工作总结

6.2进一步研究的方向

参考文献

致谢

攻读学位期间发表的学术论文和取得的科研成果

展开▼

摘要

随着Internet应用的普及,Web已成为人们获取信息的一个主要来源,搜索引擎虽说是人们检索Web信息的有力工具,但缺乏深入了解用户需求的方法和策略,加上Web所具有的开放性、动态性和异构性,使得用户(特别是特定领域的用户)很难快速、准确地从WWW上获取所需的信息。如何发现对我们有用或有益的信息,免受无用或有害信息的侵扰,是摆在我们面前一个值得研究的课题。 本文在讨论了Web的发展、特点及现有搜索引擎所存在缺陷的基础上,从特定领域用户获取Web文本信息的实际应用角度出发,通过从内容和语义上指导Web信息的搜索,尝试设计了一个基于特定领域的Web文本信息获取系统模型,从实现技术上提出了这个系统的体系结构、各组成模块的主要特点及其功能。同时,着重研究了该系统的几项关键技术:Robot技术、Web页面内容的分析和站点结构的分析技术、中文文本的分类问题,包括中文的分词、特征提取、特征匹配及权值计算等的综合应用技术。 论文最后对所做的工作进行了总结,指出了这一系统对特定领域用户从Web上获取有用信息的应用前景和现实的意义,并提出了进一步的研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号