首页> 中文学位 >面向行业搜索引擎的WEB文本挖掘技术研究
【6h】

面向行业搜索引擎的WEB文本挖掘技术研究

代理获取

目录

文摘

英文文摘

原创性声明及关于学位论文使用授权的声明

第一章绪论

第二章Web数据挖掘

第三章中文WEB文本挖掘关键技术

第四章面向人名聚类搜索引擎的WEB文本挖掘研究

第五章实验结果与分析

第六章结论与未来工作

参考文献

在读期间研究成果

致谢

展开▼

摘要

随着网络信息技术的发展、Internet应用的逐渐普及,WWW已经成为一个巨大的信息存储、发布空间。但由于其数据的无结构化、无索引、异构性的特点,使得人们很难充分利用其丰富的信息。怎样在浩如烟海的信息中找出自己真正感兴趣的话题,就必须进行WEB文本挖掘,WEB文本挖掘成了数据挖掘的一个很有前途的研究方向。本文以甘肃省自然科学基金“面向行业主题层次聚类搜索引擎的实现”的研发为背景,实现了面向人名的聚类搜索引擎,重点研究了聚类搜索引擎的WEB文本分类聚类技术。在研究过程中,本文在充分学习研究前人工作的基础上,结合IR(InternetRetrival)和信息抽取及数据挖掘的相关知识,提出了补偿式信息抽取的主题文本分类算法,实现了面向人名的聚类搜索引擎的WEB文本挖掘的过程。与Vivisimo相比,由于这是一种针对面向行业领域的应用,其分类聚类的效果非常好,实践证明这是一种行之有效的方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号