首页> 中文学位 >应用于搜索引擎的人物分类系统设计与实现
【6h】

应用于搜索引擎的人物分类系统设计与实现

代理获取

目录

文摘

英文文摘

声明

1 绪论

2 系统分析

3 系统设计

4 系统实现

5 系统测试

6 总结与展望

致 谢

参考文献

展开▼

摘要

随着互联网技术的高速发展,在逐渐庞大的Web 资源库中,愈发难以快速精确的查找有效信息,因此,针对不同的搜索需求,需要采用专用的检索方式和搜索引擎提供个性化服务,以实现高效搜索。通过研究人物搜索引擎的架构和工作流程,本文提出了应用于搜索引擎的人物分类系统,该系统能够实现文本集合的信息抽取与聚类分析,详细阐述了人物分类系统的实现过程,重点研究了系统的关键技术:
   Web 信息抽取技术和文本聚类技术,并通过系统测试证实了系统的实用性与系统关键技术的有效性。
   Web 信息抽取技术旨在自动抽取Web 文档中的有效信息。本文提出了针对人物的信息抽取算法,能够抽取Web 文档中的高频词汇以及相关人物的重要属性(出生年份、职业、地名和机构名等),并详细阐述了信息抽取算法的设计方法与实现过程。
   文本聚类技术是文本挖掘技术的核心技术之一,其目标在于划分文本集合成若干个簇,并尽可能实现簇间文本的相似度低,簇内文本相似度高。本文分析了聚类过程中的关键技术:向量空间模型、特征项权重和文本相似度,为后续的聚类算法提供了实现提前。通过分析常规K-Means 聚类算法的流程,发现该算法主要不足在于需要人工选取初始簇数,因此,本文阐述了一种簇数K 自适应的K-Means算法,能够自动选取簇心,并确定最佳簇数K,避免了簇数选取的盲目性对聚类造成的严重影响,在一定程度上优化了K-Means算法。
   最后,针对人物分类系统中的关键技术进行了回顾与总结,并阐述了进一步优化关键技术的的相关研究工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号