首页> 外文学位 >A comparative study of keyphrase-based query-specific clustering on WWW.
【24h】

A comparative study of keyphrase-based query-specific clustering on WWW.

机译:WWW上基于关键字的查询特定聚类的比较研究。

获取原文
获取原文并翻译 | 示例

摘要

Based on the dominance of HTML documents on the Web, this thesis proposes a keyphrase extraction algorithm (Extoken) that combines the traditional lexical statistics information and HTML formatting elements to extract a list of ranked keyphrases. We take the view that keyphrase extraction should be used as the foundation of further text related tasks instead of being treated as the end of the processing. In particular we used the results of keyphrase extraction to retrieve the original Web pages from the Web and studied the effect of using keyphrases for partitional query-specific document clustering in the domain of the Web. We compared the effectiveness between traditional ranked list results and query-specific document clustering solutions and performed a comparative study of the variance of clustering effectiveness across different document representations: keyphrases, full document and document snippet.; Two online prototypes are developed in the course of the research: Phrastractor, an online Web document keyphrases extraction system powered by our HTML elements aided keyphrases extraction algorithm Extoken, and Categorizer, a clustering meta search engine prototype that is built on top of query results returned from Google. (Abstract shortened by UMI.)
机译:基于Web上HTML文档的优势,本文提出了一种结合传统词法统计信息和HTML格式元素来提取排名关键词的列表的关键词提取算法(Extoken)。我们认为,关键短语提取应该用作进一步的文本相关任务的基础,而不是被视为处理的结束。尤其是,我们使用关键字短语的提取结果从Web检索原始Web页面,并研究了将关键字短语用于Web领域中分区查询特定文档聚类的效果。我们比较了传统排名列表结果和特定于查询的文档聚类解决方案之间的有效性,并对不同文档表示形式(关键字,完整文档和文档摘要)之间聚类有效性的方差进行了比较研究。在研究过程中,开发了两个在线原型:Phrastractor(一个由我们的HTML元素辅助的关键词提取算法Extoken支持的在线Web文档关键词提取系统)和Categorizer(一个基于返回的查询结果的聚类元搜索引擎原型)来自Google。 (摘要由UMI缩短。)

著录项

  • 作者

    Wang, Peng.;

  • 作者单位

    University of Alberta (Canada).;

  • 授予单位 University of Alberta (Canada).;
  • 学科 Computer Science.
  • 学位 M.Sc.
  • 年度 2004
  • 页码 138 p.
  • 总页数 138
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 自动化技术、计算机技术;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号