【24h】

Automatic Genre Detection of Web Documents

机译:自动流派检测Web文档

获取原文

摘要

A genre or a style is another view of documents different from a subject or a topic. The genre is also a criterion to classify the documents. There have been several studies on detecting a genre of textual documents. However, only a few of them dealt with web documents. In this paper we suggest sets of features to detect genres of web documents. Web documents are different from textual documents in that they contain URL and HTML tags within the pages. We introduce the features specific to web documents, which are extracted from URL and HTML tags. Experimental results enable us to evaluate their characteristics and performances.
机译:类型或风格是与主题或主题不同的文件的另一个视图。 类型也是对文档分类的标准。 有几项研究检测文本文件的类型。 但是,只有少数人处理Web文件。 在本文中,我们建议检测Web文档类型的功能。 Web文档与文本文档不同,因为它们包含页面中的URL和HTML标记。 我们介绍了特定于Web文档的功能,这些功能从URL和HTML标记中提取。 实验结果使我们能够评估其特征和性能。

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号