基于改进HTML-Tree的中文网页特征向量提取方法

李铭岳; 周军

首页> 中文期刊>信息技术 >基于改进HTML-Tree的中文网页特征向量提取方法

基于改进HTML-Tree的中文网页特征向量提取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键.经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取.该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献.经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度.

著录项

来源
《信息技术》|2009年第1期|10-14|共5页
作者
李铭岳; 周军;
展开▼
作者单位

上海交通大学图像通信与信息处理研究所,上海,200240;

上海市数字媒体处理与传输重点实验室,上海,200240;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算机网络;
关键词
HTML-Tree; 特征向量; 网页分类;

相似文献

中文文献
外文文献
专利

1. 钓鱼网页特征向量提取方法研究 [J] . 司响 ,李秋锐 ,宋士超 . 信息网络安全 . 2011,第009期
2. 基于字集特征向量的网页消重改进算法 [J] . 李洪奇 ,冯海波 ,张伟 . 计算机工程与应用 . 2017,第002期
3. 一种基于特征向量的改进DSC网页去重算法 [J] . 徐朝辉 ,赵淑梅 ,闫付亮 . 科学技术与工程 . 2013,第008期
4. 基于分层树模型的中文网页主题时间提取方法 [J] . 王升翔 ,汪超亮 ,杨维新 . 计算机应用 . 2017,第0z1期
5. 基于网页信息和分词的中文机构名全称和简称提取方法 [J] . 张俊玲 ,耿光刚 ,延志伟 . 计算机应用研究 . 2017,第004期
6. 钓鱼网页特征向量提取方法研究 [C] . 司响 ,李秋锐 ,宋士超 . 第26次全国计算机安全学术交流会 . 2011
7. 基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究 [A] . 温安国 . 2009

基于改进HTML-Tree的中文网页特征向量提取方法

摘要

著录项

相似文献

相关主题

期刊订阅