一种Web主题文本通用提取方法

蒲强; 李鑫; 刘启和; 杨国纬

首页> 中文期刊> 《计算机应用》 >一种Web主题文本通用提取方法

一种Web主题文本通用提取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法.该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来.由于本方法不涉及具体的HTML标记分析,其通用性较强.实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求.

著录项

来源
《计算机应用》 |2007年第6期|1394-1396|共3页
作者
蒲强; 李鑫; 刘启和; 杨国纬;
展开▼
作者单位

电子科技大学;

计算机科学与工程学院;

四川;

成都;

610051;

电子科技大学;

计算机科学与工程学院;

四川;

成都;

610051;

电子科技大学;

计算机科学与工程学院;

四川;

成都;

610051;

电子科技大学;

计算机科学与工程学院;

四川;

成都;

610051;

展开▼
原文格式 PDF
正文语种 chi
中图分类 TP311.52;
关键词
Web文本; 文本提取; 文本语料库;

相似文献

中文文献
外文文献
专利

1. 一种基于文本样式的Web主题信息提取方法研究 [J] . 顾韵华 ,李佩 ,谢刚 . 计算机与数字工程 . 2009,第011期
2. 一种Web文本的自动提取方法 [J] . 印国成 ,孙茂圣 . 江苏科技大学学报（自然科学版） . 2010,第006期
3. 一种通用HTML网页主题信息提取方法 [J] . 许文 ,都云程 ,李渝勤 . 现代图书情报技术 . 2007,第001期
4. 一种基于本体的文本主题提取方法研究 [J] . 高玮军 ,马栋林 ,张其文 . 计算机应用与软件 . 2012,第002期
5. 一种基于概念聚类的中文文本类簇主题提取方法 [J] . 庄世芳 . 电脑知识与技术：学术交流 . 2008,第004期
6. 一种通用HTML网页主题信息提取方法 [C] . 许文 ,都云程 ,李渝勤 . 第二十届全国计算机信息管理学术研讨会 . 2006
7. 一种针对App描述文本的深层次特征提取方法研究 [A] . 阴星龙 . 2020

一种Web主题文本通用提取方法

摘要

著录项

相似文献

相关主题

期刊订阅