Web 科技新闻分类抽取算法

朱全银; 潘禄; 刘文儒; 李翔; 张永军; 刘金岭

首页> 中文期刊> 《淮阴工学院学报》 >Web 科技新闻分类抽取算法

Web 科技新闻分类抽取算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

There are a lot of non-scientific-related news on Websites.In order to improve the useful value for the news information, a novel multilevel dichotomous model of text automatic categorization extraction system for technology news based on TF-IDF was designed and implemented.The news offered by government news web-site and Phoenix as the research background in scientific news categorization extraction.Experiments showed a 85 .3 percent accuracy for scientific-related news and 82 .9 percent recognition rate for nonscientific-related news respectively in the test containing two hundred thousand documents and more than four thousand news clas-sifications.The results showed that the proposed method offered a useful reference model on website scientific intelligence.%为了改善从Web上获取的新闻信息的使用价值,针对Web网站存在大量非科技相关新闻的现状,以互联网上政府新闻网站、凤凰网等新闻为研究背景,选取TF-IDF文本加权方法,设计了科技新闻多层次二分类模型,实现了基于TF-IDF的科技新闻文本分类抽取系统,在20万新闻文档和4000多种分类上,实验取得了科技新闻85.3%的识别准确率和非科技新闻82.9%的识别率,为Web科技新闻分类抽取提供有实用价值的参考模型.

著录项

来源
《淮阴工学院学报》 |2015年第5期|18-24|共7页
作者
朱全银; 潘禄; 刘文儒; 李翔; 张永军; 刘金岭;
展开▼
作者单位

淮阴工学院计算机与软件工程学院,江苏淮安 223005;

淮阴工学院计算机与软件工程学院,江苏淮安 223005;

淮阴工学院计算机与软件工程学院,江苏淮安 223005;

淮阴工学院计算机与软件工程学院,江苏淮安 223005;

淮阴工学院计算机与软件工程学院,江苏淮安 223005;

淮阴工学院计算机与软件工程学院,江苏淮安 223005;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
科技新闻; 文本分类; TF-IDF; 抽取算法;

相似文献

中文文献
外文文献
专利

1. Web页面分块算法MDSPS及其在Web信息抽取中的应用研究 [J] . 杨丽 . 信息通信 . 2018,第002期
2. 基于单DOM树特征预分类的自适应Web信息抽取方法 [J] . 彭艳兵 ,谢馨庭 . 电子设计工程 . 2017,第019期
3. 基于页面分类的 Web 信息抽取方法研究 [J] . 成卫青 ,于静 ,杨晶 . 计算机技术与发展 . 2013,第001期
4. Web信息抽取系统分类方法研究 [J] . 王宗良 ,高静 ,阿木古楞 . 内蒙古大学艺术学院学报 . 2012,第004期
5. 基于分块频繁集抽取的Web文本关联分类 [J] . 张志强 . 福建电脑 . 2011,第011期
6. 基于分类属性的Web隐藏数据抽取算法 [C] . SUN Yang ,孙阳 ,LI Gui . 第十九届网络新技术与应用年会 . 2015
7. Web页面分块算法MDSPS及其在Web信息抽取中的应用 [A] . 游镇 . 2006

Web 科技新闻分类抽取算法

摘要

著录项

相似文献

相关主题

期刊订阅