基于聚团词的大规模文本转载识别算法

张京阳; 张华平; 刘金刚

首页> 中文期刊>计算机应用 >基于聚团词的大规模文本转载识别算法

基于聚团词的大规模文本转载识别算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

文本转载识别是指从大规模文本库中检测出内容相同或相近的文档集合,在热门话题检测、搜索引擎结果凝练、学术文章抄袭识别等诸多应用上,存在普遍的需求.为适应网络文本转载形式的日趋多样化,并进一步提升实用系统效率,对各种文本特征及比较算法进行了研究分析,提出了基于聚团词的大规模文本转载识别算法,即:依据词语的分布属性,识别并提取高得分聚团词用于表征文本,之后通过对文本集进行扩展线性比较与多维比较两次操作,最终筛选出转载识别结果.对比实验表明:该算法在准确率、召回率与效率上有较高的综合性能.

著录项

来源
《计算机应用》|2010年第6期|1661-1663,1670|共4页
作者
张京阳; 张华平; 刘金刚;
展开▼
作者单位

首都师范大学计算机科学联合研究院,北京,100037;

中国科学院计算技术研究所,北京,100190;

北京理工大学计算机学院,北京,100080;

中国科学院计算技术研究所,北京,100190;

首都师范大学计算机科学联合研究院,北京,100037;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
转载识别; 聚团词; 特征选择; 扩展线性比较; 向量空间模型;
入库时间 2022-08-18 04:58:21

相似文献

中文文献
外文文献
专利

1. 基于逆序文本对齐的缩写词识别算法研究 [J] . 彭静 ,景成龙 ,吴亚东 . 武汉理工大学学报（信息与管理工程版） . 2014,第005期
2. 试析马坚译《古兰经》中gawmu一词的翻译——基于汉文本、英文本及波斯文本之比较 [J] . 艾萌 . 河南科技学院学报（社会科学版） . 2014,第003期
3. 一种基于同义词词林的中文大规模本体映射方案 [J] . 王汀 ,邸瑞华 ,李维铭 . 计算机科学 . 2014,第005期
4. 基于文件分时索引的大规模流量实时IoT终端识别算法 [J] . 徐彭娜 ,彭行雄 . 计算机系统应用 . 2021,第002期
5. 基于深度学习的大规模图像高效识别算法研究 [J] . 黄玲 ,张智华 . 机床与液压 . 2019,第012期
6. 基于大规模真实文本的平衡语料分析与文本分类方法 [C] . 陈克利 ,宗成庆 ,王霞 . 全国第七届计算语言学联合学术会议 . 2003
7. 基于词跨度的中文文本关键词提取及在文本分类中的应用 [A] . 谢晋 . 2011

基于聚团词的大规模文本转载识别算法

摘要

著录项

相似文献

相关主题

期刊订阅