基于百度百科与文本分类的网络文本语义主题抽取方法

陈叶旺; 王华珍; 李海波; 钟必能; 陈锻生

首页> 中文期刊>小型微型计算机系统 >基于百度百科与文本分类的网络文本语义主题抽取方法

基于百度百科与文本分类的网络文本语义主题抽取方法

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到候选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能.%It is hard to mining Chinese texts in the web, because many of these texts are spares and nonstandard. BaiduBaike is a rich and dynamic Chinese Encyclopedia which is closely related to hot spots and web popular. In this paper, we propose a new topic extraction method for Chinese web text, which is based on BaiduBaike and text classification. In our method, the rich knowledge in BaiduBaike is used to map a text into semantic topics space, then find the classification of the text based on train data, and then select all candidate topics that belong to this classification, at last SDD(Semantic Discrete Degree) is proposed to choose the final topics. Experiments on the two datasets have demonstrated that our method get good and stable result nerveless the text is standard or not.

著录项

来源
《小型微型计算机系统》|2012年第12期|2605-2610|共6页
作者
陈叶旺; 王华珍; 李海波; 钟必能; 陈锻生;
展开▼
作者单位

华侨大学计算机科学学院,福建厦门 361021;

华侨大学计算机科学学院,福建厦门 361021;

华侨大学计算机科学学院,福建厦门 361021;

华侨大学计算机科学学院,福建厦门 361021;

华侨大学计算机科学学院,福建厦门 361021;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
百度百科; 语义主题; 主题抽取; 语义离散度;
入库时间 2023-07-24 22:44:21

相似文献

中文文献
外文文献
专利

1. 基于语义串抽取及主题相似度度量的维吾尔文文本分类 [J] . 吐尔地·托合提 ,维尼拉·木沙江 ,艾斯卡尔·艾木都拉 . 中文信息学报 . 2017,第004期
2. 融合主题信息的卷积神经网络文本分类方法研究 [J] . 杨锐 ,陈伟 ,何涛 . 现代情报 . 2020,第004期
3. 基于主题与语义的对话语料关键词抽取方法 [J] . 胡迁 ,黄青松 ,刘利军 . 计算机应用与软件 . 2018,第012期
4. 基于编码解码器与深度主题特征抽取的多标签文本分类 [J] . 陈文实 ,刘心惠 ,鲁明羽 . 南京师大学报（自然科学版） . 2019,第004期
5. 基于循环结构的卷积神经网络文本分类方法 [J] . 陈波 . 重庆邮电大学学报（自然科学版） . 2018,第005期
6. 基于百度百科与文本分类的网络文本语义主题抽取方法 [C] . Chen Yewang ,陈叶旺 ,Chen Chaoyang . 2012年第三届中国计算机学会服务计算学术会议 . 2012
7. 基于网络文本的多词表达抽取方法研究 [A] . 龚双双 . 2018

基于百度百科与文本分类的网络文本语义主题抽取方法

摘要

著录项

相似文献

相关主题

期刊订阅