一种基于加权LDA模型和多粒度的文本特征选择方法

李湘东; 巴志超; 黄莉

首页> 中文期刊> 《现代图书情报技术》 >一种基于加权LDA模型和多粒度的文本特征选择方法

一种基于加权LDA模型和多粒度的文本特征选择方法

开具论文收录证明 >>

文献代查 >>

文献数据库（团队版） >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

【目的】为改善图书和期刊书目信息的分类性能,结合书目文本的体例结构特点,提出一种基于加权LDA模型和多粒度的文本特征选择方法。【方法】在点互信息（PMI）模型的基础上,结合词性、位置等要素修正特征词的权重并扩展至LDA的生成模型中,以抽取表意性较强的粗粒度特征;结合TF-IDF计算模型采用一定策略获取细粒度特征,基于多粒度特征作为核心特征词集表征书目文本;采用KNN、SVM等算法实现书目文本的分类。【结果】在自建图书、期刊材料上进行分类实验,与LDA方法以及传统特征选择方法相比,该方法分类准确率分别平均提高3.60%和4.79%。【局限】实验材料的数量以及丰富度有待进一步扩展;需探索更多的加权策略模型进行实验,以提高书目文本的分类效果。【结论】实验结果表明,该方法是有效的、可行的,能够提高特征选择后的特征词集对文本的表示能力,从而提高文本分类的准确率。

著录项

来源
《现代图书情报技术》 |2015年第5期|42-49|共8页
作者
李湘东; 巴志超; 黄莉;
展开▼
作者单位

1. 武汉大学信息管理学院 2. 武汉大学信息资源研究中心 3. 武汉大学图书馆;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
书目信息; 加权LDA模型; 多粒度特征; 文本分类; 特征选择;

相似文献

中文文献
外文文献
专利

1. 一种基于密度的自适应最优LDA模型选择方法 [J] . 曹娟 ,张勇东 ,李锦涛 . 计算机学报 . 2008,第010期
2. 一种基于加权LDA模型的文本聚类方法 [J] . 李国 ,张春杰 ,张志远 . 中国民航大学学报 . 2016,第002期
3. 基于 LDA 的多粒度主题情感混合模型 [J] . 欧阳继红 ,刘燕辉 ,李熙铭 . 电子学报 . 2015,第009期
4. 基于LDA模型和HowNet的多粒度子话题划分方法 [J] . 李湘东 ,巴志超 ,黄莉 . 计算机应用研究 . 2015,第006期
5. 一种基于PCA的文本特征混合选择方法 [J] . 张扬武 ,李国和 ,王立梅 . 计算机应用与软件 . 2019,第010期
6. 一种基于信息熵的文本特征加权算法 [C] . Feng Chao ,封超 ,Ji Bo . 河南省计算机学会2011年学术年会 . 2011
7. 基于云模型的新闻文本特征选择方法研究 [A] . 宋丽 . 2018

一种基于加权LDA模型和多粒度的文本特征选择方法

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅