基于词和基本短语模式的特征提取方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

Internet的发展带动了信息的迅速增加，如何从海量的信息中快速有效地找到有用的信息，已经成为亟待解决的问题。文本信息的自动分析可以有效地解决这一问题，而文本信息自动分析中的一个主要技术就是文本分类。文本分类技术可以使用户按照自己的要求搜索到有用的信息，不仅大大提高了文本信息的利用率，还具有广泛的研究价值和商业价值。
　　文本分类主要包括四个部分：文本预处理、特征提取、特征权重计算和分类器分类。其中特征提取是文本分类的关键，而消除语义歧义和降低向量空间维数是特征提取的难点。传统的文本分类方法都以词作为文本的特征进行提取，而单个词语所能涵盖的文本特征含义十分有限。本文改进了特征项单一性的缺点，提出了一种基于词和基本短语模式的特征提取方法。本文采用了对分词后的词语进行词性标注，并且使用同义词词林处理同义词和多义词的方法。即有效地消除了语义歧义，还降低了空间向量维数。
　　本文用KNN分类器和SVM分类器分别进行了实验。实验结果表明，分类的准确率和召回率都得到了提高。

著录项

作者
赵蕾蕾;
展开▼
作者单位

河北大学;

展开▼
授予单位河北大学;
学科计算机软件与理论
授予学位硕士
导师姓名李新福;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
文本信息; 自动分类; 特征选取; 短语模式; 权重计算; 词性标注;
入库时间 2022-08-17 10:28:23

相似文献

中文文献
外文文献
专利

1. 基于量化同义词关系的改进特征词提取方法 [J] . 徐建民 ,刘清江 ,付婷婷 . 河北大学学报（自然科学版） . 2010,第001期
2. 基于特征词驱动的带"的"字名词短语的识别 [J] . 张建莉 . 福建电脑 . 2006,第005期
3. 基于多元特征加权改进的TextRank关键词提取方法 [J] . 余本功 ,张宏梅 ,曹雨蒙 . 数字图书馆论坛 . 2020,第003期
4. 基于多特征的视频关联文本关键词提取方法 [J] . 王万良 ,潘蒙 . 浙江工业大学学报 . 2017,第001期
5. 大数据时代基于统计特征的情报关键词提取方法尝试 [J] . 杨新华 ,付萍萍 . 工业设计 . 2017,第006期
6. 一种基于短语搭配和高频骨干词的层次短语约束抽取方法 [C] . 苏劲松 ,吕雅娟 ,刘群 . 第五届全国机器翻译研讨会 . 2009
7. 基于特征词扩展的功能短语抽取方法研究 [A] . 闫莹莹 . 2019

基于词和基本短语模式的特征提取方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅