首页> 中文期刊>计算机与现代化 >基于特征词权重的文本分类

基于特征词权重的文本分类

     

摘要

In text classification, only a few scholars used the weight of feature words to express text, but the method of feature selection they used didn' t consider the symbol and boundary of the weight of feature words. So, on the basis of CHI statistics, this paper proposes a new way to calculate correlation-score between feature words and classification; and selects different means to get the relevance between text and classification, according to the count of feature words in each feature set. At last, in order to determine the text category, this paper just applies the number of feature words and their relevance to category, and can well judge the text contained few feature words. Experiment shows that it is an effective and feasible method to classify text.%在文本分类时,只有少数学者利用特征词权重对文本进行向量表示,但是所使用的特征选择算法没有考虑特征词权重的正负及其范围等.因此,本文在CHI统计基础上提出一种计算特征词类相关性的新方法,并根据各类特征集中包含的特征词的数量,选用不同的文本类相关性计算方法;在判定文本类别过程中,只使用文本包含的特征词的个数及其类相关性,对含特征词少的文本也能很好判别.实验表明,该方法有效可行.

著录项

  • 来源
    《计算机与现代化》|2012年第10期|8-13|共6页
  • 作者单位

    江西财经大学信息管理学院,江西南昌330013;

    江西财经大学数据与知识工程江西省高校重点实验室,江西南昌330013;

    江西财经大学信息管理学院,江西南昌330013;

    江西财经大学数据与知识工程江西省高校重点实验室,江西南昌330013;

    江西财经大学信息管理学院,江西南昌330013;

    江西财经大学数据与知识工程江西省高校重点实验室,江西南昌330013;

    江西财经大学信息管理学院,江西南昌330013;

    江西财经大学数据与知识工程江西省高校重点实验室,江西南昌330013;

    江西财经大学信息管理学院,江西南昌330013;

    江西财经大学数据与知识工程江西省高校重点实验室,江西南昌330013;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    文本分类; 特征选择; 特征词类相关性; 文本类相关性;

  • 入库时间 2022-09-01 14:22:11

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号