集成命名实体的文本分类特征选择方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本分类是将自由文本自动划分到若干预先定义类别的方法，在信息检索等领域有很重要的作用。其中，如何选择有效的文本特征，是影响文本分类器的分类性能的一个关键步骤。对于很多需要处理的文本信息中，包含了很多的命名实体，如某个行业的名人或者某个行业有名的企业等，从这些实体往往能够在很大程度上看出文本所属的类别。然而，现阶段的文本特征方法都只利用了关键词词形上的统计意义，而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题，本文提出了一种将命名实体识别NER(Named EntitvRecognition)集成到文本分类特征选择中的方法。该方法充分利用了命名实体作为信息载体的作用，在保留关键词的词形统计特征之外，还保留了单词作为命名实体的分类特征。主要工作和特色如下： 1)构建了一个基于HMM的命名实体识别系统。在该系统中，结合人名地名词典，对隐马尔可夫模型(HMM)进行调整，并引入人名地名字典和根据词形的未知词处理等有效的处理方法对识别过程进行修正，取得了较好的实体识别效果。 2)实现了一个基于SVM的文本分类系统，并在此系统的基础上对文本分类中特征数量与分类效果的关系进行了实验测试及分析。实验结果表明，在使用普通特征的情况下，分类效果并不是完全随着特征数的增加而提高，在特征数超过一定规模之后，随着所用特征数的增加，分类器的效果反而开始有所下降。 3)在前述工作的基础上，提出了一种结合命名实体识别的文本分类特征选择方法。该方法充分利用命名实体对文本信息的表达能力，通过实体识别方法能够获得其他普通特征选择方法无法得到的一些分类特征。实验结果表明，集成实体识别方法进行特征选择，文本分类的准确率得到了有效的提高。

著录项

作者
施德明;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科计算机应用
授予学位硕士
导师姓名陈恩红;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
命名实体; 命名实体识别; 隐马尔可夫模型; 文本分类; 特征选择; 支持向量机; 信息检索;

相似文献

中文文献
外文文献
专利

1. 序列标注模型中不同输入特征组合的集成学习与直推学习方法研究——以CCKS-2018电子病历命名实体识别任务为例 [J] . 孙安 ,于英香 ,罗永刚 . 情报杂志 . 2019,第010期
2. 一种集成NER的文本分类特征选择方法 [J] . 施德明 ,林洋港 ,陈恩红 . 计算机工程与科学 . 2007,第011期
3. 基于命名实体的Web新闻文本分类方法 [J] . 潘正高 ,侯传宇 ,谈成访 . 合肥工业大学学报（自然科学版） . 2011,第008期
4. 产品命名实体特征选择与识别研究 [J] . 陆伟 ,鞠源 ,张晓娟 . 图书情报知识 . 2012,第003期
5. 文本分类中一种特征选择方法研究 [J] . 赵婧 ,邵雄凯 ,刘建舟 . 计算机应用研究 . 2019,第008期
6. 结合上下文特征的军事命名实体识别方法研究 [C] . SHAN He-yuan ,单赫源 ,ZHANG Hai-su . 第三届中国指挥控制大会 . 2015
7. 基于深度文本特征表示的文本分类和命名实体识别方法研究 [A] . 余柳红 . 2020

集成命名实体的文本分类特征选择方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅