首页> 中文学位 >面向互联网的中文问题分类技术研究
【6h】

面向互联网的中文问题分类技术研究

代理获取

目录

面向互联网的中文问题分类技术研究

Research on Chinese Question Classification Oriented toward Internet

摘要

Abstract

第5章 层次分类技术

5.1 引言

5.2 层次分类相关研究概述

5.3 多分类结果层次分类方法

5.4 本章小结

致谢

绪论

1.1 课题研究的背景和意义

1.2 问题分类研究现状

1.3 问题分类的关键技术

1.4 本文内容安排

第2章 中文问题分类系统体系结构

2.1 引言

2.2 系统结构概述

2.3 关键技术

2.4 分类体系

2.5 本章小结

第3章 语料构建相关技术

3.1 引言

3.2 噪声处理相关研究

3.3 基于聚类算法的噪声处理方法

3.4 噪声处理实验

3.5 不均衡语料处理相关研究

3.6 不均衡语料处理实验

3.7 本章小结

第4章 问题分类相关技术

4.1 引言

4.2 特征选择

4.3 权值计算

4.4 分类算法

4.5 基于规则和统计结合的分类方法

4.6 本章小结

结论

参考文献

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

哈尔滨工业大学硕士学位涉密论文管理

展开▼

摘要

随着信息加速膨胀,人们发现越来越难找到自己需要的信息。搜索引擎的诞生,在一定程度上缓解了这个矛盾。但是,搜索引擎返回的结果太多,而且有时候结果并不是用户所需要的。问答系统试图直接返回人们最关心的结果,可是现灾害处于实验室研究阶段。腾讯、百度、雅虎等著名互联网公司,推出一个在线问答系统,不过用户所提问题是由其他用户回答。人们浏览其他用户所提问题时,习惯按照一定的类别浏览,如何将用户所提的各种各样的问题自动分类,成为本文研究的重点。
  面向互联网的中文问题分类系统,是由语料构建、特征选择、权值计算和分类器等几个部分组成。在类别多,层次多,而且没有标准的训练与测试语料的情况下,如何保证较高的分类准确率,是整个系统的关键所在。
  腾讯公司提供问答对作为语料。在对该语料去除噪声和平衡处理后,作为训练和测试集。本文采用基于密度的聚类算法去除噪声,使用OverSample和UnderSmaple方法平衡语料。引入规则分类器解决一些类别召回率低的问题。由于类别多而细,采用层次分类方法,每层分类器相互独立。而层次分类有大类分错,小类一定分错的缺点。因此,层次分类器通过采用输出概率值,将各个层次的概率值加权相乘的方法,减少分类时因层次传递导致的错误。同时,根据用户特点,采用返回三个候选结果,供用户选择的方式,既可以提高分类的准确率,又可以便于用户浏览。
  实验表明,聚类算法有效地处理了不均衡数据集的样本噪声问题,OverSample和UnderSample方法的简单可行性。层次分类在解决多类别分类问题时有较好效果,推荐多个类别结果会极大地提高系统性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号