汉语主客观文本分类及预处理研究

代理获取

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

随着互联网的普及，网络已经成为人们获取信息的一个非常重要的手段。但是随着信息爆炸似的增长，人们很难在较短的时间内找到自己所需要的信息，这也就是信息过载的问题。文本分类是当前数据挖掘的一个重要研究方向。一些应用方面的工作，如对电子商务的评价，民意调查的结果等等都需要对文本进行挖掘。然而，从海量的信息中人工查找具有意见性的主观性文本是不现实的。在本文中，我们提出一个方法来针对主客观文本进行分类。通过分析主客观文本之间存在的差别来抽取能够区别它们的一些特征。最终应用朴素贝叶斯和支持向量机模型，用特征项的不同组合对其进行主客观文本分类，力争达到最优效果。随着即时通信软件（Instant Messaging）的普及（如MSN，QQ等），一种非规范语言就广泛出现于其中。在这些环境中使用的特殊语言被称为为网络非规范语言（Network Informal Language，NIL）表达。例如在网络聊天中常用“8错”取代“不错”，用“稀饭”表示“喜欢”等等。在传统的文本挖掘中，这些信息都被视为噪音。但事实上，包含这些非规范词语的句子经常会存在用户的表达个人意愿的信息。举个例子，“这款车型还是受广大车迷稀饭的！”可以看出，在这个句子里面，“稀饭”表达“喜欢”。通过这句话持有者表达了自己对某一车型的观点和看法。在本文工作中，文本预处理研究就是对这些主观性的文本进行正规化处理。首先通过编写特定的网络蜘蛛程序收集某论坛上一定时间段内的网页。对网页进行人工筛选，构建非规范语言词典。最终将互联网上常见的非规范词语划分为六个大类。考虑到处理成本的问题，将这六个大类别划分成两个大类：典型非规范语言和歧义非规范语言。对于典型非规范语言，采用基于序列覆盖算法的模式匹配方法对其进行正规化处理。而对于歧义非规范语言，由于这种类别很难从字词层面上判断出是否是非规范词。采用基于特征抽取的分类方法将其识别。最终都达到正规化的目的。得出基本正规的主观性文本。

著录项

作者
张霄凯;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科计算机应用技术
授予学位硕士
导师姓名姚天昉;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
文本分类; 数据挖掘; 文本预处理; 支持向量机; 即时通信软件; 文本挖掘; 特征抽取;

相似文献

中文文献
外文文献
专利

1. 贝叶斯方法在文本分类预处理中的应用 [J] . 刘颖 . 电脑与信息技术 . 2010,第006期
2. 基于汉语多类文本分类的机关公文智能办理系统 [J] . 赵恺捷 ,李振华 . 齐齐哈尔大学学报（自然科学版） . 2008,第005期
3. 基于文章标题信息的汉语自动文本分类 [J] . 缪建明 ,张全 ,赵金仿 . 计算机工程 . 2008,第020期
4. 论汉语"好好V/Adj"在线翻译的歧义预处理模式 [J] . 陈振云 . 齐齐哈尔大学学报（哲学社会科学版） . 2020,第004期
5. 上下文相关汉语自动分词及词法预处理算法 [J] . 黄河燕 ,李渝生 . 应用科学学报 . 1999,第002期
6. 汉语主客观文本分类方法的研究 [C] . 姚天防 ,彭思崴 . 第三届全国信息检索与内容安全学术会议 . 2007
7. Web文本分类系统中文本预处理技术的研究与实现 [A] . 王之鹏 . 2009

汉语主客观文本分类及预处理研究

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅