独立于语种的文本分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的快速发展,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但随着Internet上信息量的爆炸式增加,信息搜索时,与特定用户要求不大相关的信息大量涌现,甚至掩盖了对用户真正有用的信息。在这繁杂的信息中,如何快速地找到用户需要的信息,如何有效地利用这些信息,文本分类起着非常重要的作用,它可以有效地组织和管理这些信息,从而提高信息搜索的效率。本文提出了一种独立于语种不需分词的文本分类方法。与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免特征选择和大量预处理过程。本文首先介绍了文本自动分类在国内外的研究现状;其次对主流的文本表示模型进行了分析比较,研究了N-gram模型的参数N选取、平滑算法等内容;再次对系统的各个功能进行讨论,对系统的核心功能分类器进行了详细论述。本文选择了一种链状朴素贝叶斯分类器,这种分类器通过与N-gram模型相结合,弱化N-gram模型的独立性假设。实验表明,这种方法能够取得良好的分类效果;接下来对系统开发的关键点进行了展开,并详细介绍了评价方法;最后给出了实验结果及其分析。该文本分类方法已经在中文和英文两个语种上得到实现,并获得了较好的分类性能。

著录项

作者
陈林;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名杨丹;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类; n元语法模型; N-gram模型; 平滑算法; 分类器;

相似文献

中文文献
外文文献
专利

1. 独立于语种的文本分类方法 [J] . 陈林 ,杨丹 . 计算机工程与科学 . 2008,第006期
2. 独立于语种的文本分类方法 [J] . 黄萱菁 ,吴立德 ,石崎洋之 . 中文信息学报 . 2000,第006期
3. 基于双向长短时记忆单元和卷积神经网络的多语种文本分类方法 [J] . 孟先艳 ,崔荣一 ,赵亚慧 . 计算机应用研究 . 2020,第009期
4. 孑孑孤行于世上,亭亭独立于人前——浅谈张岱《湖心亭看雪》之“独” [J] . 罗志凤 . 语文教学与研究 . 2021,第007期
5. 孑孑孤行于世上,亭亭独立于人前——浅谈张岱《湖心亭看雪》之"独" [J] . 罗志凤 . 语文教学与研究（教师版） . 2021,第004期
6. 独立于语种的文本分类研究 [C] . . 中国人工智能学会第10届全国学术年会 . 2003
7. 基于深度学习的多语种文本分类系统的研究与实现 [A] . 孟先艳 . 2019

独立于语种的文本分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅