首页> 中文学位 >政府服务直通车上基于主题模型的信件分类管理
【6h】

政府服务直通车上基于主题模型的信件分类管理

代理获取

目录

第一个书签之前

展开▼

摘要

近年来,随着各地政府越来越注重民生问题,网上便民服务由于其便利性和及时性受到越来越多网友的关注。很多城市的政府网站都开设了与民互动或者政府服务直通车这样类似的功能,百姓可以在这样的平台上以文本的形式与政府部门互动,比如网民可以对某一问题提出自己的意见,对不满意问题投诉,对不懂得问题进行咨询,对违背社会发展的事物进行投诉等。类似这样的网络便民服务使得政府工作更加透明化,对老百姓的服务越来越便民化、规范化。  然而,随着政府服务直通车上的网民越来越多,也导致这个网络平台上的信件文本数量激增。如何有效的对这些信件文本进行管理成了当前网上政府服务直通车发展不得不关注的一个问题。有些政府服务直通车只是让网民在填写信件的时候自己分类,这样往往存在一定的不足,比如:由于分类这个操作不是必须的,这就意味着有很多的网民可能不会对自己填写的信件进行分类;也有很多网民自己也不知道该将填写的信件归入哪一类;也有可能会因为网民自身的文化水平不高,将信件类型判断失误,归入了错误的类别当中。因此,寻找一个正确的方法对政府服务直通车上的信件文本进行分类管理变得非常迫切。随着近些年基于机器学习的文本分类技术的成熟以及主题模型的发展使得政府服务直通车上的信件能被更好的分类管理成为可能。  本文就是要针对某城市政府服务直通车这么一个全新的应用领域提出一种基于主题模型建模的文本自动分类方法。因为本文应用领域的特殊性导致了笔者不能按部就班的采取以往的文本自动分类方法。所以,本文的方法较以往的文本分类的不同点主要有:由于政府服务直通车上的信件本文有大量字数只在150字以内的短文本信件的存在。所以,1)本文将采取主题模型而非空间向量模型对信件文本进行建模。在处理信件时发现,由于政府服务直通车上的信件都是该市市民填写的,不仅信件内容与该城市的种种问题相关,而且有很强的随意性和地域性,其中随意性导致了大量噪声词的存在,地域性导致信件文本中出现了很多地域性词项,这些词项都被分词软件强行分开或者当做停用词被删除了,这是很不合理的。所以,2)本文提出了一种基于用户分词词典以及词频和文档频率相结合的词典处理技术来解决信件文本的不合理性。经过大量实验证明,使用主题模型对信件文本建模然后分类的效果不错,再结合二级词表处理技术不仅可以让某些特定的有意义的词项不被分开、删除一定比例的噪声词,也可以在一定程度上提高信件的分类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号