首页> 中文学位 >基于词项共现关系图模型的中文观点句识别研究
【6h】

基于词项共现关系图模型的中文观点句识别研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1引言

1.1 研究背景及研究意义

1.2 国内外研究现状

1.3 本文的主要工作

1.4 本文的组织结构

2 观点句识别技术概述

2.1 观点句识别基本流程

2.2 文本预处理及表示

2.3 文本特征的选择及特征值的计算

2.4 常用文本分类器和评价指标

2.5 观点句识别主流方法

2.6 本章小结

3 基于词项共现关系图模型的观点句识别

3.1 相关研究工作

3.2 词项共现关系图的构建

3.3特征值计算

3.4 本章小结

4 实验设计及结果分析

4.1 实验准备

4.2 LibSVM介绍

4.3实验设计

4.4 实验结果及分析

4.5 本章小结

5 总结与展望

5.1 总结

5.2 未来工作

参考文献

致谢

在读研期间公开发表论文(著)及科研情况

展开▼

摘要

随着Web2.0的应用和普及,“以用户为中心到用户参与设计”的观点已经成为当今互联网所倡导的理念。论坛、贴吧、博客和微博等各类新型媒体为广大用户提供了更加自由交流的平台,越来越多的用户通过互联网来表达个人观点、传播思想和交流情感。这些蕴含个人观点的由用户生成的数据信息(User-generated content,简称UGC)隐藏着巨大的商业价值和社会价值,从而导致如何从海量的文本中准确地抽取和识别观点句具有重要的理论价值和现实意义。
  目前,主流的观点句识别方法采用向量空间模型(Vector Space Model,简称VSM)来表示文档,即把每篇文档表示成一个词项向量或特征向量。然而,这种文档特征向量的表示方法基于文档中词项间强独立性假设,并未考虑词项与词项之间的顺序和依赖关系。鉴于此,本文提出了一种新型的基于词项共现关系的图模型方法来表示文档,并将其应用于中文观点句识别中。该方法通过构建文档中词项共现关系有向图模型,利用词项与词项之间的共现性和句法关系来描述词项在观点句和非观点句集合中的分布差异性。该方法能够有效地捕捉到中文观点句中的语义信息。同时,与基于向量空间模型的特征值计算方法不同,该方法将图模型中的词项入度值计算方法和信息检索中复杂的特征值计算方法相结合,从而更加有效的计算出图模型中词项所具有的情感值大小。实验结果证明,本文提出的中文观点句识别效果显著优于现有的代表性的方法。
  本文的工作主要体现在以下三个方面:
  1)首先,本文分别构建了观点句集和非观点句集的词项共现关系有向图,用图模型对词项的共现性、语义关系和分布差异进行显示的描述;
  2)其次,本文将图模型中的简单有效的词项入度值计算和信息检索中复杂的特征值计算方法有效结合,从而更有效的计算出图模型中词项所具有的情感值大小。同时,本文训练一个支持向量机(Support Vector Machine,简称SVM)观点句识别分类器,并与目前主流的观点句识别方法进行比较,从而验证本文提出的方法的有效性;
  3)最后,本文对图模型中的滑动窗口、有向图构建方向和相关参数等进一步优化,使得观点句的识别分类器性能得到进一步的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号