摘要:任何一篇报道文章的作者对有关事情或人物都不免带有或多或少的正面或负面评述色彩,举简单的例子来说,把同样情况说成「节俭」或「吝啬」,把「半杯酒」说成「半杯满酒」或「半杯空酒」,或把同样的组织形容成「恐怖分子」或「自由战士」,就明显反映出褒贬的色彩. 在互联网信息爆炸的时代,能掌握媒体如新闻报道对一些重要议题的评论观点日趋重要,许多机构都已为此投入大量人力物力.目前,总结性评论观点的自动分类研究主要针对英文,并已取得了一定的成果.但对中文新闻报道的两极性自动分类研究才刚起步,而其重要性同样不可置疑. 本文尝试讨论一些与中文文本两极性相关的语言问题,并提出了一个实验性的标注方案,以及对人工分类和自动分类的性能效果进行比较分析. 首先,人工分类过程由数名受过训练的评分员来完成,他们使用从-5到+5的数字来表示每篇新闻报道的正面或负面两极性程度.评测语料包括600多篇文章,主要报道内容是关于2004年在美国和台湾地区所进行的总统选举的报道.所得结果显示,中国不同地区(北京、香港、上海和台北)对4位著名政治人物:克里John Kerry,布什George W Bush,小泉和陈水扁的看法有很大的差异. 本文介绍了一个对新闻样本做出两极性自动评分的系统,该系统吸收了以前预选出的两极性词条作为显著性(salient)语言成份,从而把文本里的段落分为显著及非显著两类.文中研究了文本里两极性词条的广度、密度和强度.广度表示两极性词条在一篇文章中分布的程度(可用段落或句子来衡量).密度表示两极性词条在有关段落中出现的疏密程度.强度表示词条的两极性强烈程度.本文还研究了广度和密度的潜在作用,它们能够提高自动分类与人工分类间的关联度.同时也把报道分成单一话题与双话题(如选举)报道,及探讨所需要的相应调整过处理方法.探讨的结果显示,双话题报道在政治选举中广泛出现,尤其是以新参选的后起之秀为话题人物的新闻报道.同时看到显著成份分布与相关的话题人物匹配可依有限度的窗口来进行,并以广度分析而得到初步分辨正负两极的满意结果.本文也探讨如何推进到自动分辨单一话题报道与双话题报道和计算正负两极的数值,以及这种双极性分类的更广泛挑战与用途.