首页> 中文学位 >基于隐马尔可夫模型的中英文句子分析与研究
【6h】

基于隐马尔可夫模型的中英文句子分析与研究

代理获取

摘要

随着自然语言和互联网的飞速发展,全球每天都有成千上万甚至上亿的各种新闻事件发布,而大部分是英文新闻,在汉语国家中也有大量的中文新闻公布,如何从这些大量英文新闻中快速的识别其主旨,识别出其具体的名词和动词,这取决于该句子中每个英文单词的具体标记词性。本文采用隐马尔可夫模型对英文句子标记语料库进行训练然后得出英文隐马尔可夫模型文件,然后用该模型文件去标记识别英文句子具体成分,找出句子中对应具体的名词和动词,从而提炼句子,找到该句子或该文章中的主题关键字,因此我们只需要读取这些主题词便可了解该文章大致内容,就不必再详细看细节内容了。也可以利用这种识别标记应用于多篇英文文章分析。这种自动帮我们识别词性并分析为我们节约大量的读英文新闻时间。
   同样,对于大量的中文句子我们如何让机器自动断句分词,找出一篇文章中重复度很高的名词和动词确定主旨词,也可用于比较文章的相似度和相关度,甚至可对这些中文分词结果作中文词性分析,识别出句子中具体的名词、动词、形容词、副词、介词、助词等。根据此要求本文也采用隐马尔可夫模型对大量的中文词库训练集进行训练,得到中文隐马尔可夫模型文件,然后用所得中文隐马尔可夫模型文件去对中文句子进行快速自动分词,以供搜索引擎使用,还可以用在切词软件中,并且所得的分词结果可用在中文篇章分析中,得出文章的相关度。
   以上两种功能的核心是采用马尔可夫链来建隐马尔可夫模型,从建模型文件过程得出一些英文单词与下一单词的概率数值,也可以得出一个中文汉字和下一汉字之间概率数值。利用这些概率数值来识别标记英文句子词性和确定中文句子中字与字之间组成词关系,进行匹配从而实现功能。其结果准确率能满足我们大量的应该需要,同时我们也可以利用这两个模型文件分别对大量的英文句子和中文句子标记识别和分词,将所得结果写成语料库和训练集格式形式,从而快速形成大量丰富的语料库和训练集。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号