基于隐马尔可夫模型的中英文句子分析与研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着自然语言和互联网的飞速发展，全球每天都有成千上万甚至上亿的各种新闻事件发布，而大部分是英文新闻，在汉语国家中也有大量的中文新闻公布，如何从这些大量英文新闻中快速的识别其主旨，识别出其具体的名词和动词，这取决于该句子中每个英文单词的具体标记词性。本文采用隐马尔可夫模型对英文句子标记语料库进行训练然后得出英文隐马尔可夫模型文件，然后用该模型文件去标记识别英文句子具体成分，找出句子中对应具体的名词和动词，从而提炼句子，找到该句子或该文章中的主题关键字，因此我们只需要读取这些主题词便可了解该文章大致内容，就不必再详细看细节内容了。也可以利用这种识别标记应用于多篇英文文章分析。这种自动帮我们识别词性并分析为我们节约大量的读英文新闻时间。
　　同样，对于大量的中文句子我们如何让机器自动断句分词，找出一篇文章中重复度很高的名词和动词确定主旨词，也可用于比较文章的相似度和相关度，甚至可对这些中文分词结果作中文词性分析，识别出句子中具体的名词、动词、形容词、副词、介词、助词等。根据此要求本文也采用隐马尔可夫模型对大量的中文词库训练集进行训练，得到中文隐马尔可夫模型文件，然后用所得中文隐马尔可夫模型文件去对中文句子进行快速自动分词，以供搜索引擎使用，还可以用在切词软件中，并且所得的分词结果可用在中文篇章分析中，得出文章的相关度。
　　以上两种功能的核心是采用马尔可夫链来建隐马尔可夫模型，从建模型文件过程得出一些英文单词与下一单词的概率数值，也可以得出一个中文汉字和下一汉字之间概率数值。利用这些概率数值来识别标记英文句子词性和确定中文句子中字与字之间组成词关系，进行匹配从而实现功能。其结果准确率能满足我们大量的应该需要，同时我们也可以利用这两个模型文件分别对大量的英文句子和中文句子标记识别和分词，将所得结果写成语料库和训练集格式形式，从而快速形成大量丰富的语料库和训练集。

著录项

作者
唐雄明;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科计算机应用技术
授予学位硕士
导师姓名严春;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
隐马尔可夫模型; 语料库; 中文分词; 句子分析; 自然语言; 英文新闻; 词性识别;

相似文献

中文文献
外文文献
专利

1. 基于隐马尔可夫模型的智能教学研究 [J] . 朱忠旭 . 安顺学院学报 . 2021,第002期
2. 基于改进退化隐马尔可夫模型的设备健康诊断与寿命预测研究 [J] . 刘文溢 ,刘勤明 ,叶春明 . 计算机应用研究 . 2021,第003期
3. 基于隐马尔可夫模型的全外显子测序拷贝数变异检测算法研究 [J] . 刘妮 ,刘晗 ,赵阿曼 . 中国生物医学工程学报 . 2021,第003期
4. 基于改进隐马尔可夫模型的云网络安全研究 [J] . 郑友生 . 信阳农业高等专科学校学报 . 2021,第003期
5. 基于改进隐马尔可夫模型的云网络安全研究 [J] . 郑友生 . 信阳农林学院学报 . 2021,第003期
6. 基于隐马尔可夫模型的猪咳嗽声音识别的研究 [C] . 刘振宇 ,赫晓燕 ,桑静 . 中国畜牧兽医学会信息技术分会第十届学术研讨会 . 2015
7. 基于隐马尔可夫模型的微博事件关注度研究 [A] . 焦晖 . 2021

基于隐马尔可夫模型的中英文句子分析与研究

摘要

著录项

相似文献

相关主题

期刊订阅