基于文本的语言识别方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本研究针对因特网上的文本数据进行语言识别，包括网页和电子邮件内容等，以构建实时、高效的语言识别模块为目标，设计了一种复合方法来实现多语种文本的语言识别。文章首先介绍了区域编码方案和Unicode并存的现状，指出语言识别在计算机自然语言处理领域中的广泛应用，分析了语言识别方法的研究现状。然后，具体研究了目前主要的基于文本的语言识别方法，包括基于编码非重叠区的、采用字频分布统计的、利用马尔可夫模型建立语言模型的以及采用部分匹配预测压缩算法的语言识别方法，这些技术将被用到文中提出的语言识别模块设计方案中。之后，本文设计了一种语言识别的方法，即融合了基于编码非重叠区的识别方法和语言统计模型识别方法的复合识别方法。在对真实数据进行实验和分析的基础上，设计了语言字符分布律统计模型和可信度计算模型，保证了准确和高效地实现语言识别。本文设计和实现的语言识别模块能够对目前因特网上广泛使用的主要语言字符集进行识别，包括Unicode字符集，多字节和单字节编码方式的字符集，满足电子邮件转发和过滤引擎、网页编码识别等实时系统的应用需要，并且该模块已经在国家某部委的应用工程中得到了应用，获得了很好的评价。

著录项

作者
陈伯勇;
展开▼
作者单位

南京邮电大学;

展开▼
授予单位南京邮电大学;
学科计算机软件与理论
授予学位硕士
导师姓名郑彦;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类模式识别与装置;
关键词
计算机网络; 文本数据; 信息处理; 语言识别;

相似文献

中文文献
外文文献
专利

1. 基于文本格式的文本信息隐藏方法研究综述 [J] . 张楠 ,李洪敏 ,卢敏 . 信息化研究 . 2017,第3期
2. 基于文本剩余度的文本隐藏信息检测方法研究 [J] . 罗纲 ,孙星明 . 通信学报 . 2009,第006期
3. 基于深度学习的文本分类方法研究综述 [J] . 万家山 ,吴云志 . 天津理工大学学报 . 2021,第002期
4. 基于多粒度建模的半监督文本分类方法研究 [J] . 余本功 ,汲浩敏 . 现代情报 . 2021,第006期
5. 基于随机干扰的文本型数据隐私保护方法研究 [J] . 徐雅斌 ,郭昊 . 北京信息科技大学学报（自然科学版） . 2021,第001期
6. 基于浊音信息和使用HMM的语言识别 [C] . 欧贵文 ,邓英 . 第七届全国人机语音通讯学术会议 . 2003
7. 基于对抗训练的文本表示与文本分类方法研究 [A] . 张晓辉 . 2020

基于文本的语言识别方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅