首页> 中文学位 >基于自然语言理解和领域本体的邮件过滤器的研究与设计
【6h】

基于自然语言理解和领域本体的邮件过滤器的研究与设计

代理获取

目录

文摘

英文文摘

论文说明:插图索引、附表索引

声明

第1章绪论

1.1课题背景和意义

1.2国内外主流的邮件过滤技术

1.3基于内容过滤技术的研究现状

1.3.1基于规则的方法

1.3.2基于统计的方法

1.4论文的主要研究内容与组织

第2章本系统所涉及的基础理论

2.1自然语言理解

2.1.1自然语言理解的概念

2.1.2自然语言理解的主流技术

2.2领域本体(Domain Ontology)

2.2.1 Domain Ontology的理论研究

2.2.2 Domain Ontology的定义

2.2.3 Domain Ontology在信息系统中的应用

2.3描述逻辑(description logics)

2.3.1知识表示与描述逻辑

2.3.2描述逻辑的描述语言和基本体系

2.4本章小结

第3章用概念从属理论解决语义理解问题

3.1对邮件用语特征的分析

3.2概念分析理论

3.3概念驱动的句法分析和语义推理

3.4本章小结

第4章领域本体框架的设计

4.1邮件领域本体的描述

4.2本体中对各种要素的定义

4.3基于描述逻辑的本体设计

4.3.1.TBox主要内容

4.3.2.ABox主要内容

4.4本章小结

第5章邮件过滤器设计

5.1.邮件过滤器框架

5.2邮件基本服务层

5.3句法分析服务层

5.3.1基本变换

5.3.2截词

5.3.3行为分析

5.3.4关系提取

5.4语义推理服务层

5.5本体更新服务

5.6邮件过滤器功能验证

5.7本章小结

总结与展望

参考文献

致谢

附录A 攻读硕士学位期间所发表的学术论文

展开▼

摘要

垃圾邮件又称“不请自来的商业邮件”,给我国的生产或商务活动带来了巨大的损失。虽然陆续推出几款邮件过滤软件,但在对比几种邮件过滤软件的原理后发现,目前的邮件过滤方法或多或少地存在着语义缺失的问题,当垃圾邮件发展到一定程度的时候,目前的邮件过滤算法将难以应付。 本文针对现有垃圾邮件过滤器在对邮件内容进行处理中的语义缺失问题,提出了将自然语言理解的相关方法引入邮件判断中来,使邮件过滤器能够从语义的高度对所收到的邮件进行过滤和分类,以达到减轻用户人工处理邮件的工作量的目的。另外,将概念分析理论引入到自然语言理解中来,利用概念分析理论不涉及具体语言这一特点,来解决汉语语言构成复杂,口语化严重的问题,并在此基础上设计了基于概念分析的邮件内容分析方法。 通过利用广告行业的领域专用术语的特点,构建了广告领域的领域本体,并作为概念分析的基础和知识库。采用的技术路线主要是:首先将对汉语语言的定义和语言的实例定义到本体库中,从而省去了数据库层,方便了系统的构建,且用可扩展标记语言(XML)来定义本体,为以后的扩展奠定了基础。用描述逻辑来支持基于概念分析的自然语言理解和推理,其次是利用描述逻辑支持分层设计的特点,设计出基于概念分析的、层次性的邮件领域本体。 最后,依据上述研究基础或设计想法,设计了一款基于自然语言理解和领域本体的邮件过滤器,并提出了一种符合真实邮件过滤环境的句法分析和语义分析算法。以广告垃圾邮件作为测试用例进行测试,并给出相应的测试数据,对该算法进行了验证,取得了令人满意的结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号