首页> 中文学位 >基于网络搜索的问答系统
【6h】

基于网络搜索的问答系统

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1课题研究目的及意义

1.2国内外研究现状

1.3本文主要研究内容

1.4章节内容组织

第2章 系统构建和平台设计

2.1系统结构概述

2.2问题理解模块

2.3信息检索模块

2.4答案抽取模块

2.5本章小结

第3章 用户问题预处理

3.1问题关键词提取

3.2问题类型分类

3.3本章小结

第4章 答案抽取及评分策略

4.1信息源类别划分

4.2事实类问题答案抽取策略

4.3非事实类问题答案抽取策略

4.4关键词加权改进方法

4.5本章小结

第5章 实验结果评价与分析

5.1问题语料及评价方法

5.2问题分类实验分析

5.3答案抽取实验分析

5.4系统运行结果

5.5本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其它成果

声明

致谢

展开▼

摘要

随着Internet的不断发展,网络已经成为人们获取信息的重要来源。如何快速方便的从网络中获取信息,已经成为人们努力研究的焦点。虽然搜索引擎和自动问答系统的出现很好的解决了这一问题,但是它们各自仍然存在着一些不足。搜索引擎以关键词的方式检索信息,很难清晰表达用户的意图,而且返回的结果是相关网页的集合,仍然需要用户自己手动查找答案。传统的自动问答系统虽然能够弥补搜索引擎的这些不足,接受用户输入问题,并返回准确答案,但是它需要独立维护一个非常庞大的知识库,因而信息覆盖范围小和更新速度慢成为了自动问答系统最主要的缺点。为了弥补这个不足,本文提出了一种基于网络搜索的问答系统,将互联网作为系统的知识库,利用搜索引擎检索网络中的信息,最后根据用户输入的问题,从中提取出正确答案,并返回给用户。
  本文根据传统问答系统的三个模块结构,详细设计了系统的整体框架,并针对各个模块进行任务划分。在问题分析模块主要进行了问题分类和关键词提取的工作。信息检索模块主要利用搜索引擎检索网络中的相关文档,并将其爬取下来。答案提取模块根据问题类型和信息来源分别制定了不同的答案提取和评分策略。本文利用命名实体识别技术对事实类问题进行答案抽取,利用答案相似度计算方法对非事实类问题进行答案抽取,并以概率计算的方式为每一个候选答案评分。即分别计算网页的先验概率和答案在网页中的条件概率,最终将评分最高的候选答案返回给用户。
  本文对问题分析和答案提取模块进行了一些改进。首先针对几种特殊类型的问题对原有的问题分类模型进行了改进。然后利用句法依存关系从问题中提取限定词,为每个关键词设定不同的权重。最后利用关键词的权重分别对答案评分方法和答案相似度计算方法进行了改进。
  本文在构建和实现基于搜索引擎的问答系统基础上,利用人工构建的问题测试集对系统的性能进行了测试,还对问题分类和答案提取的改进方案进行了评价分析。最后的实验数据表明了本文提出的改进方案的有效性。而系统的实际运行效果也证明了该系统在实际应用中的可行性。

著录项

  • 作者

    刘增健;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 王晓龙;
  • 年度 2013
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;TP311.13;
  • 关键词

    网络搜索; 信息检索; 问答系统; 答案抽取; 知识库;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号