首页> 中文学位 >对话系统数据预处理模块的设计与实现
【6h】

对话系统数据预处理模块的设计与实现

代理获取

目录

声明

致谢

摘要

1 引言

1.1 研究意义和背景

1.2 研究现状

1.3 本人工作总结

1.4 论文的组织结构

1.5 本章小结

2 系统相关理论和技术综述

2.1 SpringCloud技术

2.2 作业调度框架

2.3 XPath技术

2.4 正则表达式

2.5 TiDB

2.6 Redis

2.7 知识图谱构建技术

2.7.1 本体编辑器

2.7.2 Neo4j

2.8 本章小结

3 需求分析

3.1 系统需求分析

3.1.1 数据采集需求分析

3.1.2 知识图谱构建需求分析

3.2 系统非功能性需求

3.3 需要解决的问题

3.4 本章小结

4 系统设计

4.1 系统总体设计

4.2 数据采集设计

4.2.1 网页下载模块的设计

4.2.2 数据抽取模块的设计

4.2.3 URL调度分发模块的设计

4.2.4 URL过滤模块的设计

4.2.5 登陆模块的设计

4.2.6 验证码识别模块的设计

4.2.7 日志模块的设计

4.2.8 系统资源模块的设计

4.2.9 代理IP模块的设计

4.2.10 系统管理模块的设计

4.3 知识图谱构建设计

4.3.1 schema模块的设计

4.3.2 数据预处理模块的设计

4.3.3 数据处理模块的设计

4.3.4 人工编辑模块的设计

4.4 数据库设计

4.5 本章小结

5 系统实现

5.1 数据采集部分

5.1.1 项目结构

5.1.2 网页下载模块的实现

5.1.3 数据抽取模块的实现

5.1.4 URL过滤模块的实现

5.1.5 URL调度分发模块的实现

5.1.6 登陆模块的实现

5.1.7 验证码识别模块的实现

5.1.8 日志模块的实现

5.1.9 系统资源模块的实现

5.1.10 代理IP模块的实现

5.1.11 系统管理模块的实现

5.2 知识图谱的构建

5.2.1 schema模块的实现

5.2.2 数据预处理模块的实现

5.2.3 数据处理模块的实现

5.2.4 人工编辑模块的实现

5.3 本章总结

6 系统测试

6.1 数据采集功能性测试

6.1.1 下载模块的测试

6.1.2 抽取模块的测试

6.1.3 URL过滤模块的测试

6.1.4 URL调度分发模块的测试

6.1.5 登陆模块的测试

6.1.6 验证码模块的测试

6.1.7 日志模块的测试

6.1.8 系统资源模块的测试

6.1.9 代理IP模块的测试

6.1.10 系统管理模块的测试

6.1.11 整体性测试

6.1.12 运行结果

6.2 知识图谱构建功能性测试

6.2.1 schema模块的测试

6.2.2 数据预处理模块的测试

6.2.3 数据处理模块的测试

6.2.4 人工编辑模块的测试

6.3 本章小结

7 总结和展望

7.2 展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

随着互联网技术的发展,人机交互的方式也发生了很大的改变。对话系统是人机交互技术发展到现在的产物,它允许用户用自然语言和计算机应用程序交互。近些年来,知识图谱的兴起也给对话系统带来了新的思考和新的想法。本人在实习公司参与的项目就是对话系统,该对话系统通过应用接口的方式为其他系统提供服务。本人负责的是数据预处理模块的工作,包括数据采集、数据存储、知识图谱的构建。
  本人具体的工作内容如下:
  (1)前期进行大量的调研和分析,了解行业背景和工作流程,分析现有系统的不足和问题,查阅文献资料,针对性解决问题,提出解决方案。
  (2)独立完成实现了数据采集的全部功能,参与了知识图谱构建的相关模块。
  (3)基于SpringCloud的微服务架构实现了数据采集,将数据采集流程中的各个部分变成了独立的服务。
  (4)在数据采集当中研究了基于XML(Extensible Markup Language)的页面可视化的配置,分析总结了不同数据之间的相互转换的规则,实现了抽取规则的可视化配置。
  (5)研究了知识图谱构建的相关文献,和同事总结了构建的一些步骤,通过自然语言处理的技术进行处理,最终构建成知识图谱,这些步骤还处在实践优化阶段。
  (6)参与并对相关模块进行了测试。
  本人参与的工作完成了现阶段的目标,还在进行着持续性的优化和开发。数据采集系统运行良好,知识图谱正在分领域的构建中。

著录项

  • 作者

    邵志强;

  • 作者单位

    北京交通大学;

  • 授予单位 北京交通大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 孔令波;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP274.2;
  • 关键词

    人机交互; 对话系统; 数据预处理; 模块设计;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号