声明
致谢
摘要
1 引言
1.1 论文背景
1.2国内外相关现状
1.2.1国外搜索引擎
1.2.2国内搜索引擎
1.3论文主要工作
1.4论文组织结构
1.5本章小结
2相关理论与关键技术
2.1 Hadoop
2.1.1MapReduce
2.1.2 HDFS
2.1.3 Hadoop Streaming
2.2相似度算法
2.2.1词向量(Word2vec)
2.2.2文档主题模型(LDA)
2.2.3交集比并集(Jaccard)
2.2.4余弦相似度(Consin)
2.2.5最长公共子序列和最长公共子串
2.3 hyperopt模型调参
2.4本章小结
3 查询需求识别系统需求分析
3.1系统描述
3.2系统功能性需求分析
3.2.1用户管理模块
3.2.2需求泛化模块
3.2.3样本标注评估模块
3.2.4资源管理模块
3.3系统非功能性需求分析
3.3.2可扩展性
3.3.3稳定性
3.4本章小结
4系统总体设计
4.1 系统总体结构设计
4.2系统功能设计
4.2.1用户管理模块
4.2.2需求泛化模块
4.2.3样本标注评估模块
4.2.4资源管理模块
4.3数据库设计
4.3.1数据库表关系
4.3.2用户管理子模块表结构
4.3.3需求泛化模块表结构
4.3.4样本标注评估模块表结构
4.3.5资源管理模块表结构
4.4本章小结
5系统详细设计实现
5.1 样本抽取
5.1.1数据提取
5.1.2属性过滤
5.1.3实体泛化
5.1.4整体流程
5.2模型训练
5.2.1样本数据预处理
5.2.2模型特征提取
5.2.3模型算法
5.2.4模型选择评估
5.2.5模型调优
5.2.6整体流程
5.3 查询需求识别系统设计与实现
5.3.1 用户管理模块的设计与实现
5.3.2需求泛化模块的设计与实现
5.3.3样本标注评估模块的设计与实现
5.3.4资源管理模块的设计与实现
5.4本章小结
6系统测试
6.1 系统测试内容及环境
6.1.1系统测试内容
6.1.2系统测试环境
6.2样本抽取和模型测试
6.2.1样本抽取测试
6.2.2模型测试
6.3用户管理模块测试
6.4需求泛化模块测试
6.5样本标注评估模块测试
6.6资源管理模块测试
6.7测试结论
6.8上线效果图
6.9本章小结
7总结与展望
7.1 总结
7.2展望
参考文献
作者简历及攻读硕士/博士学位期间取得的研究成果
学位论文数据集