首页> 中文学位 >面向法律案例检索的文档相似度计算研究
【6h】

面向法律案例检索的文档相似度计算研究

代理获取

目录

声明

摘要

第1章绪论

1.1课题的研究背景

1.2论文的研究内容

1.2.1与法律相关的信息检索技术

1.2.2文档相似度计算方法

1.3论文的主要内容

1.4论文的组织结构

第2章文档相似度计算研究现状

2.1基于传统方法的文档相似度算法

2.1.1基于大规模文本统计的方法

2.1.2基于词项语义的方法

2.2基于深度学习方法的文档相似度算法

2.2.1孪生框架

2.2.2基于全连接神经网络的孪生网络模型

2.2.3基于卷积神经网络的孪生网络模型

2.2.4基于循环神经网络的孪生网络模型

2.3本章小结

第3章法律案例相似度标注数据集的开发

3.1引言

3.2开发动机

3.3数据集来源

3.4标注过程

3.5标注辅助工具的开发

3.6标注结果的统计分析

3.7本章小结

第4章结合二部图和句法信息的文档相似度计算

4.1引言

4.2案例文本相似度计算传统方法的baseline系统

4.3结合二部图和句法信息的文档相似度计算

4.3.1通过二部图的最大权重匹配计算关键词向量的相似度

4.3.2句法信息相似度

4.3.3文档相似度计算

4.4实验

4.4.1参数设置

4.4.2实验结果与分析

4.5本章小结

第5章融合注意力机制和文档内容压缩的文档相似度计算

5.1引言

5.2基于孪生网络的文档相似度计算的基线系统实现

5.3基于集成注意力机制的孪生网络模型的文档相似度计算

5.3.1在孪生网络中融入注意力机制

5.3.2利用层级注意力机制改进孪生网络中的文档表示

5.4引入文档内容压缩的两步骤文档相似度计算

5.4.1两步骤的文档相似度计算框架

5.4.2文档内容压缩方法

5.5实验

5.5.1参数设置

5.5.2实验结果与分析

5.6本章小结

第6章总结与展望

6.1总结

6.2展望

参考文献

致谢

展开▼

摘要

文档相似度计算是法律案例检索中的基础性工作,然而目前法律案例检索技术还尚未成熟。本文分别从传统方法和深度学习方法角度分析和比较现有的文档相似度计算方法,然后针对现有方法的不足,分别设计与实现更有效的案例文本相似度计算模型与算法。本文的主要工作有以下几点:
  (1)开发了一个法律案例文本相似度标注数据集,该数据集有1225个不同的文档对。目前尚没有公开的中文法律案例数据集或者其他任务的中文文档相似度数据集,实验数据集是实验论证的基础。
  (2)提出了结合二部图和句法信息的文档相似度计算方法。首先设计和实现了基于词项语义信息和TF-IDF的传统方法的baseline系统。针对baseline系统未能考虑关键词向量的完整信息以及缺乏句法信息的问题和不足,本文利用二部图改进关键词向量的计算方法并进一步结合句法信息计算文档相似度。
  (3)提出了融合注意力机制和文档内容压缩的文档相似度计算方法。首先设计和实现了基于长短时记忆网络的孪生网络模型的深度学习方法的baseline系统。针对baseline系统没有考虑文档中不同词项的重要性信息的不足,提出和设计了结合注意力机制的孪生网络计算模型;进一步针对将整个文本看成是模型输入序列易导致数据稀疏的问题,提出利用层级注意力机制改进孪生网络中的文档表示;最后针对基于层级注意力机制的孪生网络计算模型可能有忽略文档中重要句子的问题,提出一种引入文档内容压缩的两步骤文档相似度计算方法。
  对提出的基于传统方法和深度学习方法的文档相似度算法做了一系列实验,实验结果表明本文的方法明显优于baseline系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号