面向法律案例检索的文档相似度计算研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文档相似度计算是法律案例检索中的基础性工作，然而目前法律案例检索技术还尚未成熟。本文分别从传统方法和深度学习方法角度分析和比较现有的文档相似度计算方法，然后针对现有方法的不足，分别设计与实现更有效的案例文本相似度计算模型与算法。本文的主要工作有以下几点:
　　(1)开发了一个法律案例文本相似度标注数据集，该数据集有1225个不同的文档对。目前尚没有公开的中文法律案例数据集或者其他任务的中文文档相似度数据集，实验数据集是实验论证的基础。
　　(2)提出了结合二部图和句法信息的文档相似度计算方法。首先设计和实现了基于词项语义信息和TF-IDF的传统方法的baseline系统。针对baseline系统未能考虑关键词向量的完整信息以及缺乏句法信息的问题和不足，本文利用二部图改进关键词向量的计算方法并进一步结合句法信息计算文档相似度。
　　(3)提出了融合注意力机制和文档内容压缩的文档相似度计算方法。首先设计和实现了基于长短时记忆网络的孪生网络模型的深度学习方法的baseline系统。针对baseline系统没有考虑文档中不同词项的重要性信息的不足，提出和设计了结合注意力机制的孪生网络计算模型;进一步针对将整个文本看成是模型输入序列易导致数据稀疏的问题，提出利用层级注意力机制改进孪生网络中的文档表示;最后针对基于层级注意力机制的孪生网络计算模型可能有忽略文档中重要句子的问题，提出一种引入文档内容压缩的两步骤文档相似度计算方法。
　　对提出的基于传统方法和深度学习方法的文档相似度算法做了一系列实验，实验结果表明本文的方法明显优于baseline系统。

著录项

作者
李兰君;
展开▼
作者单位

南京师范大学;

展开▼
授予单位南京师范大学;
学科计算机科学与技术；计算机应用技术
授予学位硕士
导师姓名周俊生;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
法律案例检索; 文档相似度; 计算方法; 二部图; 注意力机制; 深度学习;

相似文献

中文文献
外文文献
专利

1. 基于词频-逆文档频率和法律本体的相似案例检索算法 [J] . 张云婷 ,叶麟 ,方滨兴 . 智能计算机与应用 . 2021,第005期
2. 基于词频-逆文档频率和法律本体的相似案例检索算法 [J] . 张云婷 ,叶麟 ,方滨兴 . 智能计算机与应用 . 2021,第005期
3. 基于上下文多元信息的文档相似度计算研究 [J] . 于凤 ,郑德权 ,赵铁军 . 哈尔滨工程大学学报 . 2006,第0z1期
4. 基于上下文多元信息的文档相似度计算研究 [J] . 于凤 ,郑德权 ,赵铁军 . 哈尔滨工程大学学报 . 2006,第B07期
5. 文档相似度综合计算研究 [J] . 宋玲 ,马军 ,连莉 . 计算机工程与应用 . 2006,第030期
6. 基于上下文多元信息的文档相似度计算研究 [C] . 于凤 ,郑德权 ,哈尔滨工业大学 . 第十六届中国神经网络大会(CNNC2006)暨首届中国人工免疫系统专题会议(CAISC06) . 2006
7. 基于文本和公式的科技文档相似度计算研究 [A] . 许彩云 . 2019

面向法律案例检索的文档相似度计算研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅