【24h】

LegalBERT-th: Development of Legal QA Dataset and Automatic Question Tagging

机译:Legalbert-th:合法的开发和数据集和自动问题标记

获取原文

摘要

Tagging questions according to their topics is useful for internet forum management. In this paper, we use the Bidirectional Encoder Representations from Transformers (BERT) model to categorize posts from Thai legal internet forums. First, We construct our new legal Q&A dataset by scraping the internet, cleaning the data, and annotating the data. Second, We perform transfer learning to let our model learn about the legal language model in general and then fine-tune the model for the law topic classification task. As a result, we have developed a legal Q&A dataset of 12,695 question/answer pairs and a law topic classification model based on BERT with 92% accuracy. Finally, we build a prototype legal internet forum which equipped with the automatic tagging function, law topic classification, to provide a concrete example of how to apply the model in the real situation.
机译:根据他们的主题标记问题对于互联网论坛管理是有用的。 在本文中,我们使用来自变换器(BERT)模型的双向编码器表示来分类来自泰国法律互联网论坛的帖子。 首先,通过缩写互联网,清洁数据并注释数据来构建新的法律Q&A数据集。 其次,我们执行转移学习,让我们的模型了解法律语言模型一般,然后微调法律主题分类任务的模型。 因此,我们制定了一个用于12,695个问题/答案对的法律问答和数据集,以及基于伯特的法律主题分类模型,精度为92%。 最后,我们建立了一个配备自动标记函数,法律主题分类的原型法律互联网论坛,提供了如何在真实情况下应用模型的具体示例。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号