首页> 中文学位 >基于规则的蒙古文人物属性抽取研究
【6h】

基于规则的蒙古文人物属性抽取研究

代理获取

目录

第一个书签之前

展开▼

摘要

在信息爆炸的互联网时代,网络上充斥着海量繁杂的信息和数据,且多以半结构化文本或自由文本形式呈现。用户对搜索所关注信息的效率性和获得结果的准确性有着越来越高的要求,由此,信息抽取技术(IE)以帮助用户快速获取目标内容为目的而得到迅速的发展。目前信息抽取技术虽在中英文的研究上已获得不少实用成果,但在少数民族语言如蒙古文中,信息抽取的研究和应用基本仍处于空白阶段。本研究中涉及到的信息抽取特指为实体关系抽取,旨在从大规模的文本数据中提取出目标信息如人物属性值,然后将抽取结果以结构化的形式保存到本地,并为用户提供后续的查询功能,同时此研究也是构建蒙古文人物知识库或人物搜索引擎等网络应用的一项基础工作。本文以基于规则的方式,以蒙古语新闻网站爬取到的蒙古文无结构文本为研究对象,针对关注度较高的人物领域,研究了对人物属性的抽取。本文的重点研究工作如下:
  (1)设计爬虫工具,从多个蒙古文新闻网站,分别根据其中新闻正文所在网页的结构和网址特征爬取文本,对其进行多项预处理工作,再采用BLSTM与CRF相结合的模型进行命名实体识别,得到最终标注语料库,作为后续分析处理的基础资源。
  (2)使用人工制定的触发词库与规则库对语料文本中蕴含的人物属性值以“人物-属性-属性值”的三元组形式进行抽取和保存,得到了高准确率的抽取结果,证明本文提出的基于规则的抽取方法可行有效。
  (3)设计实现了蒙古文人物属性抽取系统,该系统提供人物属性抽取和人物相关属性信息查询两个功能模块。

著录项

  • 作者

    胡梦君;

  • 作者单位

    内蒙古大学;

  • 授予单位 内蒙古大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 诺明花;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    蒙古文; 人物属性; 抽取系统; 数据挖掘;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号