首页> 中文学位 >基于条件随机场的音乐领域命名实体识别
【6h】

基于条件随机场的音乐领域命名实体识别

代理获取

目录

摘 要

Abstract

第1章 绪 论

1.1 本文背景和研究意义

1.2 音乐命吊实体识别中的困难及问题

1.3 国内和国外的研究方法及发展

1.3.1 命吊实体识别NER在国内外的发展

1.3.2 近些年 NER的学习方法

1.4 本文主要内容

第2章 概率统计模型理论

2.1 概率统计模型

2.2 条件随机场模型

2.2.1 简介

2.2.2 条件随机场

2.3 条件随机场模型与其他模型对比

2.3.1 SVM的简要介绍

2.3.2 最大熵的缺点

2.3.3 最大熵马尔可夫模型的介绍

2.3.4 标记偏置问题的简介

2.4 本章小结

第3章 音乐领域的语料标注

3.1 语料获取

3.2 语料净化及分句

3.2.1 网页净化

3.2.2 分句处理

3.3 语料的标记

3.4 语料划分

3.5 词典的建立

3.6 语料预处理

3.7 本章小结

第4章 音乐命吊实体识别

4.1 特征选取

4.1.1 特征模板建立的思想

4.1.2 各种特征介绍

4.1.3 特征文件预处理

4.1.4 对比实验分析

4.2 本系统架构

4.2.1 语料处理模块

4.2.2 训练模块

4.2.3 测试模块

4.2.4 后处理模块

4.3 与其他模型的对比实验

4.3.1 最大熵对比实验

4.3.2 SVM对比实验

结 论

参考文献

附 录

哈尔滨工业大学学位论文原创性声明及使用授权说明

致 谢

展开▼

摘要

由于音乐数量的大量增长,人们迫切需要实现对音乐文本信息的自动化抽取、识别和分类,信息提取首要的关键任务就是命名实体识别(Name Entity Recognize,NER)。命名实体识别在应用自然语言处理的实践中有重要的作用,是信息提取等各种自然语言处理方式的重要基础工具。因此音乐领域的NER也是一件非常重要且有意义的研究项目。
  本文是基于条件随机场(Conditional Random Fields,CRF)音乐领域的命名实体识别,其中,本文所需要识别的命名实体类型主要有4种:歌手名、组合名、音乐名、专辑名。条件随机场的一个最大的优势是,在处理输入的各种随机的、非独立的特征时,具有很大的灵活性,且很好的解决了标记偏置问题,所以本文采用条件随机场模型CRF进行在音乐领域的命名实体识别系统。
  而命名实体识别的首要任务就是语料的获取,本文所建立的语料库内容主要是采用网页挖掘的方法从搜狐音乐、新浪音乐等音乐门户网站上获取的,经过对语料进行净化、分句、标注、划分类别、预处理等步骤完成语料的获取工作,其中由于音乐领域还没有已经整理好的语料库,所以本文的标注工作的尤为繁琐,在命名实体识别的数据准备过程中,还收集了各种音乐领域的词典,用来进行特征文件的预处理中添加属性列和进行词典特征匹配。
  和其他领域的命名实体识别相类似,音乐领域的命名实体识别中特征函数的选择及特征模板的建立对识别的结果的影响很大,也是命名实体识别中的难点。本文中分别提取了对应歌手名、组合名、专辑名、歌曲名的基本特征、前后缀特征、字典特征和综合特征,并说明了本次系统中特征选择及特征模板的建立过程,而且在应用不同特征的情况下进行了对比实验。
  本文中还给出了音乐领域的命名实体识别系统的框架。在系统的实验中,获得了较高的准确率的实验结果,并与基于其他模型进行对比实验,实验结果证明了CRF能够较好的应用于在音乐领域的NE识别中,且准确率与其他模型相比具有一定的优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号