首页> 中文学位 >财经领域命名实体识别方法的研究与系统实现
【6h】

财经领域命名实体识别方法的研究与系统实现

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1 课题来源及研究意义

1.2与课题相关的国内外研究现状

1.3本论文的主要工作内容

第2章 命名实体识别相关方法研究

2.1基于规则的方法

2.2基于机器学习的方法

2.3本章小结

第3章 财经领域命名实体识别系统需求分析与总体设计

3.1财经领域命名实体识别需求分析

3.2财经领域命名实体识别系统总体设计

3.3本章小结

第4章 财经领域命名实体识别系统详细设计与实现

4.1模型训练模块的设计与实现

4.2实体识别模块的设计与实现

4.3本章小结

第5章 财经领域命名实体识别系统测试

5.1测试环境条件

5.2单元测试

5.3集成测试

5.4性能测试

5.5测试结论

5.6本章小结

结论

参考文献

声明

致谢

个人简历

展开▼

摘要

随着大数据处理技术的不断发展,互联网金融也进入了大数据时代。面对海量的财经文章,使用自然语言处理技术对其进行解析已成为技术发展的必然趋势。而命名实体识别作为自然语言处理技术中的重要基础,为信息抽取、信息过滤、信息检索、问答系统等多种自然语言处理技术提供了重要的基础技术支持。因此,开发一个识别财经领域中的股票名称、股票代码等命名实体的系统,具有重要的现实意义和使用价值。
  论文通过查阅相关文献,详细论述了课题的产生背景和相关技术的发展与应用。在总结需求的基础上,对命名实体识别系统进行了深入研究,确定了解决方案和技术措施。针对命名实体识别,本系统采用了条件随机场(Conditional Random Field,CRF)模型,在模型训练过程中结合了Co-Training方法,不仅可以提高模型识别性能,还减少了因标注语料而消耗的大量人力物力。对于命名实体的识别采用的是 Viterbi算法。此外,为了解决 CRF模型训练和实体识别时间较长的问题,将系统架构在Hadoop框架之上,使用并行化处理的方式来缩短其运行时间。
  本系统在设计上可以划分为模型训练和实体识别两大模块。模型训练模块采用CRF模型,使用选取的标注语料和特征模板,基于Co-Training方法训练得到一个CRF模型。命名实体识别模块可以从财经新闻、公司年报、个股研报等财经文章中识别出股票名称、股票代码等实体信息,识别过程使用了Viterbi算法,从而将识别问题转化为了序列标注问题。最后还对模型的识别性能进行了评测、比较,验证了CRF模型的优越性及Co-Training方法训练模型的可行性与有效性。
  系统经过测试,已经可以实现模型训练和实体识别两大功能,满足了需求分析中提出的功能和非功能需求,达到了预期的要求。系统现已上线运行。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号