文档内容抽取与特征选择技术的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着越来越多的信息以电子文档的形态存在，文本处理相关软件也日益增多。在文本处理领域，传统单一格式文档处理系统在扩展性和通用性方面已经不能满足需求。对于文本特征的选择，现有技术主要是从词的频率和词的语义信息两个方面进行处理，忽略了词在源文档中的重要程度。
　　本文针对以上问题，以军事领域文档处理为背景，为多格式文档定义了一种统一的半结构化文本模型，有效地保留了词在源文档中的语义结构信息。在此基础上研究了HTML、XML、PDF和WORD文档的内容抽取和特征选择技术。在HTML正文抽取中，改进了基于DOM树的网页正文抽取算法。此外，针对现有文本特征选择算法存在的问题，提出了一种基于信息增益和内容属性的特征选择算法，有效地降低了特征维度，使得所选出的特征集合具有更强的区别度。在对内容抽取和特征选择技术研究的基础上，设计并实现了多格式文档抽取系统。
　　最后，通过实验验证了改进后的HTML正文抽取算法以及基于信息增益和内容属性的特征选择算法的高效性，同时对多格式文档抽取系统进行了功能测试，实验证明系统达到了设计要求。

著录项

作者
颉嘉;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名陈平;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理 ;
关键词
文档内容抽取; 特征选择; 信息增益; DOM树; 系统开发;

相似文献

中文文献
外文文献
专利

1. 基于内容的文档图像检索的特征抽取研究 [J] . 马永成 ,肖诗斌 ,林春雨 . 江西师范大学学报（自然科学版） . 2008 ,第002期
2. 基于事实抽取的Web文档内容数据质量评估 [J] . 韩京宇 ,陈可佳 . 计算机科学 . 2014 ,第011期
3. 基于ECC的病历文档内容抽取签名方案的研究 [J] . 梁成全 ,宋余庆 ,耿飙 . 计算机应用研究 . 2010 ,第007期
4. 基于XML签名的内容抽取签名的研究与实现 [J] . 刘洁 ,薄祥臣 . 河北工业科技 . 2009 ,第005期
5. 网页文档内容与格式识别的研究与实现 [J] . 张东 . 科技资讯 . 2006 ,第012期
6. 基于内容的文档图像检索的特征抽取研究 [C] . 马永成 ,北京拓尔思信息技术有限公司 ,肖诗斌 . 第六届全国搜索引擎和网上信息挖掘学术研讨会 . 2008
7. HTML文档信息抽取及语音再表达的研究与实现 [A] . 黄冠能 . 2007

文档内容抽取与特征选择技术的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅