面向中文网页的信息抽取关键技术研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的发展，网络中web页面的数量规模越来越庞大，在这些海量的web页面中，包含着许多用户需要的信息。通常情况下，能够为用户所直接使用的信息都是以结构化的形式组织，而web页面中用户需要的信息通常都包含在大量的页面无结构化或半结构化文本中，因此用户难以直接利用web页面的信息。为了更好的利用web页面中包含的信息，就需要从web页面中抽取出用户所需要的信息，并将其以结构化的形式存储。
　　网页信息抽取旨在从网页中抽取出结构化信息，网页中不仅仅包含由自然语言构成的自由文本（无结构化文本），同时也包含如表格、列表等半结构化文本。本文主要针对从中文网页中抽取信息进行研究，采用一种结合网页段落筛选和数据集成的技术同时从网页自由文本和半结构化文本中抽取信息的综合方法进行中文网页信息抽取。该方法采用启发式规则从网页中筛选出自由文本和半结构化文本，之后针对自由文本采用分词、词性标注、基于规则的命名实体识别技术等自然语言处理技术和语义抽取规则进行信息抽取，同时采用包装器归纳的方法归纳出单槽规则用于半结构化文本信息抽取，最终将从两种文本中抽取出的信息转换为规范化数据以解决数据冲突从而实现数据集成。本文也将上述方法应用于针对网页中企业注册信息抽取的系统实现并进行相关实验，并对其抽取效果进行评估，实验数据表明该方法从网页中抽取信息的平均准确率和查全率分别为93.41％和87.44％，并且该方法信息抽取的F-value值比单独采用自由文本或半结构化文本信息抽取方法都有了非常显著的提高。

著录项

作者
陈劲;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机应用技术
授予学位硕士
导师姓名林怀忠,许端清;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
信息抽取; 自由文本; 半结构化文本; 中文网页;

相似文献

中文文献
外文文献
专利

1. 一种网页信息抽取算法的研究与实现 [J] . 王孟博 . 青岛远洋船员职业学院学报 . 2021,第004期
2. 基于WEB网页文本信息抽取研究与实现 [J] . 刘三星1 . 数据挖掘 . 2015,第004期
3. FORM表单反馈网页信息抽取的研究与实现 [J] . 火善栋 . 电脑知识与技术 . 2009,第009期
4. 中文网页信息抽取技术及分类算法研究 [J] . 于成龙 . 山东理工大学学报（自然科学版） . 2011,第003期
5. 面向深网网页的信息抽取算法研究 [J] . 李丹 . 信息记录材料 . 2019,第001期
6. 一种从中文网页中抽取信息的综合方法 [C] . Chen Jin ,陈劲 ,Lin Huaizhong . 第29届中国数据库学术会议 . 2012
7. 面向中文知识图谱的开放式文本信息抽取关键技术研究 [A] . 徐菁 . 2018

面向中文网页的信息抽取关键技术研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅