首页> 中文学位 >面向Web的学前教育新闻信息抽取技术研究
【6h】

面向Web的学前教育新闻信息抽取技术研究

代理获取

目录

文摘

英文文摘

声明

第1章 绪论

第2章 学前教育新闻网页正文信息的抽取方法

第3章 学前教育新闻网页中关键信息抽取

第4章 实验研究

第5章 总结和展望

参考文献

致谢

展开▼

摘要

随着计算机和网络的普及,目前的新闻信息更多的是以电子可读文本的形式存在,以供读者检索查阅,也就是网络新闻,学前教育学科的新闻也不例外。本文中的学前教育新闻是指以电子可读文本形式存在的学前教育学科的网络新闻。对学前教育新闻的信息抽取处理,主要是把新闻中包含的信息进行结构化处理,以统一的形式集成在一起。
   伴随着网络信息爆炸式的增长,人们被包围在信息的汪洋大海之中,对学前教育新闻的各种不同的需求,很难有效地利用搜索引擎准确、高效地从信息海洋中抽取所需资源。准确地获取Web 页面中的学前教育新闻信息资源正是亟待解决的问题。基于Web的学前教育新闻信息抽取技术的研究,正是伴随着这样的需求而出现并不断丰富的。通过信息抽取,使得学前教育新闻信息得以结构化,便于深层利用,反之,还可以指导学前教育新闻信息的获取。
   针对学前教育网络新闻“循环化”的特点,本文利用信息抽取技术对新闻网页正文进行抽取,以文本的形式保存,为学前教育信息资源库的建设打下基础的同时,还从文本中抽取出大量特定的事实信息,如新闻发表时间、新闻中出现的中文人名、地名等,可以对外提供信息检索服务。具体包括如下内容:
   根据学前教育新闻网页正文信息的特点,结合以开源代码形式发布的HTMLParser 工具包,利用基于规则的信息抽取方法和现有的网页噪音净化等计算机技术,将互联网上半结构化的新闻网页正文抽取出来,以文本形式保存。然后通过统计与规则相结合的方法,制定新闻发表时间、中文人名和地名的统计概率模型,抽取出新闻网页正文中的多种专有名词存放到结构化的数据库中,方便人们检索信息。
   本课题的研究与开发,为解决部分未登录词的识别和抽取提供了一个可行的解决方案,充分利用互联网上丰富的新闻信息和现代计算机技术,把分散在多处的学前教育新闻资源整合在一起,为教师教学和学生学习提供了丰富、优质的素材,避免了重复检索和无用信息的筛选,有利于学前教育学科领域的信息化建设。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号