首页> 中文期刊> 《软件》 >正则表达式在旅游突发事件信息抽取中的应用

正则表达式在旅游突发事件信息抽取中的应用

     

摘要

A method of Web information extraction is proposed against the semantic features of Hyper Text Mark-up Language.The method does not need to construct DOM tree,and uses replace and match features of regular expression to remove the useless information from the source code of Web page and transform the source code to raw document.The starting and the end of the main content are searched according to the density of char-acters of the main content in the raw document,so as to extract the main content.Experiment show high efficiency in using regular expression to extract Web information from tourism accident reported on Internet.%针对HTML语言的标记符号的语义特点,提出了正则表达式抽取网页信息的方法,并将该方法应用于抽取网页中的旅游突发事件信息.该方法不需要构建 DOM 树,利用正则表达式的匹配替换功能去掉网页源码中与正文无关的内容生成原始文档,根据原始文档中的正文内容密集出现的特点,寻找正文的起点和终点,从而提取正文.抽取旅游突发事件信息的试验结果表明,正则表达式能高效地抽取目标信息.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号