首页> 外文会议>2011 Fourth International Conference on Intelligent Networks and Intelligent Systems >A Template-Based Tibetan Web Text Information Extraction Method
【24h】

A Template-Based Tibetan Web Text Information Extraction Method

机译:基于模板的藏文网页文本信息提取方法

获取原文

摘要

In order to build a large Tibetan corpus, the researcher proposes a simple and effective method of text information extraction over Tibetan Web pages. Most web pages too much noise information unrelated to the content of the text, which makes it difficult to collect the required text information accurately and completely. After analyzing the characteristics of the seven major Tibetan Web sites, whose way of providing information is a combining use of the records in the database and the inherent dynamic web templates, the researcher presents in this article a web-based template text information extraction method. Experiments show that the method can identify and extract text information through a regular expression that filters the noise information, thus it might play a significant role in the Tibetan corpus construction with much feasibility and applicability.
机译:为了建立一个大型的藏语语料库,研究人员提出了一种简单有效的从藏语网页上提取文本信息的方法。大多数网页的噪音信息太多,与文本的内容无关,这使得很难准确,完整地收集所需的文本信息。在分析了七个主要藏文网站的特征之后,研究人员在本文中提出了一种基于Web的模板文本信息提取方法,该网站提供信息的方式是将数据库中的记录与固有的动态Web模板结合使用。实验表明,该方法能够通过过滤噪声信息的正则表达式识别和提取文本信息,因此在藏语料库的构建中可能起着重要的作用,具有很大的可行性和适用性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号