【24h】

Improving Quality of the Web Corpus

机译:提高网络语料库的质量

获取原文
获取外文期刊封面目录资料

摘要

We present a method for constructing a text corpus from the Web. We use a collection of Web pages so that we can solve lack of resource amount. However, some of the Web texts have a low quality. We then propose some procedures to reduce these low-quality texts out of the Web corpus. We have proved in the experiments that our Web corpus outperformed a newspaper corpus of the same size, in terms of number of words and case frame variations. We also illustrate that our Web corpus is also superior to unprocessed Web texts.
机译:我们提出了一种从Web构建文本语料库的方法。 我们使用一系列网页,以便我们可以解决缺乏资源金额。 但是,一些网络文本具有低质量。 然后,我们提出了一些程序来将这些低质量的文本从Web语料库中减少。 我们已经证明我们的网上语料库表现出同样大小的报纸语料库,就单词数量和案例帧变化而言。 我们还说明我们的Web语料库也优于未处理的Web文本。

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号