【24h】

Forum Data Extraction without Explicit Rules

机译:论坛数据提取无明确规则

获取原文

摘要

Web forum data contributed by millions of users are the mixture of well-formed user information and free-format user-generated content. Though easy to read for users, forum data are difficult to be analyzed by computer systems because of various surrounding HTML tags. It is challenging to extract forum data from a large number of Web sites automatically since these sites may have different styles. In this paper, we propose an approach to extract user information and user-generated content from multiple forum sites by using both structural and textual characteristics of forums. A structural induction process and a term combination computation process are introduced to assure extraction accuracy and automation. Extensive experiments on real-life data sets show the effectiveness of our proposed method.
机译:数百万用户贡献的Web论坛数据是良好的用户信息和自由格式用户生成内容的混合。 虽然易于阅读用户,但由于各种周围的HTML标签,计算机系统难以分析论坛数据。 自动从大量网站中提取论坛数据是挑战,因为这些网站可能具有不同的样式。 在本文中,我们提出了一种通过使用论坛的结构和文本特征来提取来自多个论坛站点的用户信息和用户生成的内容。 引入结构感应过程和术语组合计算过程以确保提取精度和自动化。 实际数据集的广泛实验表明了我们提出的方法的有效性。

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号