您现在的位置: 首页> 研究主题> Nutch

Nutch

Nutch的相关文献在2007年到2020年内共计104篇,主要集中在自动化技术、计算机技术、信息与知识传播、经济计划与管理 等领域,其中期刊论文100篇、专利文献4篇;相关期刊68种,包括人天科学研究、现代图书情报技术、科学与财富等; Nutch的相关文献由213位作者贡献,包括聂琰、宋光慧、沈巍等。

Nutch—发文量

期刊论文>

论文:100 占比:96.15%

专利文献>

论文:4 占比:3.85%

总计:104篇

Nutch—发文趋势图

Nutch

-研究学者

  • 聂琰
  • 宋光慧
  • 沈巍
  • 蒋科辉
  • 蔡小艳
  • 于治楼
  • 付光
  • 付茜
  • 刘琳
  • 刘金亮
  • 期刊论文
  • 专利文献

搜索

排序:

年份

    • 肖红玉; 贺辉; 黄灼东; 蔡昭阳
    • 摘要: 针对通用搜索引擎专业性不够、查准率较低的问题, 基于Nutch开源搜索引擎, 采用基于本地词库和动态加载词库的正向迭代最细粒度切分算法实现中文分词.基于特征词和元数据标签的空间向量模型实现就业领域主题相关性判定, 基于MapReduce引入网页链入链接权重因子和时间衰减因子改进LinkRank排序算法等对Nutch进行二次开发, 并在网页信息抓取和过滤、就业信息搜索和特征词推荐等环节引入就业领域本体信息, 采用Java框架技术对用户查询接口进行了二次开发, 提供了如关键字智能提醒、定制爬虫、二次查找、设定查询结果日期、订阅查询等扩展查询接口, 设计并实现了基于Nutch的就业垂直搜索引擎.实验结果表明, 基于Nutch的就业垂直搜索引擎具有较高的查准率, 可以满足用户专业检索的需求.%Aiming at the problems that the general search engine has poor profession and low precision rate, based on Nutch, an open source engine, we use forward iteration and fine-grained segmentation algorithm based on local word lexicon and dynamically loaded word lexicon to achieve Chinese word segmentation.Vector space model based on feature words and metadata tags is used to determine topic relevance in employment field.The LinkRank sorting algorithm supporting MapReduce which is introduced the link weight factor and time decay factor is improved to make a secondary development of Nutch and employment domain ontology is applied to web information crawling and filtering, employment information retrieval and feature word recommendation stages.Spring MVC technology is used to develop the user query interface, which provides the extended query interface such as keyword intelligent reminder, customized crawler, secondary search, setting query result date, subscription query and so on.At last, the employment vertical search engine based on Nutch is designed and implemented.Experiment shows that the employment vertical search engine based on Nutch has a high precision and can meet the professional needs of user retrieval.
    • 姚奕伸; 张旖旎; 周婷; 陈恩泽; 陈晓星
    • 摘要: 看病就医是人类的基本需求之一,而医疗信息对于人们就医起到了指导性的作用.现如今,网络已经成为人们获取信息的重要途径之一,鉴于此,在对医疗大数据调研的基础上,运用垂直搜索引擎技术构建了一个实用、可靠的医疗信息检索平台,称其为"医家搜索".对网页爬虫、分词等子模块进行了优化,实现了对医疗数据的可靠分类和筛选.实验结果表明,在准确率、召回率等检索指标上,该搜索引擎能够满足实际应用的要求,可以改善现今的医疗情况.
    • 姚奕伸; 张旖旎; 周婷; 陈恩泽; 陈晓星
    • 摘要: 看病就医是人类的基本需求之一,而医疗信息对于人们就医起到了指导性的作用。现如今,网络已经成为人们获取信息的重要途径之一,鉴于此,在对医疗大数据调研的基础上,运用垂直搜索引擎技术构建了一个实用、可靠的医疗信息检索平台,称其为"医家搜索"。对网页爬虫、分词等子模块进行了优化,实现了对医疗数据的可靠分类和筛选。实验结果表明,在准确率、召回率等检索指标上,该搜索引擎能够满足实际应用的要求,可以改善现今的医疗情况。
    • 阳黎明; 苏理云
    • 摘要: The integration of electric business transaction data into the price index structure is the focus of statistical work.In this paper,we focus on large data technology,build Nutch reptile on distributed cluster to build distributed network data capture system,and combine the latest AP clustering algorithm to preprocess the data;then we will carry out price index construction of online data,and conduct the price index trial.The results show that the Nutch web crawler based on the distributed cluster can complete the task of network transaction data fetching,and the price index of the online transaction data calculated by the data can reflect the market price trend.%将电商交易数据纳入价格指数架构是目前统计工作关注的焦点.应用大数据技术,将Nutch爬虫搭建在分布式集群上,构建分布式网络数据抓取系统,同时结合最新的AP聚类算法对数据进行预处理,然后对网上数据进行价格指数建模,进行价格指数试算.试算结果表明:基于分布式集群下的Nutch网络爬虫技术较好地完成了网络交易数据抓取任务.因此,计算的网上交易数据价格指数可较好地反映市场价格变化趋势.
    • 刘京; 王子成; 曲浩凡; 顾益阳
    • 摘要: 文章描述了以留学信息深度搜索引擎的搭建为例进行基于Nutch的插件开发.首先使用Nutch作为网络爬虫,并使用TF-IDF算法构建特征词库.其次利用Nutch的插件,对IndexingFilter进行拓展,结合向量空间模型技术,对爬取到的网页的内容与已经构建好的特征词库进行匹配,通过搭建留学信息搜索引擎平台实例,不仅展示了Nutch插件开发的灵活性与可扩展性,也降低了相关人员获取精确留学信息的难度.
    • 袁志祥; 张飞; 鲍威; 孙国华; 刘明
    • 摘要: 为提高搜索引擎检索节能减排领域信息的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Nutch开源框架设计实现节能减排垂直搜索引擎.采用网页模板技术对网页信息进行提取,利用改进的TF-IDF算法进行特征词表示,采用基于特征词的向量空间模型进行主题相关性判定,利用朴素贝叶斯分类算法对网页信息进行分类.实验结果表明,该搜索引擎可有效对节能减排的相关信息进行检索.
    • 胡伟; 吴海涛
    • 摘要: Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DB-SCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.
    • 卜天然
    • 摘要: 在研究垂直搜索引擎的设计思想、相关技术的基础上,利用Nutch开源框架设计实现了农业环境信息的垂直搜索引擎,支持了对特定信息的检索服务.系统采用了网页模板技术对网页信息进行提取,采用改进的TF-IDF算法提取特征词,利用基于特征词的向量空间模型进行主题相关性判定,利用朴素贝叶斯算法对网页信息进行分类.测试结果表明,改进后的Nutch具有更高的查询准确率.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号