主题相关度
主题相关度的相关文献在2004年到2022年内共计72篇,主要集中在自动化技术、计算机技术、测绘学、数学
等领域,其中期刊论文64篇、会议论文5篇、专利文献247134篇;相关期刊43种,包括计算机工程、计算机工程与科学、计算机工程与设计等;
相关会议5种,包括第16届国际广播电视技术讨论会(ISBT 2011)、第四届全国信息检索与内容安全学术会议、第六届全国搜索引擎和网上信息挖掘学术研讨会等;主题相关度的相关文献由181位作者贡献,包括丁岳伟、关慧芬、刘丽杰等。
主题相关度—发文量
专利文献>
论文:247134篇
占比:99.97%
总计:247203篇
主题相关度
-研究学者
- 丁岳伟
- 关慧芬
- 刘丽杰
- 刘国靖
- 师军
- 康丽
- 徐杨
- 徐硕
- 曾广朴
- 李琳琢
- 李盼池
- 王未央
- 罗长寿
- 翟东升
- 范会联
- 赖永
- 邵雄凯
- 金明珠
- Guo Junbo
- Li Jiawen
- Zhang Dongming
- Zhang Yongdong
- 万欣欣
- 付培国
- 任昱凤
- 何超英
- 侯东阳
- 全立新
- 刘健
- 刘建舟
- 刘文杰
- 刘景发
- 刘月
- 刘欣
- 刘胜全
- 刘艳
- 刘觉夫
- 刘阳
- 卢承山
- 卢正鼎
- 叶飞跃
- 吴博
- 吴炜
- 唐昌宏
- 姬东鸿
- 孙小宁
- 孙立远
- 孟繁疆
- 宋婕
- 宋静静
-
-
刘景发;
顾瑶平;
刘文杰
-
-
摘要:
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法.首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度.在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度.另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列.以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好.基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页.
-
-
-
-
-
赵美玲;
刘胜全;
刘艳;
郭竹为;
符贤哲
-
-
摘要:
The existing domain ontology learning method can not he directly transplanted into the study of the sensation ontology learning method.After studying the problem,a method of extracting the concept of public opinion ontology based on the dynamic topic model was proposed according to the dynamic theme of the public opinion ontology.Thematic feature words were extracted based on the predecessor growth rate and subsequent growth rate of the words in the lyric cycle,and the topic degree was used to select the topic words.The topic words were clustered by topic relevance to form the topic word clusters.The subject concept word cluster was filtered under the theme concept membership degree to obtain the concept of public opinion ontology.The concept above was used as the seed word to find the left and right adjoining words to get compound words,and the concept of lyric ontologies was filtered.Experiments verify that the proposed method has higher accuracy and recall rate.%对现有领域本体学习方法不能直接移植在舆情本体学习方法上的问题进行研究,根据舆情本体的动态主题性提出一种基于动态主题模型的舆情本体概念抽取的方法.结合舆情周期内词语的前驱增速和后继增速提取主题特征词,主题度选取主题词;对主题词通过主题相关度进行聚类,形成主题词簇;对主题词簇下候选概念进行主题概念隶属度的过滤得到舆情本体概念;以上述概念作为种子词寻找左右邻接词得到复合词,过滤得到舆情本体复合概念.实验结果验证了该方法具有更高的准确率和召回率.
-
-
萧婧婕;
陈志云
-
-
摘要:
为了解决主题爬虫在全局搜索中难以实现最优解的问题,提高主题爬虫的准确率和召回率,文中设计了一个结合灰狼算法的主题爬虫搜索策略.实验结果表明,与传统的广度优先搜索策略以及同样是群体智能算法的遗传算法相比,基于灰狼算法的主题爬虫的性能有了很大的提高,能爬取到更多的主题相关的网页.
-
-
张芳;
王培进
-
-
摘要:
主题网络爬虫技术是获取特定主题的有效手段,其搜索算法的性能直接决定着搜索结果的优劣.文章综合分析了现有的网络信息搜索算法,并将遗传算法思想应用到主题网络爬虫技术中,提出了非贪婪遗传主题网络搜索算法.实验结果表明,该算法能够采集到更多主题相关度高的网页,提高信息采集正确率,快速高效获取交通相关的信息.%In the Topic web crawler technology as an effective approach to obtain a specific topic, the performance of the search algorithm directly determines the strengths and weaknesses of the search results.The existing network information searching algorithm is analyzed, and the idea of genetic algorithm is applied to the technology of topic web crawler, and a non greedy genetic algorithm is proposed.The experimental results show that the algorithm can acquire more topic related web pages, improve the accuracy of the information collection, and get traffic related information quickly and efficiently.
-
-
李宏志;
宋婕
-
-
摘要:
提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网页内容的中文分词,通过TF-IDF算法实现网页内容的特征提取,并利用KNN分类器计算网页的主题相关度.
-
-
王冲;
纪仙慧
-
-
摘要:
针对传统的PageRank算法存在主题漂移、忽略用户兴趣等不足,提出一种基于用户兴趣与主题相关的Page-Rank改进算法——ITPR.为了更好地提高用户搜索质量,利用网页浏览时间与页面篇幅共同构建用户兴趣度因子,用线性拟合月点击量的方法预测用户兴趣度的升降,同时结合网页内容引入主题相关度因子,共同对网页PR值进行适当的修正,使其分配更为合理.仿真实验结果表明,在相同的实验环境下,改进的PageRank算法提升了网页排序质量、查准率以及用户搜索满意度.
-
-
唐昌宏;
刘月
-
-
摘要:
提出一种基于张量分解的有影响力用户识别算法.该算法首先构建基于查询主题的用户交互关系张量,接着利用张量分解算法对用户行为进行预测,最后融合各种交互关系和用户的主题信息给出用户影响力的综合评判.实验结果表明,与非负矩阵分解相比,张量分解的挖掘精度提升了约10%,而与PageRank相比,张量分解的挖掘精度提升了约20%.
-
-
- 《2008年全国开放式分布与并行计算学术年会》
| 2008年
-
摘要:
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法。通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法。理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率。
-
-
Guo Junbo;
郭俊波;
Zhang Yongdong;
张勇东;
Zhang Dongming;
张冬明;
Li Jiawen;
李佳文
- 《第16届国际广播电视技术讨论会(ISBT 2011)》
| 2011年
-
摘要:
本文提出一种基于Web结构特征的主题采集方法,利用已采集页面的主题相关信息来预测待采集链接的主题相关度.该方法基于网页间的链接关系进行网页主题相关性的预测,并结合网页的内部的结构特征.对位置相关链接集合给予不同的权重.实验结果表明,针对视频分享等文本信息量较少的网站,本文提出的方法具有较好的采集效率.rn 本文提出的基于Web结构特征的主题采集方法,利用已采集页面的主题相关信息来预测待采集链接的主题相关度。该方法基于网页间的链接关系进行网页主题相关性的预测,同时在计算的过程中,结合网页内部的结构特征,对网页中的位置相关链接集合给予不同的权重.本方法较好的实现了对网页间链接结构和网页内链接位置结构的有机融合,综合利用上述两个特征指导网页链接的卞题相关性预测。实验对比分析可以看出,针对视频分享等文本信息量较少的网站,在基于文本分析的主题采集方法不太适合的情况下,本文提出的方法具有较好的采集效率。基于Web结构特征的主题采集是一种较通用的面向专业内容网站的互联网采集方法。
-
-
- 《2008年全国理论计算机科学学术年会》
| 2008年
-
摘要:
针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.
-
-
魏本洁;
董守斌
- 《第六届全国搜索引擎和网上信息挖掘学术研讨会》
| 2008年
-
摘要:
网页之间的链接结构为评价网页的主题重要性提供了丰富的信息,但传统的基于链接结构评价的主题排序算法,虽然提出了用向量来表示网页在不同主题中的重要程度,但它们在计算过程中没有充分考虑网页本身的主题相关度。为解决这一问题,本文提出根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中。同时,根据网页的主题重要性排序,来指导专题爬行器的爬行方向。实验结果表明,基于网页主题重要性的排序测度TopicalRank 比 PageRank、TSPR(Topical-Sensitive PageRank)对专题爬行更有指导意义。
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
垂直检索系统中主题爬虫的性能对整个系统至关重要.在设计主题爬虫时需要解决两个科学计算问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级.对第一个问题,本文给出利用页面的主题文本块和相关链接块的相关度计算方法:对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法.在此基础上,提出基于上述方法的主题爬取算法.实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法.
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
垂直检索系统中主题爬虫的性能对整个系统至关重要.在设计主题爬虫时需要解决两个科学计算问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级.对第一个问题,本文给出利用页面的主题文本块和相关链接块的相关度计算方法:对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法.在此基础上,提出基于上述方法的主题爬取算法.实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法.
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
垂直检索系统中主题爬虫的性能对整个系统至关重要.在设计主题爬虫时需要解决两个科学计算问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级.对第一个问题,本文给出利用页面的主题文本块和相关链接块的相关度计算方法:对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法.在此基础上,提出基于上述方法的主题爬取算法.实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法.
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
垂直检索系统中主题爬虫的性能对整个系统至关重要.在设计主题爬虫时需要解决两个科学计算问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级.对第一个问题,本文给出利用页面的主题文本块和相关链接块的相关度计算方法:对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法.在此基础上,提出基于上述方法的主题爬取算法.实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法.
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
垂直检索系统中主题爬虫的性能对整个系统至关重要.在设计主题爬虫时需要解决两个科学计算问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级.对第一个问题,本文给出利用页面的主题文本块和相关链接块的相关度计算方法:对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法.在此基础上,提出基于上述方法的主题爬取算法.实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法.
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
垂直检索系统中主题爬虫的性能对整个系统至关重要.在设计主题爬虫时需要解决两个科学计算问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级.对第一个问题,本文给出利用页面的主题文本块和相关链接块的相关度计算方法:对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法.在此基础上,提出基于上述方法的主题爬取算法.实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法.