首页>中文会议>工业技术>自动化技术与计算机技术>第五届全国信息检索学术会议CCIR2009
第五届全国信息检索学术会议CCIR2009

第五届全国信息检索学术会议CCIR2009

  • 召开年:2009
  • 召开地:上海
  • 出版时间: 2009-11-14

主办单位:中国中文信息学会

会议文集:第五届全国信息检索学术会议CCIR2009论文集

会议论文

热门论文

全部论文

全选(0
  • 摘要:研究界关于相关反馈问题的研究已经有近30年的历史,相关反馈也被证明可以在很大程度上稳定地提升检索系统的性能。由于目前相关反馈的应用,以及用户提供反馈信息的方式都发生了明显的变化,有关相关反馈的研究又一次引起了研究界的注意。本文提出了一种基于义档相似度的搜索结果重排序方法,该方法同时利用丫反馈信息中的相关文档与不相关文档。充分客观的实验数据表明:该方法不仅可以稳定的提高系统的检索性能,并且相较干经典的查询扩展方法有着明显的优势.
  • 摘要:本文提出了一种结合属性分布特征的Web模式匹配算法,属性分布特征包括属性对互斥特征和属性对共现特征。属性对互斥特征由属性对的互斥性和出现次数计算得出,这个特征隐含了属性对的语义相似程度。为了充分利用传统的属性名、属性值相似性特征,本文通过机器学习方法结合属性对互斥特征与相似性特征进行属性匹配。并以潜在的匹配属性对为基础,引入有约束的属性聚类方法进行Web模式匹配,聚类方法的约束条件来自属性对共现特征。实验结果表明,相对于仅使用相似性特征的方法,结合属性分布特征的Web模式匹配算法取得了更好的结果,解决了单独使用属性名相似性能处理的属性较少,而属性值相似性需要针对特定领域优化的问题。
  • 摘要:查询反馈是通过分析反馈文档来更改原始查询项。检索词在检索公式中的权重直接影响检索结果的质量,但是缺乏可靠的依据来设置检索词权重。本文将检索看作是一个二分类问题,在线性模型的框架下,把检索词的权重设置转化为线性分类模型中的参数学习问题。对于反馈的文本集合,采用生成式模型进行训练,从而确定检索词的参数。在TREC Disk 4&5测试数据上进行了实验,采用这套方法,向量模型可以获得和语言模型相当的检索性能。在TREC 7&8的测试话题上,不做查询扩展仅设置检索词的权重的情况下,MAP分别提升了7.8%和9.6%。
  • 摘要:降维是在损失较少信息的情况下处理高维图像数据的关键技术,是高维数据预处理的重要步骤。本文研究了基于配对约束和混合核函数的半监督非线性降维方法KS2DR,该方法可有效利用标签和未标签的样本执行半监督学习·基于配对约束形式的领域知识被用于判断当前样例是属于相同类(相似约束)还是不同类(不相似约束)·KS2DR先将样本数据投影成一系列“有用的”特征形式,同时保持原始数据以及定义在投影后的低维特征空间中的相似约束与不相似约束下样本的内部结构特征,使样本在投影空间中容易有效地区分。通过大量的分类任务和数据可视化研究,结果表明,当样本数据的维数被减少到一个较低的水平时,KS2DR的性能表现的更为优越,几乎总是取得较高的分类精确,随着投影维数的不断变化,算法体现出广泛的适应性和良好的学习能力。在相同的测试条件下,KS2DR算法运行花费较少时间,其整体性能甚至优于典型的PCA,KPCA和KFD方法。
  • 摘要:网络话题层出不穷,往往会引发重大舆情危机,如何快速高效的从海量信息中发现热点是一重大挑战.本文提出了一种基于主题词的网络热点话题发现算法。其基本思想为:首先综合主题词表和有意义串识别结果生成主题词候选集;然后对候选集进行多重过滤并采用启发式规则对主题词进行权重计算;最后,以主题词为线索,采用多特征的话题模型,融合新闻、论坛、博客的相应特征实现了网络热点话题的发现。通过在TDT4评测语料和中科院计算所天玑舆情监测系统平台上的实验分别取得了0.282的最小识别代价和93.3%的用户满意度,算法运行效率高于传统方法.实验表明,该算法对网络热点话题发现行之有效。
  • 摘要:随着移动技术的不断发展,移动设备的应用越水越广泛。但其受限的硬件条件,对移动应用服务的个性化提出了更高的要求。伴随着web2.0的发展,大量的社会标签不断涌现,这些用户标签,为个性化的服务提供了新的思路与方法。在此背景下,本文提出了一种基于社会化标签的移动音乐检索模型。该模型引入查询标签的衰减度,来反映标签的重要程度,同时构建基于社会标签的音乐关系图,并将随机游走算法应用到该图中,计算出音乐的热度,最后将排序后的结果返回给用户。实验证明,该模型在移动设备受限的显示条件下,能够较好的满足移动用户的个性化需求。
  • 摘要:互联网搜索已经成为人们日常生活中重要的一部分,在互联网上人们通过搜索引擎查找大量的多类型的信息来满足各种不同的需求。但是现在的搜索引擎都是需要用户预先确定每个查询词所要搜索的信息类型,因为尽管绝大多数的搜索引擎能支持多种类型的搜索功能,但将结果呈现在各自独立的搜索界面上。要取得不同类型的搜索结果需要用户切换不同的界面。在实际搜索中,一大部分的查询词对应多种类型的相关的搜索结果,如查询词“故宫”包含介绍故宫的网页、博客,百科等文本信息还有一些图片和视频信息等。而本文提出一种对各类引擎返回的结果进行合理聚合的新算法,通过查询词、返回的搜索结果以及用户的搜索历史日志这三个方面的学习来对搜索结果进行过滤和排序,从而做到了对用户查询意图的探测。实验表明这种基于排序学习的多类型结果聚合的方法足十分有效的,它可以更好的满足用户的搜索需求,提高用户的满意度,同时为搜索引擎的优化和改善用户的搜索体验提供一个有效合理的方法模型。
  • 摘要:情感特征的提取是进行文本的情感分析的一个非常重要的步骤,也是影响其结果好坏的主要顺素。在本文中,作者提出一种新的特征提取的方法来解决新闻评论的情感分析问题。在该方法中,首先根据评论和新闻的对比分析获得的候选情感特征,然后经过相关的扩充和验证操作得到通用的情感特征,并将其用于新闻评论的情感分析。对新闻进行话题划分后可以进行更细粒度的情感分析:根据新闻话题信息,设计相应的话题相关的特征对比和验证过程,选取出面向话题的情感特征,最后用面向话题的情感特征对相应话题的进行情感分析。实验证明,这种情感特征提取的方法对于新闻评论这种语句短,评论对象相对分散的评论的情感分析效果有较大的改进。
  • 摘要:省略句的判别是省略恢复的前序工作,在中文对话及问符系统中广泛存存着省略的现象,省略句判别的准确与否直接关系到省略恢复的结果,因此对省略句的判别则尤为重要。本文给出一种采用决策树分类算法进行中文对话中的省略句判别的方法,采用手工收集的访谈类对话和TREC2004-2007的部分翻译句子为语料,选取了6个特征作为决策树分类器的条件属性,以完全利用规则实现的省略句判别方法作为baseline,本文的方法得到了较好的效果。实验结果显示,对省略句判别的准确率为97.4%,F指数为84.1%。
  • 摘要:网络的发展为人们共享信息提供了前所未有的条件,然而这也为科技论文抄袭行为提供了便利,于是判定科技论文的原创性变得尤为重要。针对这一问题,本文提出并实现了基于信息检索技术的中文科技论文的原创性检查系统。本文采用n元文法结构作为索引单元,以概率模型为检索模型,利用开源的Lemur Toolkit作为基础建立系统。实验结果表明,该方法行之有效。
  • 摘要:信息粒化是粒计算的基本问题.云模型从概念角度提出了云变换方法来对信息进行软划分,从而完成信息粒化过程.然而该方法存在着复杂度高且依赖先验知识的缺点.针对以上问题,构建了一种云模型下的快速信息粒化算法.该算法不需要任何经验值,能根据数据分布特点自动进行信息粒子划分及概念提取。具有耗费时间少、粒子聚合程度高的特点.算法在应用于文本特征提取中,在未对分类器进行调整的情况下,性能已经同比超过了最优分类结果6个百分点以上,充分说明了算法的高效性.
  • 摘要:从本质上看,信息检索应按照文档满足用户信息需求程度进行排序,因此当前以分类和排序策略为主流的研究方式存在与信息检索目标相关性较弱的缺点。本文尝试使用刚归分析策略,以文档满足用户的信息需求程度作为回归分析的目标值,利用回归支持向量机构建信息检索模型。该模型不仅提供了融合不同来源特征的灵活框架,而且由于使用回归支持向量机寻找具有ε不敏感损失的回归函数,因此具有良好的泛化性能。通过在TREC测试数据上的实验表明,本文模型性能优于目前主流的基于语言模型的信息检索方法。
  • 摘要:对于一个大型企业组织来说,能够自动地找出组织内部某一领域内的专家是十分有用的。解决专家检索系统的诸多方案中,一个有效的方法就是先对每个专家提取其相关信息,从而建立一个知识描述文档来说明此专家所具有的知识和技能。最后,专家搜索就可基于对知识描述文档的分析来完成。然而,现有的大多数构建知识描述文档的方法在提取相关信息时都伴随着较大的噪声信息,导致知识描述文档质量的下降。本文提出了一种新型的、基于滑动窗口提取和IDF过滤的方法,对每位专家构造知识描述文档以用于专家搜索。其中,滑动窗口用于对专家相关信息的提取,IDF则用于噪声信息的过滤。这种方法不仅能有效地在企业的知识库中分辨和提取出专家的相关信息,同时还能够排除无用的信息以避免噪声。最终,本文通过使用TREC2007提供的数据集和测试平台对此方法的有效性进行了测试与评价。实验结果表明:本文所提出的基于滑动窗口提取和IDF过滤的方法能够有效地解决在构造知识描述文档过程中的噪声问题,相对于采用传统的知识描述文档构造方法的专家检索系统,在查询准确度上提升达54%以上。
  • 摘要:Kad网络中存在数百万的共享资源,而其中有相当一部分可被评定为敏感资源。首先用我们的Kad网络采集器:Rainbow对节点拥有的文件资源进行探测;然后对节点资源和敏感资源进行相关统计分析。我们发现:1)只有3.09%的节点拥有资源;2)文件长度和文件流行度都近似符合Zipf分布;3)利用同一个file-content-hash的多个文件名的共现词可以更准确地进行敏感判别;4)敏感资源只占随机样本的634%,且敏感资源中56%为video文件。
  • 摘要:随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的主要研究领域。为更好理解网络用户的搜索行为,本文基于7.56亿条真实网络用户行为日志,对用户行为进行分析和研究。我们主要考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。本文还基于不同类型的查询集合,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。
  • 摘要:本文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的蕈抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。本文通过对许多论坛中版块变化规律的统计分析,提出丁基于版块的论坛增量搜集策略。该策略将属十同一版块的信息定义为一个版块对象,并以版块对象为重抓取的基本单位。同时该策略利用版块权重和局部时间规律分配抓取资源和确定抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.4%,并且与平均调度方法相比系统总延迟最高可减小42%。
  • 摘要:随着互联网用户量的爆炸性增长,用户行为分析已经成为互联网技术领域广泛应用的研究方法,如信息检索,网络安全,电子商务,广告投放等等。在这些不同的领域里,用户行为分析都有一个共同的目的:即通过用户行为日志分析来挖掘用户行为蕴含的意图以及用户行为习惯,从而更加有针对性地为用户提供服务。因此,如何在日志中去除异常点击,进而挖掘出真正反映用户意图的行为,是十分重要的研究谍题。相比于单一网站日志的异常点击分析,对于互联网访问日志的异常点击分析更加困难。本文采用某公司提供的真实用户互联网访问日志,对日志中的异常点击记录进行了分析,讨论了这些异常点击的特征、产生的原因、以及如何在日志分析中排除这些干扰因素。
  • 摘要:通过对搜索引擎的日志进行统计分析,可以了解用户使用搜索引擎的规律,挖掘用户的兴趣信息,从而可以提高网络信息检索技术的性能。搜狗是一个中文搜索引擎,本文对搜狗日志中有密切联系的查询、用户和点击3个元素进行了统计分析,着重统计分析了各项之间的相互关系,揭示出用户使用搜索引擎的一些新规律:用户在检索过程中对各大门户网站的关注最多;在一个月的时间内提交少于5个不同查询词的用户占据了93.7%,60%的查询词对应多于两个的用户点击,而且93%的用户点击的URL不会多于10个;文中根据用户对相同查询的点击相同与否这个信息,论证了个性化信息检索的必要性,协同推荐技术只能解决少量用户和查询的检索问题,对于大部分的用户和查询,需要个性化的技术来解决。这一发现对于改进中文搜索引擎的性能有很好的指导意义.
  • 摘要:本文研究中文文本的篇章倾向性分析问题。针对于传统的只考虑单一粒度上的情感分析方法,本文提出了一种新颖的基于不同粒度的结合模型的中文文本情感分析算法,该方法结合了基于词语级和句子级的篇章情感分析。在基于词语级篇章情感分析方法中采用条件随机场(CRFs)模型对情感词进行识别并判断出词的倾向性;针对句子级情感方法采用基于最大熵的文本情感倾向性判别模型。采用基于合并模型的方法,在提升结果的准确率的同时,确保了召回率。实验证明,相对于单一粒度上的情感分析方法,本文的方法取得了良好的效果。
  • 摘要:具有较强褒贬倾向的二元词语搭配对于文本的情感分析具有重要的价值。本文提出了一种融合语言信息的二元词语搭配的情感倾向判别方法。该方法首先根据六种模式的词语搭配特点,确定出各模式的潜在语义模型,然后采用了概率潜在语义模型判别搭配情感倾向,最后利用了构造出的搭配情感倾向判别规则作为概率潜在语义模型判别二元词语搭配的情感倾向的修正。通过对汽车语料中搭配的情感倾向判别,实验结果表明,融合语言信息的二元词语搭配的情感倾向判别结果优于单纯概率潜在语义模型。
  • 摘要:本文提出了一种基于语义的餐馆评论文本倾向性分析算法。该算法抽取评论文本中与菜品、环境、价格相关的词汇,分析词汇间的修饰关系,得到文本与被评论对象的相关度;通过对情感倾向性词汇的情感强烈程度判定,为特定倾向建立权重指标。采用特例词库来处理中文中相同形容词在不同语境下褒贬不同的情况。此外提出了偏重程度、评论纯度、情感强度等新的衡量指标,增加了算法的实用价值。依据此算法构建了一个实验系统,基于ICTCLAS进行分词,使用知网和同义词词林提供的已标注词性和褒贬的词库。对从大众点评网上随机抓取的3000余条评论文字的分析表明,对于大多数评论,本算法得到的结果与人工标注结果的褒贬一致,得分分布曲线基本一致,无关评论也被有效地过滤。
  • 摘要:信息检索的结果往往庞杂,缺乏有效地加工整理,对搜索结果进行聚类是一种普遍的需求,而传统的文本聚类方法不能提供有效的类别标签,且速度较慢,不适用于在线搜索结果的聚类。本文针对性地提出了基于关键词提取的搜索结果聚类算法,工本思想为:结合信息检索的特点,将词频(TF)、词性和互信息等特征进行融合计算,综合实现关键词的提取;最终以筛选出的关键词作为基础特征,实现层次聚类。经实验验证,该方法P@10达到80%,用户满意度达到85%。实验结果表明,基于关键词提取的搜索结果聚类算法优于目前已知的所有系统。
  • 摘要:自动的音乐流派分类是一项应用前景广阔同时又非常具有挑战性的研究工作,艺术家在创作过程中经常将不同音乐流派的风格融合在一起,这样就使得单纯依靠底层声学特征而进行的流派分类往往得不到令人满意的结果。本文中完成了利用互联网上用户标注音乐时使用的标签资源对音乐进行流派分类的研究;同时抽取音乐名称以及艺术家姓名这些和音乐有关的语义信息,通过网络资源的搜索,计算出音乐与不同流派之间联系的紧密度,并以此为依据进行流派分类。实验结果表明,在我们构造的包含8个音乐流派的数据集上,利用标签特征和语义特征所得到的分类准确率远远高于基于声学特征的分类准确率,分别达到了91.46%和81.04%。
  • 摘要:传统聚类算法通常建立在显式的模型之上,却很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,本文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具体而言,M-R框架首先将语料映射到一组具有良好区分度的方向所构建的坐标系中,以统计各个簇的分布特性,然后根据这些分布特性对各个坐标轴进行尺度变换,以归一化语料中各个类簇的分布。如上两步操作伴随算法迭代执行,直至算法收敛。本文将M-R框架应用到k-means算法及谱聚类算法上以验证其性能,在国际知名评测语料上的实验表明,应用了M-R框架的k-meands及谱聚类在所有语料集上获得了全面的性能提升。
  • 摘要:在文本分类任务中,通常首先以TFIDF模型表示特征权重,进而通过特征选择函数给出的得分将特征排序,排名靠前的特征以其TFIDF值输入分类器。特征选择函数所计算出来的得分能一定程度代表特征的重要性,然而该得分却没有被纳入权重表示中,造成特征表示不精确,影响了分类性能。许多改进方法使用特征选择函数等反映特征在不同类别间分布的指标来替换IDF因子或将其加入TFIDF模型中,使分类性能得到了一定的提高,但没有探究各个因子是如何影响分类性能的。本文以词频(TF)、逆文档频率(IDF)以及特征选择函数(IG及CHI)作为衡量特征的文档代表性、文档区分性以及类别区分性的因子,通过实验方法测试了这些因子对于分类性能的影响,得到如下结论:文档代表性因子能够使得分类效果的峰值最高但抗噪音能力差,文档区分性因子具有抗噪音能力但性能不稳定,类别区分性因子的抗噪音能力最强,性能也最稳定。进而说明了如何组合这些因子以得到分类性能的优化,给出了四点构造原则,并通过实验得到了验证。
  • 摘要:仿生模式识别是一种不同于传统模式识别的理论方法,其理论基点是特征空间中同源样本的连续性原理,并通过对同类样本在高维空间中的最佳覆盖来达到认识和区分样本的目的。本文对仿生模式识别算法进行了深入的研究与学习,将仿生模式识别的思想应用在文本分类当中,并在此基础上提出了基于文本相似度的神经元生成算法。该算法的基本思想是从训练集当中选择最相似的样本,使用这样的样本来生成多权值神经元,进而构成多权值神经元网络。本文在基于仿生模式识别的文本分类系统中,实现了基于文本相似度的神经元生成算法。实验表明,基于文本相似度的神经元生成算法在文本分类当中取得了较好的性能,而且要优于传统的中心法、近邻法、Winnow法以及贝叶斯等文本分类算法。
  • 摘要:蛋白质络合物在很多生物学过程中起到了关键的作用,是深入理解细胞组织原理的基础。随着生物高通量技术的不断发展和广泛应用,蛋白质相互关系的数据量随之不断膨胀,这些数据为蛋白质络合物的提取提供了新的视角。但是高通量技术在预测蛋白质相互关系时存在高错误率。与传统的直接使用蛋白质关系网络预测不同,算法通过迭代的计算蛋白质之间的权重,来判断哪些相互关系更有价值。提取那些权重较大的相互关系,这些权重较大的关系可以很大程度上去除噪音关系的影响。在考虑了一阶和二阶关系的基础上构造新的相似性关系网络。在此关系网络的基础上,分别计算络合物的核蛋白质集合和附属蛋白质集合,从而避免了噪音关系带来的影响,同时引入了络合物结构信息。实验结果表明,这种方法在识别蛋白质络合物上是高效和实用的。
  • 摘要:近年来,随着互联网的发展,越来越多的人在网上发表观点、评论等。目前对于这些包含观点的意见型文本的研究十分活跃,而主题与情感的关系匹配是意见挖掘中比较关键的一项研究内容。通过获得的意见元素关系(以下简称元素关系)为意见挖掘的后续研究奠定了基础,同时元素关系可以有效解决汉语意见挖掘中指代消解以及评价对象遗漏等问题。本文主要研究意见型文本中主题、情感成分的抽取以及二者所含有的元素关系等。本文首先使用信息检索中常用的tf/idf算法抽取主题,利用情感词词典抽取情感,然后将同一个句子中共现的主题以及情感作为候选集合,使用最近匹配以及SVM算法并结合词汇,词性,语义、距离等句子以及上下文特征进行主题以及情感的元素关系抽取。最后,本文除了比较两种算法,还比较了不同规模,不同正反例比例以及不同领域条件下的系统性能指标。
  • 摘要:特殊命名实体**是指字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名,比如电影名、餐馆名、大学名以及人名等等。在以娱乐为主的中文搜索中,这些命名实体占据重要地位,对它们进行挖掘不仅能够形成一种重要的数据资源,给互联网上的信息抽取提供基础,还有助于搜索引擎理解用户的查询意图,从而给出有针对性的、整合的搜索结果。本文采用数据挖掘的手段,在一亿多条中文查询词上做了充分的实验,结果显示我们的方法能够从查询日志中挖掘出高质量的命名实体列表,六个类别上识别结果的平均P@500达到了77%。本文提出的系统能够在少量的手工帮助下不断迭代地提高性能,因此具有很大的实际应用价值。
  • 摘要:查询切分是对查询进行结构分析和优化的基础。使用常规的分词方法对查询进行切分效果并不理想。在对分词错误进行分析的基础上,本文提出了一种单字消除和实体识别的查询切分方法。基于真实查询数据的实验结果表明,该分词方法的正确率和召回率分别达到了 80.2%和97.4%.该结果和相关研究工作的对比表明,基于单字消除和实体识别方法可以有效地对查询进行切分。
  • 摘要:蛋白质相互作用关系抽取是蛋白质知识网络构建的必要前提,对生物医学领域的研究具有十分重要的意义。本文使用了基于SVM的方法,从生物医学文献中抽取蛋白质相互作用的有向关系。首先针对蛋白质关系的特点,抽取了几组合理有效的特征集合,并根据句法分析的结果设计了依存句法特征集合,有效地改善了蛋白质关系抽取的效果。在此基础上,围绕蛋白质相互作用的关联词抽取特征,判断了蛋白质相互作用的方向,为蛋白质知识网和生物实体关系网的构建提供了更为充分的信息。本文在LLL05语料上进行了实验,取得了较好的效果。实验结果表明,依存句法特征集合对关系抽取具有重要影响;围绕关联词抽取的特征集合对关系判断是十分有效的。最后,本文分析了不同特征对实验结果的影响,明确了下一步的研究方向。
  • 摘要:句际语义关系是指语篇上下文中相邻句子之间存在的语义关系。准确的识别句际语义关系对于文本理解、文本推理和文本结构分析具有重要的意义。然而,由于受到语篇上下文环境、指代消解、句法结构等多个因素的影响。使得句际语义关系自动分析研究具有很大的困难。该文在语言学界总结的句际语义关系和句际语义关系对应的词语形式标记的基础上,提出了一种机器自动识别上下文句际语义关系的方法,包括词语形式模板的获取、模板冲突消解的方法以及句际语义关系识别算法。实验结果表明,该文提出的方法具有较好的识别效果。
  • 摘要:本文研究开放式中文命名实体识别问题。针对传统命名实体识别方法具有训练语料标注困难,自适应能力不强等缺点,研究人员提出了开放式的命名实体识别。但由于汉语的特殊性,使得开放式中文命名实体识别的相关研究很少,效果也不理想。本文提出了一种开放式中文命名实体识别方法,模拟语言习得的过程,从句子结构出发,通过分类器得到含有命名实体的碎片序列,进而从中抽取出命名实体。实验结果表明,该方法可以较好地从不限领域的中文文本中抽取不限类别的命名实体。
  • 摘要:在利用统计方法对文摘中词频特征和词位置分布特征进行分析的基础上,提出增加词同现特征用于自动文摘系统的新方法。文中把该方法表示为基于词位置与同现特征的中文自动文摘模型,模型中利用了文本压缩方法对文摘句进行排重,同时借助文摘句指示词表和非文摘句指示词表对文摘句进行二次筛选,提出了应用加权重合率对自动文摘进行评价并给出了实验结果。实验结果表明,该模型在处理中文学术文献时效果明显:词同现特征与指示词分别提高了实验结果分值的21%和23%。
  • 摘要:近年来,关于药的作用及其对人类健康影响的研究越来越多,相关的文献也迅速增长,工业界认为90%的药物标靶来自于生物医学文献,随之基于药的相关检索逐渐成为焦点。而为相关专家提高检索效率、方便获得资料的第一步就是要准确的识别出药名,构建药名词典。文中给出了从生物医学文献中抽取出药名来构建词典的方法,第一次将基于上下文模板的命名实体识别方法用于药名实体识别并结合了丰富的特征对候选药名进行去噪。它首先由有限的药名种子出发,从大量未标生物医学文献中抽取出上下文信息;然后选取每个上下文的引导词从而构建模板,文中所用生成模板的方法简单有效,利用它抽取出粗糙的候选药名集合:最后选择丰富的特征利用机器学习的方法,对候选词典进行去噪,得到高质量的大规模药名词典。词典中包含了很多在常用数据库(Drugbank)中没有的药名,抽样调查准确率达到了73%,潜在准确率达到了80.8%。方法在模板生成以及候选药名去噪时的特征选择上并不局限于药名属性,可以尝试将该方法用于其它生物医学文献命名实体识别。
  • 摘要:电子商务市场的增长推动了相关研究的发展,对于商品标题的分析也显得日益重要。本文通过对于商品标题主题词的分析,采用分词、规格化等步骤后,提取特征向量并进行标准化,之后使用RankingSVM的方法训练得出可依赖的数据模型对主题词进行重要性排序。最终得出的算法具有一定的可靠性、正确性和普适性。
  • 摘要:搜索引擎日志是记录网络搜索引擎用户行为的重要载体,通过对搜索引擎日志的分析可以得到搜索用户的行为特点和规律。为了发现用户组织查询的规律,本文对Sogou中文搜索引擎一个月的查询口志进行了分析,基于用户的查询输入串,分别对查询组成和查询结构进行了统计。在字符组成方面,本文通过统计构成查询的最小单位“字”的类型分布和频率分布来考察用户在使用查询字符时的倾向性。统计结果显示,除了汉字,用户也习惯于使用全角和半角字符,日文有时出现。在查询结构方面,我们考察了查询的语言类型和查询结构的复杂程度。从查询语言角度看,简体中文构成的查询数量最多;从查询复杂度角度看,简单查询占总数81.60%,复杂查询占到18.4%。本文采用了新的研究方法,从查询组成上分析中文搜索引擎日志,此外还弥补了现有查询结构方面研究的不足。最后发现中文Sogou搜索引擎用户不同于英文搜索引擎的用户的独特的组织查询的方式。实验结论对于提高搜索引擎的查询性能,以及未来对中文搜索引擎日志的深入分析有很好的启发性和指导性。
  • 摘要:每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。这些突发事件或话题在论坛中并不是显而易见的,它们需要通过人工的总结与归纳。这需要花费大量的人力资源,并且效率低下。如何使用机器自动化的方法抽取论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题抽取问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确,严谨,规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题抽取面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题抽取模型,它从内容和用户参与度两个角度来抽取论坛话题。在“水木社区”的“水木特快”上进行了相关的实验,实验结果表明本文提出的模型不仅可以抽取突发话题,而且可以抽取与这些话题相对应的用户社区。该模型抽取的突发话题组织清晰,易于理解,可以很好的应用到搜索引擎中。
  • 摘要:交互式问答是具各处理系列相关问题以及与用户进行对话式交互的问答技术,是近年来国际上问答技术研究的一个热门方向,但是目前在中文问答领域几乎没有开展相关的研究。实现交互式问答系统首先要判别用户系列问题之间的相关性。本文探讨了提取问题中不同特征对中文交互式问答问题相关检测的作用,并且根据识别出的有效特征采用基于二元分类方法分别对翻译成中文的TRECQA问题集语料和真实的交互式问答语料进行问题相关检测实验,实验结果显示本文的方法获得了较好的问题相关检测效果。
  • 摘要:Web论坛文章具有数据量大、信息重复度高的特点,如何快速准确地获取文章主要内容是许多基于论坛应用面临的难题。以往的多文档摘要方法由于没有考虑论坛文章的特殊性,不能有效的处理论坛文章。本文根据Web论坛文章在结构和语法上的特点,提出了新颖的面向论坛的多文档摘要方法。该方法首先使用了基于上下文语义的过滤算法去除噪声信息,然后给出了适合论坛文章的多种特征,通过计算句子权重来选取摘要句子。在“新华网”数据集上进行的实验表明,本方法在传统的ROUGE值和本文给出的观点覆盖率等评测标准上的评测结果均优于传统方法。
  • 摘要:查询推荐是搜索引擎系统中的一项重要技术,其通过推荐更合适的查询以提高用户的搜索体验。现有方法能够找到直接通过某种属性关联的相似查询,却忽略了具有间接关联的语义相关查询。本文将用户查询及查询间直接联系建模为查询关系图,并在图结构相似度算法SimRank的基础上提出了加权SimRank(简称WSimRank)用于查询推荐。WSimRank综合考虑了查询关系图的全局信息,因而能挖掘出查询间的间接关联和语义关系。为降低WSimRank的计算复杂度,本文其转换为一个状态层次图的遍历和计算过程,进而采用动态规划、剪枝等策略对其进行优化。在大规模真实Web搜索日志上的实验表明,WSimRank在各项评价指标上均优于SimRank和传统查询推荐方法,其MAP指标接近0.9。
  • 摘要:社会性标注作为一种新的资源管理和共享方式,吸引为数众多的用户参与其中。由此产生的大量社会性标注数据成为网页质量评价的一个新维度。本文研究如何利用社会性标注改进网页检索性能,提出一种有机结合网页和用户的查询相关性与互增强关系的网页排序算法。首先利用网页和用户的相关标签,基于统计主题模型为网页和用户建模,计算查询相关性。然后利用二部图模型刻画网页和用户问的互增强关系,并利用标注内容与网页和用户语言模型的匹配程度为互增强关系赋予权重。最后结合查询相关性和互增强关系,以迭代方式同时计算网页和用户的重要性。实验结果表明,与目前的代表性算法FolkRank,SocialPageRank和SPEAR相比,该算法在MAP和NDCG两个评价指标上均有明显提高。
  • 摘要:排序是信息检索中重要的环节。现如今,已经提出了几百种用于描述查询与文档之间相关度的特征,但是利用人工调整参数的方式将这几百种特征整合为一个排序函数的方法已经不切实际。因此,排序学习算法,一个机器学习与信息检索的交叉领域,越来越受到人们的重视,已经有很多种排序学习算法被设计并应用到优化排序函数。尽管在纷繁复杂的网络搜索环境中,查询之间确实存在着差异,然而,几乎没有排序学习算法考虑到查询差异的存在。在这篇论文中,查询被建模为多元高斯分布,查询之间距离利用KL距离计算。利用谱聚类对查询进行聚类,为每一个类别训练一个排序函数。实验结果表明经过聚类得到的排序函数需要较少的训练样例,但是它的性能却和没有经过聚类得到的排序函数是可比的,甚至超过后者。
  • 摘要:在电子商务交易中,商品的类别都是按照层次结构来进行分类的。所谓层次结构是指商品的类别间存在一个树状的结构。在进行商品分类研究时,考虑到商品的特殊特征,比如某些商品根据商品的品牌名称就可以得到其所属的分类类别,即其品牌的特征性区分度很高。基于这一点,一方面我们准备了一部描述商品品牌的词典供中文分词时调用,另一方面,我们在分类时使用一种“区分式朴素贝叶斯分类器”模型来进行分类。实验证明,基于区分式朴素贝叶斯分类模型的分类效果要比标准贝叶斯分类模型效果好。
  • 摘要:垃圾短信过滤是一个文本分类问题。如何设计分类器,可以在训练样本较少的情况下达到可观的精度是一个重要的问题。本文对传统分类器的结构加以改进,设计了一种基于潜在中间层的两级分类器,每级用贝叶斯方法实现。进一步地,将朴素贝叶斯分类器与之加权结合。实验结果表明,两级分类器大幅度提升了分类错误率的收敛速度。组合分类器在此基础上提高了训练样本较多时的精度,集成了两者的优点。
  • 摘要:本文使用multi-agent的建模思想,以现实为基础建立了一个舆论涌现的仿真模型。该模型主要由个体和媒体以及它们之间的规则组成。个体的属性包括了个体之间的信任度、个体观点的可信度和个体的从众性;媒体的属性包括媒体的影响范围和权威度。规则包括个体交互规则和个体与媒体的交互规则。本文通过仿真证明了模型是合理的,并且用该模型来仿真媒体对舆论演化的引导作用,从媒体的数量和报道频率两个方面研究媒体在舆论形成过程中的引导作用,结果发现积极媒体的数量越多对舆论的引导作用越强,媒体的报道频率增加会对舆论的形成产生积极效果,但是超过一定次数时对舆论的影响作用有限。文章最后通过对模拟结果的分析,提出了通过媒体来引导舆论的方式。
  • 摘要:提出一种采用树型概要结构的密度网格树流聚类算法DG-Tree(Density and Grid-Tree Algorithm)。该算法利用数据流聚类算法CluStream中的处理框架,把聚类分为微聚类和宏聚类两个过程。在微聚类过程中,通过把数据流按属性值分配到一棵树中,消除了空刚格对聚类结果的影响,同时针对数据流聚类中,近期的数据往往比久远的数据更受关注的特点,引入了时间衰退模型;在宏聚类过程中,对微聚类中生成的树中的叶子节点进行密度聚类,通过设立噪音密度阀值函数和更新周期,不仅可以有效的发现噪音叶子节点,还减少了密度聚类中对叶子节点密度更新的计算量,减少了算法的时间消耗。通过在KDD Cup 99数据集上的实验表明,相比DBScan算法和CluStream算法,DG-Tree算法在时间效率上有很大提高。
  • 摘要:基于统计的领域术语抽取方法近年来得到了广泛的研究。然而领域术语抽取方法与领域相关,并且评价需要大量的人力资源,因此对这些方法进行比较存在着一定的困难。因此本文采用基于词典的客观评价方法与基于人工的主观评价方法,使用准确率、召回率、F1-度量多种评价指标,对多种流行的统计术语抽取方法进行了比较和分析。本文根据领域术语的强文本表示功能,提出了基于支持向量机(SVM)训练得到超平面权重的术语抽取方法:利用TFIDF作词语特征,根据SVM模型训练出来的词语的权值大小判断是否是术语。实验结果表明,每种术语抽取方法适合抽取不同类型的术语,本文提出的基于SVM的术语抽取方法能有效地抽取领域术语。
  • 摘要:高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息丰富且更新速度快。但是BBS上各版面的讨论内容并不严格与其版面名称相对应,因而会使信息显得杂乱。聚类技术可以有效地重新组织并利用BBS信息。BBS文本是短文本的一种主要表现形式。本文针对短文本信息量少的特点,提出了一种改进的K-means聚类算法来解决短文本聚类问题。该算法通过引入重构长文本的思想解决了短文本的稀疏性问题,并利用近邻传播算法对初始类别中心进行了优化选择,从而克服了K-means算法对初始点的敏感问题。实验表明,该算法对于短文本聚类取得了很好的效果。
  • 摘要:情感分类是一项具有较大实用价值的分类技术,它能够识别文本内容中隐含的情感或观点,在互联网信息日益丰富的今天,情感分类可以在一定程度上解决信息杂乱的情况,方便用户准确获取所需信息.然而,由于数据的标注耗时耗力,情感分类面临着只有极少标注数据和大量的无标注数据的问题.本文提出了一种新颖的基于线性邻域扩散的半监督学习的文本情感分类算法.假设空间中存在一个情感流形结构,待分类文本看做是这个流形上抽样的点,首先,利用这些点的邻域信息进行构图,每个点与它近邻的边的权重使用它的近邻线性加权表示;然后,将该图看做是一个概率转移矩阵,各类别的标签在此矩阵上扩散完成分类过程.实验结果表明,该算法在文本情感分类上具有良好的性能.
  • 摘要:随着Web上文档数量的指数型增长,文档摘要起到越来越重要的作用,近年来使用概率主题模型表示多文档摘要问题受到研究者的关注。LDA(LatentDirichlet Allocation)是主题模型中具有代表性的概率生成性模型之一。本文提出了一种基于LDA的文摘方法,该方法以复杂度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度。根据LDA模型中主题的概率分布和句子的概率分布提出了两种小同的句子权重计算模型。实验中使用ROUGE评测标准,与代表最新水平的SumBasic和其他基于LDA的多文档摘要在普通多文档摘要测试集DUC2002上的评测数据进行比较,结果表明本文提出的基于LDA的多文档摘要在ROUGE的各个评测标准上均优于SumBasic,与其他基于LDA模型的文摘相比也具有优势。
  • 摘要:话题跟踪属于话题识别与跟踪(TDT)的一项子任务,是一种基于事件的信息组织技术。话题跟踪任务就是根据某一话题的训练报道,在后续报道中找出讨论该话题的所有报道。用话题跟踪方法可以解决对已有科技主题的自动跟踪问题。针对科技文献的特点,提出了一种利用文献引用关系基于KNN分类的科技主题跟踪方法。实验证明这种方法是有效的。
  • 摘要:本文研究了针对大规模查询日志中丰富的命名实体的挖掘技术。已有的研究工作提出了一种基于种子命名实体的弱指导框架,利用实体间的分布相似度来进行挖掘。区别于已有的方法,本文提出了一种新颖的基于转移学习的命名实体挖掘框架,该框架通过利用Wikipedia数据,结合转移学习的方法来构建目标类别的分类器,该方法很好地利用了监督学习的优越性能来提高查询日志中命名实体挖掘的准确性,同时也解决了监督学习方法中大规模标注的问题。实验结果表明基于转移学习的命名实体挖掘方法具有优越的命名实体挖掘性能。
  • 摘要:词语相似度计算是机器翻译、信息检索等自然语言处理领域的关键问题之一。传统的词语相似度计算方法,未能很好地考虑上下文信息对词语语义的约束,从而不能对语境变换带来的词语间相似度的差异进行有效的区分。本文引入模糊数学中隶属函数的概念计算词语上下文信息的模糊重要度,并结合基于知网的语义相似度计算方法,提出一种基于语境的词语相似度计算方法。实验表明,该算法可以根据语境有效的区分语义相近的词语。
  • 摘要:针对专利文献专业术语相对较多、形式规范、语言严谨的特点,本文提出了一种基于伪LCS的句子相似度计算方法。该方法通过对传统的最长公共子串(LCS)算法进行改进,并加入了词汇语义信息、词类和术语相相似度等相关信息,使其具有模糊对齐的能力,更适合专利文献中句子相似度的计算.实验结果表明该方法在专利句子相似度计算方面取得了较好效果。
  • 摘要:随着生物医学的迅速发展,从医学文献中抽取蛋白质关系已经成为面向生物医学方面的自然语言处理任务中一项非常重要的任务。目前研究学者已经提出很多蛋白质关系抽取的方法,但是其中大部分方法都要依赖于句法分析工具获得句法信息,语义信息,依存信息等。然而应用句法分析工具存在两个弊端一是时间耗费,另外一个是句法分析工具本身所存在的精度损失。针对上述问题本文仅利用词特征的方法取得与句法分析结果相当的实验结果。本文首先从句子中得到单元词特征和二元词特征,并且将词在对应句子中的位置信息融入到所选择的特征中,然后利用奇异值分解方法获取特征与特征之间的潜在语义关系,与此同时得到一个低维正交子空间。这样既避免了句法分析所带来的弊端,同时还获得了相关语义信息。本文使用该方法在单一数据集和交叉数据集中分别进行实验,并取得较好效果。
  • 摘要:本文采用基于SVD和NMF矩阵分解相结合的改进潜在语义分析的方法为生物医学文献双语摘要进行建模,该模型将英汉双语摘要映射到同一语义空间,不需要外部词典和知识库,自动处理不同语言之间的对应关系,在双语空间中进行检索,并综合考虑两种矩阵分解结果。充分利用医学文献双语摘要语料中的锚信息,通过不同的k值构建多个检索模型,计算每个模型的信任度,使得多个模型都对查询和文本的相似度做出贡献。在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算,实现了双语摘要的交叉检索,取得了较好的实验效果。
  • 摘要:人物关系抽取是实体关系抽取研究的一个重要分支。本文提出了一种基于搜索引擎的人物社会关系抽取方法。该方法首先将人物关系特征词与测试集人名一起作为组合关键词提交到搜索引擎,在搜索结果中利用人名识别技术获取相关人名集合,再将测试集人名与相关人名结合成人物关系词对,作为初始种子提交到搜索引擎,通过退火算法迭代建立人物关系描述模式集,最后将测试集人名、相关人名和人物关系描述模式三者结合的组合关键词再次提交到搜索引擎,对搜索结果统计分析匹配度确定关系人物。实验结果表明该方法达到90%以上的准确率和召回率。
  • 摘要:针对专利文献的特点,本文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,本文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。
  • 摘要:新闻话题及其它的演化研究可以帮助人们快速了解和获取新闻内容。本文提出了一种挖掘新闻话题随时间变化的方法,通过话题抽取、话题过滤和话题关联实现话题的演化。首先应用LDA对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;根据话题对文档的贡献度过滤话题:计算相邻时间段中任意两个话题的分布距离实现话题的关联。实验结果证明该方法不但可以描述同一个话题随时间的演化过程,还可以描述话题内容随时间的变化,反映了话题(或子话题)之间多对多的演化关系。
  • 摘要:科技主题用来表征学科的研究关注点,是科技热点的具体承载对象。当前,科技主题获取的自动化程度不高,绝人多数都借鉴专家经验实现。结合自然语言处理领域TDT的研究成果,针对科技文献特征,借助链接分析及文本聚类方法对科技主题进行自动发现。并对科技主题的表示方法进行了讨论,提出了科技主题的框架式表示方法。实验证明科技该主题发现的方法是有效的。
  • 摘要:目前,已提出的XML枝匹配算法返回的结果都是整个匹配枝,另外,当XML文档中存在递归结构时,一个目标数据元素可能存在于多个匹配的枝中。然而,通常情况下,用户只需要得到目标数据元素的相关信息,因而,从这些匹配枝中提取出的目标数据元素会存在重复现象,需要后续的去除冗余操作。针对这一问题,本文对已提出的一些代表性的XML枝匹配算法的返回无冗余的目标元素的时间做了比较。另外,基于分层思想,提出了一个新的枝匹配算法。该算法对查询枝根结点对应的数据元素的每个层次自底向上执行一次查询,一层处理之后去除匹配的目标元素,从而避免了后续的去除冗余操作。通过分层求解,减小了去除冗余的代价,并且保证结果按照最邻近的祖先聚簇返回。
  • 摘要:基于检索历史隐式地学习用户偏好是个性化检索研究的热点,而根据用户检索历史重构新的查询输入是其中主要的研究内容。已有的研究在利用检索历史进行查询重构时,通常不区分检索历史中的内容是否与当前查询相关,而是将全部检索历史视为整体,因而使重构后的查询含有较多噪声。本文基于相关词语在上下文中人量共现的特征,将用户历史检索结果的网页摘要作为上下文语境,结合用户点击,选择检索历史中与当前查询共现程度最高的词语重构查询模型。对初始检索结果重排序的实验表明,该方法可以有效地选择相关词语,减少噪声。用p@5和NDCG两种指标评价,比最好的基准系统分别相对提高12.8%和7.2%,比初始排序结果相对提高26.0%和11.4%。
  • 摘要:基于递归分治策略基本思想,论文构建了一种新的情感分析模型并解释了该模型合理性。该模型将基于规则和统计方法有机地结合在一起,弥补它们彼此的不足,进而,在理论上提供了一种新的文本情感分析途径。同时,论文结合搭配规则和判定表说明了该框架的使用方法。实验表明,在数据不均衡的条件下,该方法的正确率达到了77.68%。
  • 摘要:近年来,越来越多的研究者关注博客倾向性检索。它的目标是检索出不仅与特定查询主题相关而且具有对该主题有评论的博文单元(包括博义及其评论),并依据倾向性强度(即,度量博丈对特定查询的强弱)进行排序。目前大多数研究工作仅仅通过单个博文单元对查询主题的倾向性强弱对博文进行排序。然而,因为博客是博主表达自己观点情感的媒介,所以博主的个性风格能够很大程度上影响着倾向性强度。例如,乐观的博主往往用褒义程度比较强的倾向词来赞美某一事件,而悲观的博主则往往用褒贬程度比较弱的倾向词。因此,同样一个倾向词对于不同的博主所表达的倾向性强弱不一样,不能忽略博主因素,而仅仅使用单一的博文单元获取倾向性评分,否则会带来倾向性评分带来较大偏差。为此,本文首先分析博主背景因素对倾向性评分的影响并建立博主背景模型,然后提出一个基于博主背景的博客倾向性检索归一化策略,最后使用该策略对基于概率推理的博客倾向性检索算法进行归一化。实验结果表明,基于博主背景的倾向性榆索归一化策略能够更加合理地对博主单元进行排序。
  • 摘要:企业文档集上的专家检索通过返回具有特定知识或技能的企业内雇员更好地满足用户的信息检索需求。本文对企业环境中的专家检索进行,综述,分类论述了专家检索研究中的主要模型和关键技术。使用公开的标准数据集和评测手段,实验对比分析了现有的主要模型。总结了专家检索中尚未解决好的问题和可能的研究方向。
  • 客服微信

  • 服务号