同义词词林
同义词词林的相关文献在1985年到2022年内共计90篇,主要集中在自动化技术、计算机技术、汉语、科学、科学研究
等领域,其中期刊论文79篇、会议论文8篇、专利文献12767篇;相关期刊49种,包括情报杂志、湖北工程学院学报、中国俄语教学等;
相关会议6种,包括全国第五次情报检索语言发展方向研讨会、全国Web信息系统及其应用学术会议、全国语义Web与本体论学术研讨会暨全国电子政务技术与应用学术研讨会、2008年中国信息技术与应用学术论坛等;同义词词林的相关文献由195位作者贡献,包括王汀、杨泉、刘经纬等。
同义词词林—发文量
专利文献>
论文:12767篇
占比:99.32%
总计:12854篇
同义词词林
-研究学者
- 王汀
- 杨泉
- 刘经纬
- 吕学强
- 付鹏斌
- 刘丹丹
- 刘端阳
- 周国栋
- 唐悦
- 张东站
- 张俊飞
- 张宜浩
- 彭成
- 施水才
- 朱新华
- 李晓
- 杨惠荣
- 段利国
- 熊世桓
- 王东
- 王良芳
- 王霞
- 程月
- 程涛
- 胡运发
- 苏新春
- 赵泽宇
- 金澎
- 钱龙华
- 闫华
- 闵可锐
- 陈宏朝
- 陈帅帅
- 马润聪
- 高迎
- 齐冬梅
- 丁建立
- 万小军
- 于俊婷
- 亢世勇
- 付剑锋
- 何宏业
- 何育枫
- 余维杰
- 俞士汶
- 兰丹媚
- 冀付军
- 冉强
- 冉蜀阳
- 刘伍颖
-
-
陈靖元;
周刚;
卢记仓
-
-
摘要:
目前基于信息含量的中文词语相似度算法普遍使用单一的知识库,存在信息不完备的问题.本文在现有的基于HowNet信息含量的词语相似度算法和基于同义词词林信息含量的词语相似度算法基础上,改进了信息含量的计算方法,并根据词语的不同分布情况将两种算法进行动态融合,充分利用了HowNet和同义词词林中的体系结构信息,改善了现有方法的局限性.经Miller&Charles(MC30)数据集测评,该算法所得到的词语相似度值与人工判定值之间的皮尔森相关系数为0.927,验证了融合多知识库策略的可行性,也证明了本文方法在实用方面可以达到符合人类主观判断的效果.
-
-
杨泉
-
-
摘要:
目前,词语语义相似度计算结果与人工判别结果存在一定差距主要是因为基于知识本体的语义相似度计算一般都是从数学计算的角度直接利用语义分类词典,而没有从词汇学角度充分利用词典中的语言学知识.因而提出运用语义场理论分析《同义词词林》中词语间的组织关系,阐述深度对语义相似度的决定性作用及分支信息的辅助作用.并且在《词林》深度与分支信息相结合的基础上,提出Logistic函数计算模型.运用上述方法对MC30语义相似度的计算结果与人工标注值之间的皮尔逊相关系数达到0.9540;均方根误差为0.0191;对RG65语义相似度的计算结果与人工标注值之间的皮尔逊相关系数达到0.9434;均方根误差为0.0193.
-
-
杨泉
-
-
摘要:
语义相似度计算就是把词语间语言学上的信息映射为0到1之间的数值.基于知识本体的语义相似度计算方法,利用知识本体提供的信息,建立词语关系和语义相似度之间的函数关系,该方法可解释性强、使用简单,成为语义相似度计算的一类重要方法.提出了一种基于《同义词词林》的语义相似度计算模型,该模型运用遗传算法探索了《同义词词林》语义编码与语义相似度之间的内在联系,建立了更符合《同义词词林》中所蕴含的语义相似信息的函数关系式.该方法使用遗传算法搜索知识与语义相似度的函数表达式,克服了先验模型中函数形式及调节参数的局限性,所得计算结果与人工判定结果的皮尔逊相关系数为0.8645,为使用人工智能方法挖掘自然语言处理中的规律提供了一种新的思路和方法.
-
-
吴锦池;
余维杰
-
-
摘要:
[目的/意义]文本聚类是自然语言处理的重要分支,在文本挖掘、文献资源管理和知识发现等领域都有着重要作用.基于传统文本表示模型的文本聚类无法充分利用词语间的语义关系,且当文本数据量过大时,文本向量难以避免地会变得十分稀疏,进而影响聚类效果.[方法/过程]针对以上问题,本文从词语语义关系的角度出发,基于知网知识库和同义词词林知识库的义原层次结构关系扩充文本的语义信息,使文本特征之间的语义关联充分保留,并根据文本特征之间的义原距离计算特征之间相似度,再通过特征之间相似度计算文本相似度.[结果/结论]实验结果显示,基于本文方法的文本聚类在查准率、召回率和F1值等指标上都有较好的表现.
-
-
谢明鸿;
冉强;
王红斌
-
-
摘要:
远程监督是一种根据知识库自动对齐实体进行大规模语料标注的方法,但过强的假设导致获取的语料混有大量的噪声.针对这一问题,提出了一种基于同义词词林和规则的中文远程监督人物关系抽取方法,该方法基于多示例学习思想将人物关系句子划分为包(bag)级,利用同义词词林对人物关系触发词做词频统计,确定最大词频候选关系和次大词频候选关系,再结合特定的人物关系判别规则判断人物关系.对bag判断出某个人物关系后,再对其进一步进行多关系预测,最终得到人物关系预测结果.在大规模的中文远程监督人物关系抽取公开数据集(IPRE)上的实验结果表明,所提方法得到的结果具有较好的F1值,并且能识别远程监督数据测试集标签所没标注出的人物关系.
-
-
杨泉
-
-
摘要:
设计了一种基于决策树算法的N1+N2结构语法关系判定方法.首先建立了该结构的语料库,对每条语料都标注构建特征集所需的词性、《同义词词林》语义编码、语法关系和词义相似度等信息;然后为证明相似度在判断语法关系中的合理性,根据语言学原理研究了N1+N2结构两个名词间语义相似度与语法关系之间的内在规律:①从语法关系的角度比较两个名词间的语义相似度结果为:并列关系>复指关系>定中关系>主谓关系;②从语言功能焦点的角度比较两个名词间的语义相似度结果为:并焦型短语>后焦型短语.最后以此为基础构建了特征集,运用决策树C4.5算法建立了自动判定N1+N2结构语法关系的方法.运用该算法在自建语料库的测试集中进行测试,正确率为89.39%.
-
-
-
杨泉;
孙玉泉
-
-
摘要:
针对词义相似度计算问题,在《同义词词林》的基础上,从语言学角度分析了《词林》中词语间的组织关系,阐述了父结点深度对词义相似度的决定性作用.统计了各层结点及原子词群大小的分布情况.提出了仅使用父结点深度的计算模型和父结点深度与其分支信息相结合的计算模型.运用上述两种方法的词义相似度计算结果与Miller的人工标注值之间的皮尔逊相关系数达到0.854和0.857,根方误差达到1.003和0.991.
-
-
李小涛;
游树娟;
陈维
-
-
摘要:
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题,提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同,在词义向量模型中多义词按不同词义被分成多个单义词,每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息,对语料库中不同上下文的多义词进行词义消歧;然后基于词义消歧后的文本训练词义向量模型,实现了现有词向量模型无法完成的精确词义表达;最后对两个比较词进行词义分解和同义词扩展,并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度.
-
-
-
-
王世清;
吴雯娜;
常春
- 《全国第五次情报检索语言发展方向研讨会》
| 2009年
-
摘要:
本文分析了在网络环境下叙词表编制过程中,等同关系获取的重要性,介绍了叙词表编制过程中专业候选词的数据来源.在此基础上,重点研究了等同关系获取的5种方法,分别是基于字面相似度识别方法、基于《同义词词林》语义词典的相似度识别方法、基于模式匹配的同义词识别方法、基于多字词的词素切词识别方法和基于英译名一致性识别方法,并对每种方法作了试验分析,最后对各种方法作了对比分析.
-
-
-
- 《全国Web信息系统及其应用学术会议、全国语义Web与本体论学术研讨会暨全国电子政务技术与应用学术研讨会》
| 2008年
-
摘要:
针对中文实体关系抽取的难点问题,本文在原有的基于Bootstrapping思想进行实体关系抽取的方法上进行了改进.一方面提出了使用《同义词词林》作为计算词语语义相似度的工具,从而获取更多的与种子词相似语义关系的特征词;另一方面通过自学习种子集合不断扩展,并利用最终得到的种子信息获取正例.然后使用查询扩展技术从这些正例中生成查询,通过这些查询可以从大量的文本数据库中检索出潜在的文档,减少了抽取的时间.实验结果表明,该方法能够有效地抽取出实体关系,并且有较高的召回率和准确率。
-
-
程月;
南京师范大学中北学院;
陈小荷;
李斌
- 《第七届中文信息处理国际会议》
| 2007年
-
摘要:
本文基于《同义词词林》的义类信息,对动宾搭配短语进行了相关考察与实验。主要从100万字的清华汉语树库(TCT973)中抽取两种类型的动宾搭配词对,共计50611对次(tokens)。考察了高频双字动词所带宾语的义类分布情况,并基于义类信息对依存树库中的动词进行了动宾搭配识别实验,以"发展"为例讨论了义类信息的效用与不足。
-
-
-
闵可锐;
唐悦;
胡运发;
赵泽宇;
闫华
- 《第十届中国机器学习会议》
| 2006年
-
摘要:
介绍Web文档聚类的应用,针对现有文档聚类算法缺乏动态更新能力、经验参数过多以及缺乏对新词的把握等不足,提出动态调整的Web文档增量聚类(DynamicallyAdjustedIncrementalWebDocumentClustering,DAIWDC)算法,并使用同义词词林优化结果.该算法在实验中达到了88﹪的正确率和75﹪的全面率,表明其具有较高的实用价值.
-
-
吕静;
昝红英
- 《第三届学术计算语言学研讨会》
| 2006年
-
摘要:
自动文摘一直是自然语言处理领域研究的重点和难点.本文在目前的研究状况下,进行了基于语义统计的中文自动文摘研究.主要工作包括:提出一种对HTML网页语料进行预处理的方法;利用,构建概念层次树,在文摘抽取过程中引入了语义信息:通过计算句子重要度,实现了对中文文本的自动摘要和自动索引.试验结果表明,本文提出的方法对多数测试文本都取得了良好效果,优于机械式自动文摘方法.
-
-
吕静;
昝红英
- 《第三届学术计算语言学研讨会》
| 2006年
-
摘要:
自动文摘一直是自然语言处理领域研究的重点和难点.本文在目前的研究状况下,进行了基于语义统计的中文自动文摘研究.主要工作包括:提出一种对HTML网页语料进行预处理的方法;利用,构建概念层次树,在文摘抽取过程中引入了语义信息:通过计算句子重要度,实现了对中文文本的自动摘要和自动索引.试验结果表明,本文提出的方法对多数测试文本都取得了良好效果,优于机械式自动文摘方法.
-
-
吕静;
昝红英
- 《第三届学术计算语言学研讨会》
| 2006年
-
摘要:
自动文摘一直是自然语言处理领域研究的重点和难点.本文在目前的研究状况下,进行了基于语义统计的中文自动文摘研究.主要工作包括:提出一种对HTML网页语料进行预处理的方法;利用,构建概念层次树,在文摘抽取过程中引入了语义信息:通过计算句子重要度,实现了对中文文本的自动摘要和自动索引.试验结果表明,本文提出的方法对多数测试文本都取得了良好效果,优于机械式自动文摘方法.