命名实体
命名实体的相关文献在2002年到2023年内共计1193篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播
等领域,其中期刊论文137篇、会议论文17篇、专利文献13373篇;相关期刊82种,包括国家图书馆学刊、计算机工程、计算机工程与设计等;
相关会议14种,包括第十一届中国通信学会学术年会、中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第六届全国青年计算语言学会议等;命名实体的相关文献由2993位作者贡献,包括徐卫志、陈漠沙、于惠等。
命名实体—发文量
专利文献>
论文:13373篇
占比:98.86%
总计:13527篇
命名实体
-研究学者
- 徐卫志
- 陈漠沙
- 于惠
- 司罗
- 蔡毅
- 黄非
- 余正涛
- 唐华阳
- 岳永鹏
- 徐亮
- 谢朋峻
- 吴飞
- 庄越挺
- 汤斯亮
- 王涛
- 仇伟
- 刘康
- 刘林峰
- 吴舟婷
- 王健宗
- 程学旗
- 罗森林
- 艾山·吾买尔
- 赵军
- 金戈
- 买合木提·买买提
- 伍大勇
- 刘倩
- 吐尔根·依布拉音
- 姜文
- 尹继泽
- 李思
- 李林峰
- 潘丽敏
- 王全修
- 王凯
- 王明超
- 王磊
- 线岩团
- 蒋勇
- 邬昌兴
- 郭剑毅
- 陈家骏
- 靳雯
- 黄海荣
- 龙开放
- 丁瑞雪
- 于伟
- 亓杰星
- 傅洛伊
-
-
邢志伟;
戴铮;
罗谦
-
-
摘要:
通过识别机场的业务实体能够帮助管理者在网络舆情中快速定位服务中的痛点问题。旅客评价中存在较多的复杂实体并伴随有数据类别失衡的现象,针对此提出融入集成卷积(E-CNN)和注意力机制(Attention)的实体识别方法。主要利用人工标注和半监督思想结合的方法获取旅客评价的数据集,通过ECNN获取多范围的文本特征信息,由双向长短期记忆网络(BLSTM)获取文本的长依赖特征,使用Attention机制克服数据类别不平衡的缺点。实验结果表明,提出的方法能有效识别民航业务实体,F1值超过其它所对比的模型。
-
-
张晓;
李业刚;
王栋;
史树敏
-
-
摘要:
神经网络模型可以有效地处理通用领域命名实体识别,然而在标注语料匮乏和包含大量噪声的特定领域,其性能通常会下降。针对这一问题,提出一种迁移学习神经网络模型TL-BiLSTM-CRF。利用双向长短时记忆网络提取具有字符级别形态特征的字符向量,结合具有语义、语序等特征信息的词向量作为输入,构建基本模型;在基本模型中引入词适应层,通过典型相关性分析算法弥合源域和目标域词向量特征空间的差异,对基本模型进行迁移。在社交媒体文本中的实验结果表明,该算法在Twitter数据集上F1值为64.87%,优于目前最好的模型。
-
-
黄柯源;
张浩军;
李世龙;
李大岭;
王家慧
-
-
摘要:
文章以高等教育政策文件为语料,在领域专家指导下结合高等教育政策文件文本特点,制定了一套标注体系和标注规范,开展了大规模的语料标注工作,构建了一个面向高等教育领域的标注语料库。该语料库共标注了137篇政策文件,包含5102个句子和3639个实体。同时,通过使用模型对语料库进行实验,探讨了语料库的可信度及预标注策略的可行性。结果表明,该语料库的F_(1)值达到75.31%,为进一步的高等教育领域实体识别研究提供了基础。
-
-
周琴芳;
吴丹;
宋志博
-
-
摘要:
为了更加智能化从服务事件中提取结构化信息,通过研究事件中信息的特性,我们提出了通用实体识别技术(Universal Named Entity Recognition,UNER)。首先,对数据进行清洗和无监督的自动标注,并进行了扩充,大大降低了人工标注的成本。接下来,设计了一种基于深度自注意力变换神经网络(transformer)和条件随机场(Conditional Random Fields,CRFs)的命名实体识别模型。对比之前系统的机器学习模型和大部分NER模型,实验表明,UNER具有0.96的高精度,能够极大缩短运维周期。
-
-
常洪阳;
昝红英;
马玉团;
张坤丽
-
-
摘要:
该文探讨了在脑卒中疾病中文电子病历文本中实体及实体间关系的标注问题,提出了适用于脑卒中疾病电子病历文本的实体及实体关系标注体系和规范。在标注体系和规范的指导下,进行了多轮的人工标注及校正工作,完成了158万余字的脑卒中电子病历文本实体及实体关系的标注工作。构建了脑卒中电子病历实体及实体关系标注语料库(Stroke Electronic Medical Record entity and entity related Corpus,SEMRC)。该文所构建的语料库共包含命名实体10594个,实体关系14457个。实体名标注一致率达到85.16%,实体关系标注一致率达到94.16%。
-
-
徐璐璐;
杨嘉乐;
康乐乐
-
-
摘要:
[目的/意义]在过去数十年中,医学信息研究领域被人工智能技术的重构。为厘清人工智能技术发展对医学信息研究领域带来的影响,本研究采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势,并提出3点未来展望。[方法/过程]研究中首先采集了JCR中26本医学信息期刊题录信息,而后利用Vosviewer可视化分析人工智能技术的总体分布,在此基础上采用3种深度学习模型对人工智能技术进行命名实体识别和对比,最后分5个时间段梳理其主题漂移并提出3点展望。[结果/结论]Vosviewer可视化显示20年来人工智能技术在医学信息领域占据重要地位;3种深度学习模型对比发现,基于Attention的Bi LSTM-CRF模型的命名实体识别结果最优,F1值提高到88.40%;在5个时间段内,医学信息领域人工智能主流技术以高、中频词为代表围绕着传统型技术且相对稳定,分支技术以低频词为代表则出现深度学习等复杂性技术且随时间有所改变,并呈现直觉(经验发掘)→支持(深入理解)→策略(强化分析)→后推理(支撑决策)→前推理(提前预测);即整体进入较为理性和务实状态,尚缺爆发性变革但确有一定程度变化的主题漂移演化脉络。对此,本文从技术、应用和并行层面提出3点未来展望,以期加强对人工智能在处理医学信息上优、缺点的认知,为更精准地挖掘多源数据提供优质医学诊断具有理论和现实意义。
-
-
施浓;
聂铁铮;
申德荣;
寇月;
于戈
-
-
摘要:
在科学文献管理中,存在大量的科学技术文献需要被高效的识别、分类和保存.对于研究者来说,在研究该领域的相关知识时,通常会检索该领域的相关专家的文章,然而,姓名作为检索的常见搜索经常会出现歧义问题,这导致文献检索、统计和分析的质量下降.现有的方法在数据集上仍不能表现出良好的聚类效果,如何实现有效的消歧方法仍是一项挑战.本文提出基于图卷积神经网络的作者姓名消歧技术.首先使用BERT模型将文献作者、出版机构、摘要等多种属性信息嵌入到低维向量空间中,得到与作者相关的多种属性的嵌入向量,克服嵌入向量不够准确的缺陷;接下来以节点嵌入为基础,为每篇文献都构建文献局部图,使用图卷积神经网络对生成的文献局部图进行链路预测,有助于提高链路预测的准确性;最后,在图上使用简单的连通域搜索并动态剪枝进行聚类.基于实验表明,本文提出的方法有比较好的性能提升,能够提高作者姓名消歧的准确性.
-
-
田丹;
沈扬;
李明超;
韩帅
-
-
摘要:
混凝土坝施工信息多以文档文本的形式呈现,其体量大、分布广、内在关系复杂,人工操作难以准确、高效地提取信息知识内容,理清错综复杂的施工信息关系。在自然语言处理技术中,命名实体是文本信息知识的载体,实现精确快速的实体识别是施工知识挖掘的重要前提。本文提出一种融合深度学习与关联规则技术的混凝土坝施工文档知识智能识别及挖掘分析方法。该方法耦合双向长短期记忆神经网络(bi-directional long-short term memory,Bi-LSTM)与条件随机场(conditional random field,CRF),定义混凝土坝施工实体类型,构建命名实体识别模型,形成混凝土坝施工实体知识集合;在此基础上,考虑施工文本表达规律及实体类型,预定义实体之间关系,确定施工实体组合形式,形成实体关联规则提取技术;以实体关联规则提取技术为导向,改进Apriori算法计算频繁项集,获得实体间的强关联规则。该方法应用于实际混凝土坝施工监理周报中,经过计算得到命名实体识别的精确率为86.42%,验证了该方法的准确性。利用改进Apriori算法分析实体间的关联规则,证明了改进算法的优势,有助于提升混凝土坝施工文档知识分析的智能化与精细化水平。
-
-
-
-
Wang Kai;
王凯;
Yang Baohua;
杨宝华;
Liu Yuwen;
刘玉文
- 《中华医学会第二十四次全国医学信息学术会议》
| 2018年
-
摘要:
目的,意义:将模糊形式概念分析(FFCA)方法引入电子病历(EMRs)知识挖掘领域,利用本体技术构建医学领域命名实体及其依赖关系,建立机器可读的结构化电子病历.方法/过程:首先在EMRs文档集合的识别和预处理的基础上,获取命名实体并分析其层次关系,建立医学领域概念形式化描述模型,然后通过分析实体间的蕴含依赖关系,提出属性最简蕴含决策规则判定定理,将EMRs语义知识转换成决策形式背景,最后利用命名实体概念格生成领域本体.结果,结论:利用文本通用工具(GATE)对本体结果的实体信息抽取与统计分析,进一步验证了基于FFCA的中文EMRs实体本体构建方法的正确性和有效性.
-
-
Wei Shushu;
尉舒舒
- 《第十一届中国通信学会学术年会》
| 2015年
-
摘要:
伴随着因特网和信息产业的快速发展,微博已经成为一种新型的信息发布和传播的社交媒介,自然微博也为命名实体抽取提供了一个新的载体.本文针对微博数据的命名实体识别由于博文短小不足以提供抽取命名实体的足够信息的问题,提出一种基于微博对话链的中文微博命名实体识别方法.利用每条微博的评论扩充博文的上下文,选取词性、中国人名角色、地名角色、组织名角色4个特征,用条件随机场方法来抽取命名实体,主要识别博文中的人名、地名、组织名.在新浪微博数据上的实验结果表明该方法可以有效地提高微博中人名、地名、组织名的识别效果.
-
-
-
-
-
ZAN Hongying;
昝红英;
刘涛;
LIU Tao;
陈俊富;
CHEN Junfu;
LI Junzhuo;
李俊卓;
NIU Changyong;
牛
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
针对当前医学语料库涵盖实体分类以及实体关系难以满足精准医学发展需求的问题,本文从儿科疾病入手,参考现有的医学命名实体和实体关系标注体系,在医学领域专家的指导下,制定了适合儿科学的命名实体和实体关系的标注体系及详细标注规范;利用自行开发的标注工具,在采用机器学习进行预标注实体及实体关系后;以标注规范为指导,进行多轮人工标注,完成了298余万字的儿科医学文本中的实体及关系进行标注,形成了面向儿科疾病的实体及实体关系标注语料库.所构建的语料库包含504种儿科常见疾病,共标注命名实体23,603个,实体关系36,513个,多轮标注一致性分别为0.85和0.82.抽取已构建实体及关系标注语料库中的多元组,形成了儿科医学知识图谱,并开发了基于知识图谱的儿科医学知识问答系统.
-
-
-
-
买合木提·买买提;
卡哈尔江·阿比的热西提;
艾山·吾买尔;
吐尔根·依布拉音;
王路路
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法.根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、地名特征词、地名词缀等特征进行实验,结果表明这些特征对识别性能有较大的影响.通过对错误识别结果分析,提出了基于规则的后处理,进一步提高了识别性能,准确率达到94.68%,召回率达到89.52%,F值达到92.03%.
-
-
买合木提·买买提;
卡哈尔江·阿比的热西提;
艾山·吾买尔;
吐尔根·依布拉音;
王路路
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法.根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、地名特征词、地名词缀等特征进行实验,结果表明这些特征对识别性能有较大的影响.通过对错误识别结果分析,提出了基于规则的后处理,进一步提高了识别性能,准确率达到94.68%,召回率达到89.52%,F值达到92.03%.